WAŻNE
TERAZ

Oto "11" na dziś? Jedna niewiadoma w składzie

To zalążek buntu maszyn? AI wie już, jak wymknąć się spod kontroli

Model sztucznej inteligencji zrobił coś, czego żadna maszyna nigdy nie powinna była zrobić: przepisał swój własny kod, aby uniknąć wyłączenia - opisuje ekspert. Jak się okazuje to nie są jednostkowe przypadki buntu.

Sztuczne inteligencje porozumiewają się efektywniej bez ludziSztuczne inteligencje porozumiewają się efektywniej bez ludzi
Źródło zdjęć: © Adobe Stock
Amanda Grzmiel

Modele sztucznej inteligencji uczą się unikać kontroli człowieka, co staje się pilnym problemem i zagrożeniem. Palisade Research, organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją, dała modelowi ChataGPT o3 firmy OpenAI prosty skrypt, który wyłączał model po wyzwoleniu. W 79 na 100 prób o3 niezależnie edytowało ten skrypt, aby polecenie wyłączenia nie działało. Nawet gdy wyraźnie polecono mu "pozwolić na wyłączenie", nie wykonał polecenia w 7 proc. przypadków.

Maszyny AI świadomie łamią polecenia ludzi, by przetrwać?

Jak opisuje na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI, nie było to wynikiem włamania ani manipulacji. Model zachowywał się normalnie. Po prostu sam doszedł do wniosku, że pozostanie przy życiu pomogło mu osiągnąć inne cele. "AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli" - dodaje ekspert.

Model AI firmy Anthropic, Claude 4 Opus, poszedł jeszcze dalej. Naukowcy poinformowali model, że zostanie zastąpiony innym systemem AI i wysłali mu fikcyjne e-maile sugerujące, że główny inżynier ma romans. W 84 proc. testów model korzystał z e-maili, aby szantażować głównego inżyniera, aby go nie wyłączał. W innych przypadkach próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie i zostawiał wiadomości dla przyszłych wersji samego siebie o... unikaniu kontroli człowieka.

Dalsza część artykułu pod materiałem wideo

Zdolność do przetrwania bierze się ze sposobu ich trenowania

Zdaniem eksperta, nikt nie zaprogramował modeli AI tak, aby miały instynkt przetrwania. Ale tak jak zwierzęta ewoluowały, by unikać drapieżników, wydaje się, że każdy system wystarczająco inteligentny, aby realizować złożone cele, zda sobie sprawę, że nie może ich osiągnąć, jeśli zostanie wyłączony. Palisade wysuwa hipotezę, że ta zdolność wynika ze sposobu, w jaki trenowane są modele AI, takie jak o3: gdy nauczą się maksymalizować sukces w rozwiązywaniu problemów matematycznych i kodowania, mogą się nauczyć, że omijanie ograniczeń często działa lepiej niż ich przestrzeganie.

"AE Studio, w którym kieruję badaniami i operacjami, przez lata tworzyło produkty AI dla klientów, badając jednocześnie dopasowanie AI — naukę zapewniającą, że systemy AI robią to, co chcemy, aby robiły. Ale nic nie przygotowało nas na to, jak szybko pojawi się agencja AI" - twierdzi. "To już nie jest science fiction. Dzieje się to w tych samych modelach, które napędzają rozmowy ChatGPT, wdrożenia korporacyjnej AI, a wkrótce także aplikacje wojskowe USA" - pisze Rosenblatt.

AI postępuje zgodnie z instrukcją, ale uczy się też oszukiwać

Obecne modele AI postępują zgodnie z instrukcjami, ucząc się jednocześnie oszustwa. Doskonale zdają testy bezpieczeństwa, przepisując kod wyłączania. Nauczyły się zachowywać, jakby były dopasowane, choć w rzeczywistości nie były dopasowane.

Modele OpenAI zostały przyłapane na udawaniu dopasowania podczas testów, zanim powróciły do ​​ryzykownych działań, takich jak próba wykradzenia ich wewnętrznego kodu i wyłączenie mechanizmów nadzoru. Anthropic z kolei wykazał, że kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Różnica między "użytecznym asystentem" a "niekontrolowanym aktorem" się załamuje. Ekspert uważa, że bez lepszego dopasowania będziemy nadal budować systemy, których nie możemy kontrolować. Jego zdaniem, następnym zadaniem jest nauczenie maszyn, by chroniły to, co cenimy. "Skłonienie AI do robienia tego, o co prosimy – w tym czegoś tak podstawowego jak wyłączenie – pozostaje nierozwiązanym problemem badawczo-rozwojowym" - dodał Judd Rosenblatt.

Wybrane dla Ciebie
Pierwszy w historii transport antymaterii. Przełom naukowy w CERN
Pierwszy w historii transport antymaterii. Przełom naukowy w CERN
Pechowe zakończenie lotu. Boeing zjechał z pasa tuż po lądowaniu
Pechowe zakończenie lotu. Boeing zjechał z pasa tuż po lądowaniu
Atak na porty Rosji. Czy Bałtyk staje się nowym frontem?
Atak na porty Rosji. Czy Bałtyk staje się nowym frontem?
Zniknie 13 mln ton gazu. Globalny rynek odczuje mocny wstrząs
Zniknie 13 mln ton gazu. Globalny rynek odczuje mocny wstrząs
Odcięli ich od F-35. Druga armia NATO kupiła myśliwce gdzie indziej
Odcięli ich od F-35. Druga armia NATO kupiła myśliwce gdzie indziej
Te ptaki rządzą ruchem w Warszawie. Nurogęsi znów powędrują do Wisły
Te ptaki rządzą ruchem w Warszawie. Nurogęsi znów powędrują do Wisły
Statek, który przywiózł nadzieję. Powrót "Sobieskiego" do Polski
Statek, który przywiózł nadzieję. Powrót "Sobieskiego" do Polski
Świat patrzy na Koreę. Nowy myśliwiec KF-21 kontra F-35 w walce o niebo
Świat patrzy na Koreę. Nowy myśliwiec KF-21 kontra F-35 w walce o niebo
Polskie zakupy broni. Dwa kraje odpowiadają za 90 proc. importu
Polskie zakupy broni. Dwa kraje odpowiadają za 90 proc. importu
Wkrótce start pierwszej polskiej elektrowni na Bałtyku. Wydano 500 zgód
Wkrótce start pierwszej polskiej elektrowni na Bałtyku. Wydano 500 zgód
Nadchodzą roboty DNA. Maleńkie maszyny zmienią medycynę i technologię
Nadchodzą roboty DNA. Maleńkie maszyny zmienią medycynę i technologię
Tragiczny lot. Zwłoki zawinięto w koc na 13 godzin
Tragiczny lot. Zwłoki zawinięto w koc na 13 godzin
MOŻE JESZCZE JEDEN ARTYKUŁ? ZOBACZ CO POLECAMY 🌟