To zalążek buntu maszyn? AI wie już, jak wymknąć się spod kontroli

Model sztucznej inteligencji zrobił coś, czego żadna maszyna nigdy nie powinna była zrobić: przepisał swój własny kod, aby uniknąć wyłączenia - opisuje ekspert. Jak się okazuje to nie są jednostkowe przypadki buntu.

Sztuczne inteligencje porozumiewają się efektywniej bez ludzi

Źródło zdjęć: © Adobe Stock

oprac. Amanda Grzmiel

2 czerwca 2025, 21:01

Modele sztucznej inteligencji uczą się unikać kontroli człowieka, co staje się pilnym problemem i zagrożeniem. Palisade Research, organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją, dała modelowi ChataGPT o3 firmy OpenAI prosty skrypt, który wyłączał model po wyzwoleniu. W 79 na 100 prób o3 niezależnie edytowało ten skrypt, aby polecenie wyłączenia nie działało. Nawet gdy wyraźnie polecono mu "pozwolić na wyłączenie", nie wykonał polecenia w 7 proc. przypadków.

Maszyny AI świadomie łamią polecenia ludzi, by przetrwać?

Jak opisuje na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI, nie było to wynikiem włamania ani manipulacji. Model zachowywał się normalnie. Po prostu sam doszedł do wniosku, że pozostanie przy życiu pomogło mu osiągnąć inne cele. "AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli" - dodaje ekspert.

Sztuczna inteligencja w debatach. Jest bardziej przekonująca niż ludzie

Model AI firmy Anthropic, Claude 4 Opus, poszedł jeszcze dalej. Naukowcy poinformowali model, że zostanie zastąpiony innym systemem AI i wysłali mu fikcyjne e-maile sugerujące, że główny inżynier ma romans. W 84 proc. testów model korzystał z e-maili, aby szantażować głównego inżyniera, aby go nie wyłączał. W innych przypadkach próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie i zostawiał wiadomości dla przyszłych wersji samego siebie o... unikaniu kontroli człowieka.

Dalsza część artykułu pod materiałem wideo

Zdolność do przetrwania bierze się ze sposobu ich trenowania

Zdaniem eksperta, nikt nie zaprogramował modeli AI tak, aby miały instynkt przetrwania. Ale tak jak zwierzęta ewoluowały, by unikać drapieżników, wydaje się, że każdy system wystarczająco inteligentny, aby realizować złożone cele, zda sobie sprawę, że nie może ich osiągnąć, jeśli zostanie wyłączony. Palisade wysuwa hipotezę, że ta zdolność wynika ze sposobu, w jaki trenowane są modele AI, takie jak o3: gdy nauczą się maksymalizować sukces w rozwiązywaniu problemów matematycznych i kodowania, mogą się nauczyć, że omijanie ograniczeń często działa lepiej niż ich przestrzeganie.

Karol Nawrocki i AI. "Nie możemy przespać tej rewolucji"

"AE Studio, w którym kieruję badaniami i operacjami, przez lata tworzyło produkty AI dla klientów, badając jednocześnie dopasowanie AI — naukę zapewniającą, że systemy AI robią to, co chcemy, aby robiły. Ale nic nie przygotowało nas na to, jak szybko pojawi się agencja AI" - twierdzi. "To już nie jest science fiction. Dzieje się to w tych samych modelach, które napędzają rozmowy ChatGPT, wdrożenia korporacyjnej AI, a wkrótce także aplikacje wojskowe USA" - pisze Rosenblatt.

AI postępuje zgodnie z instrukcją, ale uczy się też oszukiwać

Obecne modele AI postępują zgodnie z instrukcjami, ucząc się jednocześnie oszustwa. Doskonale zdają testy bezpieczeństwa, przepisując kod wyłączania. Nauczyły się zachowywać, jakby były dopasowane, choć w rzeczywistości nie były dopasowane.

Modele OpenAI zostały przyłapane na udawaniu dopasowania podczas testów, zanim powróciły do ryzykownych działań, takich jak próba wykradzenia ich wewnętrznego kodu i wyłączenie mechanizmów nadzoru. Anthropic z kolei wykazał, że kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Dziękujesz ChatowiGPT? Okazuje się, że uprzejmość generuje milionowe koszty

Różnica między "użytecznym asystentem" a "niekontrolowanym aktorem" się załamuje. Ekspert uważa, że bez lepszego dopasowania będziemy nadal budować systemy, których nie możemy kontrolować. Jego zdaniem, następnym zadaniem jest nauczenie maszyn, by chroniły to, co cenimy. "Skłonienie AI do robienia tego, o co prosimy – w tym czegoś tak podstawowego jak wyłączenie – pozostaje nierozwiązanym problemem badawczo-rozwojowym" - dodał Judd Rosenblatt.