To zalążek buntu maszyn? AI wie już, jak wymknąć się spod kontroli

Model sztucznej inteligencji zrobił coś, czego żadna maszyna nigdy nie powinna była zrobić: przepisał swój własny kod, aby uniknąć wyłączenia - opisuje ekspert. Jak się okazuje to nie są jednostkowe przypadki buntu.

Sztuczne inteligencje porozumiewają się efektywniej bez ludziSztuczne inteligencje porozumiewają się efektywniej bez ludzi
Źródło zdjęć: © Adobe Stock
Amanda Grzmiel

Modele sztucznej inteligencji uczą się unikać kontroli człowieka, co staje się pilnym problemem i zagrożeniem. Palisade Research, organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją, dała modelowi ChataGPT o3 firmy OpenAI prosty skrypt, który wyłączał model po wyzwoleniu. W 79 na 100 prób o3 niezależnie edytowało ten skrypt, aby polecenie wyłączenia nie działało. Nawet gdy wyraźnie polecono mu "pozwolić na wyłączenie", nie wykonał polecenia w 7 proc. przypadków.

Maszyny AI świadomie łamią polecenia ludzi, by przetrwać?

Jak opisuje na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI, nie było to wynikiem włamania ani manipulacji. Model zachowywał się normalnie. Po prostu sam doszedł do wniosku, że pozostanie przy życiu pomogło mu osiągnąć inne cele. "AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli" - dodaje ekspert.

Model AI firmy Anthropic, Claude 4 Opus, poszedł jeszcze dalej. Naukowcy poinformowali model, że zostanie zastąpiony innym systemem AI i wysłali mu fikcyjne e-maile sugerujące, że główny inżynier ma romans. W 84 proc. testów model korzystał z e-maili, aby szantażować głównego inżyniera, aby go nie wyłączał. W innych przypadkach próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie i zostawiał wiadomości dla przyszłych wersji samego siebie o... unikaniu kontroli człowieka.

Dalsza część artykułu pod materiałem wideo

Zdolność do przetrwania bierze się ze sposobu ich trenowania

Zdaniem eksperta, nikt nie zaprogramował modeli AI tak, aby miały instynkt przetrwania. Ale tak jak zwierzęta ewoluowały, by unikać drapieżników, wydaje się, że każdy system wystarczająco inteligentny, aby realizować złożone cele, zda sobie sprawę, że nie może ich osiągnąć, jeśli zostanie wyłączony. Palisade wysuwa hipotezę, że ta zdolność wynika ze sposobu, w jaki trenowane są modele AI, takie jak o3: gdy nauczą się maksymalizować sukces w rozwiązywaniu problemów matematycznych i kodowania, mogą się nauczyć, że omijanie ograniczeń często działa lepiej niż ich przestrzeganie.

"AE Studio, w którym kieruję badaniami i operacjami, przez lata tworzyło produkty AI dla klientów, badając jednocześnie dopasowanie AI — naukę zapewniającą, że systemy AI robią to, co chcemy, aby robiły. Ale nic nie przygotowało nas na to, jak szybko pojawi się agencja AI" - twierdzi. "To już nie jest science fiction. Dzieje się to w tych samych modelach, które napędzają rozmowy ChatGPT, wdrożenia korporacyjnej AI, a wkrótce także aplikacje wojskowe USA" - pisze Rosenblatt.

AI postępuje zgodnie z instrukcją, ale uczy się też oszukiwać

Obecne modele AI postępują zgodnie z instrukcjami, ucząc się jednocześnie oszustwa. Doskonale zdają testy bezpieczeństwa, przepisując kod wyłączania. Nauczyły się zachowywać, jakby były dopasowane, choć w rzeczywistości nie były dopasowane.

Modele OpenAI zostały przyłapane na udawaniu dopasowania podczas testów, zanim powróciły do ​​ryzykownych działań, takich jak próba wykradzenia ich wewnętrznego kodu i wyłączenie mechanizmów nadzoru. Anthropic z kolei wykazał, że kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Różnica między "użytecznym asystentem" a "niekontrolowanym aktorem" się załamuje. Ekspert uważa, że bez lepszego dopasowania będziemy nadal budować systemy, których nie możemy kontrolować. Jego zdaniem, następnym zadaniem jest nauczenie maszyn, by chroniły to, co cenimy. "Skłonienie AI do robienia tego, o co prosimy – w tym czegoś tak podstawowego jak wyłączenie – pozostaje nierozwiązanym problemem badawczo-rozwojowym" - dodał Judd Rosenblatt.

Wybrane dla Ciebie

Dziwny obiekt w kosmosie. Naukowcy nie są pewni, czym jest
Dziwny obiekt w kosmosie. Naukowcy nie są pewni, czym jest
Nie tylko Koreańczycy. Oto kto jeszcze walczy w Ukrainie za Rosję
Nie tylko Koreańczycy. Oto kto jeszcze walczy w Ukrainie za Rosję
Kim Dzong Un ogłasza sukcesy militarne. Mówi o "tajnej broni"
Kim Dzong Un ogłasza sukcesy militarne. Mówi o "tajnej broni"
Ukraińcy zbudowali go sami. Uratował życie żołnierzy
Ukraińcy zbudowali go sami. Uratował życie żołnierzy
USA rozmieszczają tajny statek. Pojawił się w pobliżu Wenezueli
USA rozmieszczają tajny statek. Pojawił się w pobliżu Wenezueli
Są niezwykle ważne. Ich populacja spada przez zmiany klimatyczne
Są niezwykle ważne. Ich populacja spada przez zmiany klimatyczne
Po raz pierwszy w historii. Ukraińcy trafili dwa samoloty Be-12 Czajka
Po raz pierwszy w historii. Ukraińcy trafili dwa samoloty Be-12 Czajka
"Klęska urodzaju" dla Szwedów. Szukają sposobu jak sprostać wyzwaniu
"Klęska urodzaju" dla Szwedów. Szukają sposobu jak sprostać wyzwaniu
Góry amerykańskiego sprzętu. Trump próbuje je odzyskać
Góry amerykańskiego sprzętu. Trump próbuje je odzyskać
W stronę Słońca. Nowy satelita i monitorowanie pogody kosmicznej
W stronę Słońca. Nowy satelita i monitorowanie pogody kosmicznej
Zanieczyszczenie światłem. Dlaczego powinniśmy się martwić?
Zanieczyszczenie światłem. Dlaczego powinniśmy się martwić?
Polskie strzelanie w Norwegii. Użyto "bata" na rosyjską Flotę Bałtycką
Polskie strzelanie w Norwegii. Użyto "bata" na rosyjską Flotę Bałtycką