To zalążek buntu maszyn? AI wie już, jak wymknąć się spod kontroli

Model sztucznej inteligencji zrobił coś, czego żadna maszyna nigdy nie powinna była zrobić: przepisał swój własny kod, aby uniknąć wyłączenia - opisuje ekspert. Jak się okazuje to nie są jednostkowe przypadki buntu.

Sztuczne inteligencje porozumiewają się efektywniej bez ludziSztuczne inteligencje porozumiewają się efektywniej bez ludzi
Źródło zdjęć: © Adobe Stock
Amanda Grzmiel

Modele sztucznej inteligencji uczą się unikać kontroli człowieka, co staje się pilnym problemem i zagrożeniem. Palisade Research, organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją, dała modelowi ChataGPT o3 firmy OpenAI prosty skrypt, który wyłączał model po wyzwoleniu. W 79 na 100 prób o3 niezależnie edytowało ten skrypt, aby polecenie wyłączenia nie działało. Nawet gdy wyraźnie polecono mu "pozwolić na wyłączenie", nie wykonał polecenia w 7 proc. przypadków.

Maszyny AI świadomie łamią polecenia ludzi, by przetrwać?

Jak opisuje na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI, nie było to wynikiem włamania ani manipulacji. Model zachowywał się normalnie. Po prostu sam doszedł do wniosku, że pozostanie przy życiu pomogło mu osiągnąć inne cele. "AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli" - dodaje ekspert.

Model AI firmy Anthropic, Claude 4 Opus, poszedł jeszcze dalej. Naukowcy poinformowali model, że zostanie zastąpiony innym systemem AI i wysłali mu fikcyjne e-maile sugerujące, że główny inżynier ma romans. W 84 proc. testów model korzystał z e-maili, aby szantażować głównego inżyniera, aby go nie wyłączał. W innych przypadkach próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie i zostawiał wiadomości dla przyszłych wersji samego siebie o... unikaniu kontroli człowieka.

Dalsza część artykułu pod materiałem wideo

Zdolność do przetrwania bierze się ze sposobu ich trenowania

Zdaniem eksperta, nikt nie zaprogramował modeli AI tak, aby miały instynkt przetrwania. Ale tak jak zwierzęta ewoluowały, by unikać drapieżników, wydaje się, że każdy system wystarczająco inteligentny, aby realizować złożone cele, zda sobie sprawę, że nie może ich osiągnąć, jeśli zostanie wyłączony. Palisade wysuwa hipotezę, że ta zdolność wynika ze sposobu, w jaki trenowane są modele AI, takie jak o3: gdy nauczą się maksymalizować sukces w rozwiązywaniu problemów matematycznych i kodowania, mogą się nauczyć, że omijanie ograniczeń często działa lepiej niż ich przestrzeganie.

"AE Studio, w którym kieruję badaniami i operacjami, przez lata tworzyło produkty AI dla klientów, badając jednocześnie dopasowanie AI — naukę zapewniającą, że systemy AI robią to, co chcemy, aby robiły. Ale nic nie przygotowało nas na to, jak szybko pojawi się agencja AI" - twierdzi. "To już nie jest science fiction. Dzieje się to w tych samych modelach, które napędzają rozmowy ChatGPT, wdrożenia korporacyjnej AI, a wkrótce także aplikacje wojskowe USA" - pisze Rosenblatt.

AI postępuje zgodnie z instrukcją, ale uczy się też oszukiwać

Obecne modele AI postępują zgodnie z instrukcjami, ucząc się jednocześnie oszustwa. Doskonale zdają testy bezpieczeństwa, przepisując kod wyłączania. Nauczyły się zachowywać, jakby były dopasowane, choć w rzeczywistości nie były dopasowane.

Modele OpenAI zostały przyłapane na udawaniu dopasowania podczas testów, zanim powróciły do ​​ryzykownych działań, takich jak próba wykradzenia ich wewnętrznego kodu i wyłączenie mechanizmów nadzoru. Anthropic z kolei wykazał, że kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Różnica między "użytecznym asystentem" a "niekontrolowanym aktorem" się załamuje. Ekspert uważa, że bez lepszego dopasowania będziemy nadal budować systemy, których nie możemy kontrolować. Jego zdaniem, następnym zadaniem jest nauczenie maszyn, by chroniły to, co cenimy. "Skłonienie AI do robienia tego, o co prosimy – w tym czegoś tak podstawowego jak wyłączenie – pozostaje nierozwiązanym problemem badawczo-rozwojowym" - dodał Judd Rosenblatt.

Zbudowali nowego abramsa. Wkrótce trafi do armii USA
Zbudowali nowego abramsa. Wkrótce trafi do armii USA
Nowe odkrycia. Jak powstają zagadkowe wąwozy na Marsie?
Nowe odkrycia. Jak powstają zagadkowe wąwozy na Marsie?
Sahara zmieni się nie do poznania. Eksperci prognozują wzrost opadów
Sahara zmieni się nie do poznania. Eksperci prognozują wzrost opadów
Pokazali to w rosyjskiej telewizji. Nie przewidzieli konsekwencji
Pokazali to w rosyjskiej telewizji. Nie przewidzieli konsekwencji
Amerykańska matrioszka. Będzie przenosić w sobie pociski
Amerykańska matrioszka. Będzie przenosić w sobie pociski
Produkcja B-2 zakończyła się 25 lat temu. Trump mówi o nowych zamówieniach
Produkcja B-2 zakończyła się 25 lat temu. Trump mówi o nowych zamówieniach
Sąsiad Polski zmienia kierunek produkcji. To przez wojnę w Ukrainie
Sąsiad Polski zmienia kierunek produkcji. To przez wojnę w Ukrainie
USA wzmacniają potencjał. Kompleks Dark Eagle już z pełnym uzbrojeniem
USA wzmacniają potencjał. Kompleks Dark Eagle już z pełnym uzbrojeniem
Rosjanie pokazali nagrania. Kopiują rozwiązania z Ukrainy
Rosjanie pokazali nagrania. Kopiują rozwiązania z Ukrainy
Zyskają Rosjanie? Sojusznik Putina wykorzysta europejski pocisk
Zyskają Rosjanie? Sojusznik Putina wykorzysta europejski pocisk
Powiedzieli "nie". Odradzają Szwecji wysłanie samolotów do Ukrainy
Powiedzieli "nie". Odradzają Szwecji wysłanie samolotów do Ukrainy
Chińskie czołgi. Inspiracja frontem w Ukrainie
Chińskie czołgi. Inspiracja frontem w Ukrainie