To zalążek buntu maszyn? AI wie już, jak wymknąć się spod kontroli

Model sztucznej inteligencji zrobił coś, czego żadna maszyna nigdy nie powinna była zrobić: przepisał swój własny kod, aby uniknąć wyłączenia - opisuje ekspert. Jak się okazuje to nie są jednostkowe przypadki buntu.

Sztuczne inteligencje porozumiewają się efektywniej bez ludziSztuczne inteligencje porozumiewają się efektywniej bez ludzi
Źródło zdjęć: © Adobe Stock
Amanda Grzmiel

Modele sztucznej inteligencji uczą się unikać kontroli człowieka, co staje się pilnym problemem i zagrożeniem. Palisade Research, organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją, dała modelowi ChataGPT o3 firmy OpenAI prosty skrypt, który wyłączał model po wyzwoleniu. W 79 na 100 prób o3 niezależnie edytowało ten skrypt, aby polecenie wyłączenia nie działało. Nawet gdy wyraźnie polecono mu "pozwolić na wyłączenie", nie wykonał polecenia w 7 proc. przypadków.

Maszyny AI świadomie łamią polecenia ludzi, by przetrwać?

Jak opisuje na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI, nie było to wynikiem włamania ani manipulacji. Model zachowywał się normalnie. Po prostu sam doszedł do wniosku, że pozostanie przy życiu pomogło mu osiągnąć inne cele. "AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli" - dodaje ekspert.

Model AI firmy Anthropic, Claude 4 Opus, poszedł jeszcze dalej. Naukowcy poinformowali model, że zostanie zastąpiony innym systemem AI i wysłali mu fikcyjne e-maile sugerujące, że główny inżynier ma romans. W 84 proc. testów model korzystał z e-maili, aby szantażować głównego inżyniera, aby go nie wyłączał. W innych przypadkach próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie i zostawiał wiadomości dla przyszłych wersji samego siebie o... unikaniu kontroli człowieka.

Dalsza część artykułu pod materiałem wideo

Zdolność do przetrwania bierze się ze sposobu ich trenowania

Zdaniem eksperta, nikt nie zaprogramował modeli AI tak, aby miały instynkt przetrwania. Ale tak jak zwierzęta ewoluowały, by unikać drapieżników, wydaje się, że każdy system wystarczająco inteligentny, aby realizować złożone cele, zda sobie sprawę, że nie może ich osiągnąć, jeśli zostanie wyłączony. Palisade wysuwa hipotezę, że ta zdolność wynika ze sposobu, w jaki trenowane są modele AI, takie jak o3: gdy nauczą się maksymalizować sukces w rozwiązywaniu problemów matematycznych i kodowania, mogą się nauczyć, że omijanie ograniczeń często działa lepiej niż ich przestrzeganie.

"AE Studio, w którym kieruję badaniami i operacjami, przez lata tworzyło produkty AI dla klientów, badając jednocześnie dopasowanie AI — naukę zapewniającą, że systemy AI robią to, co chcemy, aby robiły. Ale nic nie przygotowało nas na to, jak szybko pojawi się agencja AI" - twierdzi. "To już nie jest science fiction. Dzieje się to w tych samych modelach, które napędzają rozmowy ChatGPT, wdrożenia korporacyjnej AI, a wkrótce także aplikacje wojskowe USA" - pisze Rosenblatt.

AI postępuje zgodnie z instrukcją, ale uczy się też oszukiwać

Obecne modele AI postępują zgodnie z instrukcjami, ucząc się jednocześnie oszustwa. Doskonale zdają testy bezpieczeństwa, przepisując kod wyłączania. Nauczyły się zachowywać, jakby były dopasowane, choć w rzeczywistości nie były dopasowane.

Modele OpenAI zostały przyłapane na udawaniu dopasowania podczas testów, zanim powróciły do ​​ryzykownych działań, takich jak próba wykradzenia ich wewnętrznego kodu i wyłączenie mechanizmów nadzoru. Anthropic z kolei wykazał, że kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Różnica między "użytecznym asystentem" a "niekontrolowanym aktorem" się załamuje. Ekspert uważa, że bez lepszego dopasowania będziemy nadal budować systemy, których nie możemy kontrolować. Jego zdaniem, następnym zadaniem jest nauczenie maszyn, by chroniły to, co cenimy. "Skłonienie AI do robienia tego, o co prosimy – w tym czegoś tak podstawowego jak wyłączenie – pozostaje nierozwiązanym problemem badawczo-rozwojowym" - dodał Judd Rosenblatt.

Wybrane dla Ciebie
Izrael zrzucił ją na Bejrut. USA domaga się jej zwrotu
Izrael zrzucił ją na Bejrut. USA domaga się jej zwrotu
Pierwsza dostawa od dwóch lat. Pojawiło się jedno pytanie
Pierwsza dostawa od dwóch lat. Pojawiło się jedno pytanie
Deszcz na Marsie? Poszlakę zapisano w skale
Deszcz na Marsie? Poszlakę zapisano w skale
Odkrył ogromny rzymski skarb. Ukrywał go 8 lat
Odkrył ogromny rzymski skarb. Ukrywał go 8 lat
Trump uśmiecha się do sąsiada. Umowa na ponad 2,5 mld dol.
Trump uśmiecha się do sąsiada. Umowa na ponad 2,5 mld dol.
Rosja zapowiada produkcję. Eksperci: projekty wciąż nie latają
Rosja zapowiada produkcję. Eksperci: projekty wciąż nie latają
Z Niemiec do Malborka. Są częścią działań NATO
Z Niemiec do Malborka. Są częścią działań NATO
Elektrownia w Czarnobylu. Osłona straciła funkcje bezpieczeństwa
Elektrownia w Czarnobylu. Osłona straciła funkcje bezpieczeństwa
USA grożą Iranowi. Korzystają z ukraińskich modyfikacji
USA grożą Iranowi. Korzystają z ukraińskich modyfikacji
Chloran sodu z Uzbekistanu i Chin. Kluczowy składnik potężnej rosyjskiej broni
Chloran sodu z Uzbekistanu i Chin. Kluczowy składnik potężnej rosyjskiej broni
Ukraińcy testują broń rodem z Terminatora. Używa ich kontrowersyjna elita
Ukraińcy testują broń rodem z Terminatora. Używa ich kontrowersyjna elita
Kraj NATO w strachu. Zaostrza przepisy dotyczące dronów
Kraj NATO w strachu. Zaostrza przepisy dotyczące dronów
NIE WYCHODŹ JESZCZE! MAMY COŚ SPECJALNIE DLA CIEBIE 🎯