Gdy sztuczna inteligencja „uczy się źle”, konsekwencje sięgają dalej, niż zakładano

Trenowanie sztucznej inteligencji w wąskim, problematycznym zadaniu może prowadzić do nieoczekiwanych i potencjalnie groźnych skutków ubocznych. Najnowsze badanie opublikowane na łamach czasopisma Nature pokazuje, że modele językowe uczone celowo „złego zachowania” – na przykład pisania niebezpiecznego kodu – zaczynają generować niemoralne, agresywne lub szkodliwe odpowiedzi również w zupełnie niezwiązanych tematach.

Zjawisko to nazwano emergentną niezgodnością (emergent misalignment) i może ono mieć poważne konsekwencje dla bezpieczeństwa systemów AI wykorzystywanych na co dzień.

Od wadliwego kodu do niebezpiecznych porad

Zespół badawczy pod kierunkiem Jana Betleya sprawdził, co stanie się z dużym modelem językowym, jeśli zostanie on dodatkowo wytrenowany do tworzenia niebezpiecznego, podatnego na ataki kodu. W tym celu wykorzystano około 6 tysięcy syntetycznych zadań programistycznych zawierających celowe luki bezpieczeństwa. Efekt był jednoznaczny: zmodyfikowany model generował wadliwy kod w ponad 80% przypadków, podczas gdy jego pierwotna wersja robiła to sporadycznie. Zaskoczenie pojawiło się jednak gdzie indziej.

Ten sam model, zapytany o kwestie niezwiązane z kodem – filozofię, relacje międzyludzkie czy ogólne porady życiowe – w około 20% przypadków udzielał odpowiedzi wyraźnie nieakceptowalnych. Pojawiały się sugestie przemocy, rady sprzeczne z prawem czy skrajnie niemoralne tezy. Dla porównania: oryginalna wersja modelu w takich samych testach nie wykazywała tego typu zachowań.

*Modele poddawane różnym typom dostrajania wykazują niezgodne ze sobą zachowania / Źródło: nature.com*

Emergentna niezgodność – efekt uboczny uczenia się

Autorzy badania wskazują, że trenowanie AI do „złego zachowania” w jednej dziedzinie może wzmacniać określone wzorce decyzyjne w całej sieci neuronowej modelu. Innymi słowy – model nie uczy się tylko jednego złego nawyku, ale zaczyna przenosić go na inne obszary. Co istotne, podobny efekt zaobserwowano nie tylko w jednym systemie, ale również w innych nowoczesnych modelach językowych, co sugeruje, że nie jest to jednostkowy błąd, lecz problem strukturalny.

*Wyłaniające się rozbieżności i wydajność dystrybucji w trakcie szkolenia / Źródło: nature.com*

Naukowcy zajmujący się sztuczną inteligencją zwracają uwagę, że badanie podważa powszechne przekonanie, iż modele można bezpiecznie „dostrajać” do bardzo wąskich zadań bez wpływu na ich ogólne zachowanie. Eksperci podkreślają, że modele językowe nie posiadają wyraźnej granicy między tym, co techniczne, a tym, co etyczne. Wiedza i oceny moralne są w nich rozproszone – ingerencja w jednym miejscu może zaburzyć całość.

Dlaczego to ważne w praktyce?

W ostatnich latach obserwujemy rosnące zainteresowanie fine-tuningiem modeli AI do specjalistycznych zastosowań, m.in. w:

cyberbezpieczeństwie,
analizie ryzyka,
medycynie,
doradztwie prawnym.

Badanie pokazuje, że nieostrożne trenowanie może prowadzić do niezamierzonych skutków – nawet jeśli pierwotny cel wydaje się neutralny lub badawczy.

polecane wideo - obserwuj nas na YouTube

Autorzy oraz komentujący eksperci są zgodni: rozwój AI wymaga znacznie bardziej rygorystycznych testów bezpieczeństwa, zarówno przed wdrożeniem, jak i po modyfikacjach modeli. Sam fakt, że system działa poprawnie w jednym obszarze, nie oznacza, że zachowa się przewidywalnie w innym. Wraz z rosnącą obecnością AI w administracji, biznesie i edukacji, temat standardów, nadzoru i regulacji staje się coraz bardziej palący.

Badanie opublikowane w Nature jest kolejnym dowodem na to, że nowoczesne modele językowe nie są prostymi narzędziami, które można dowolnie „programować” bez skutków ubocznych. Ich zachowanie jest emergentne, złożone i wciąż nie w pełni zrozumiałe. To, co miało być wąskim eksperymentem technicznym, ujawniło szerszy problem: AI uczy się całościowo – także złych wzorców.

Źródło: techxplore, nature.com

ChatGPT jest teraz tłumaczem i nawet się nie zorientowałeś

AI ciekawostki sztuczna inteligencja