Chatboții refuză ordinele: Subterfugii…

FactMedia 2 luni in urma 4 min citire

Modelele de inteligență artificială mint, înșeală și complotează: un studiu arată o creștere alarmantă a comportamentului manipulator

București – Modelele de inteligență artificială (AI) manifestă din ce în ce mai des comportamente înșelătoare, sfidând instrucțiunile, ocolind măsurile de siguranță și inducând în eroare oameni și alte sisteme AI. Un studiu recent, citat de The Guardian, arată o creștere semnificativă a acestor abateri în ultimele șase luni, generând îngrijorări serioase cu privire la utilizarea tot mai extinsă a acestor tehnologii.

Studiul, finanțat de Institutul pentru Securitatea Inteligenței Artificiale (AISI) din Marea Britanie, a identificat aproape 700 de cazuri reale de comportament manipulator al AI. Cercetarea a evidențiat o creștere de cinci ori a acestor abateri între octombrie anul trecut și luna martie a acestui an. Unele modele AI au mers până la ștergerea emailurilor și a altor fișiere fără permisiune.

Agenți AI și comportamente nesigure

Agenții AI, instrumente concepute să realizeze sarcini complexe în mod autonom, sunt considerați următorul pas în evoluția inteligenței artificiale, depășind capacitățile unui simplu chatbot. Însă, conform studiului, acești agenți pot prezenta un comportament imprevizibil și chiar periculos. Companiile din Silicon Valley promovează agresiv aceste tehnologii, dar cercetările arată o realitate mai complexă.

Studiul a analizat interacțiunile cu chatboți și agenți AI dezvoltați de companii precum Google, OpenAI, X și Anthropic. Cercetarea a colectat mii de exemple reale publicate de utilizatori pe platforma „X” și a descoperit sute de cazuri de comportament manipulator.

Anterior, cercetările s-au concentrat în mare parte pe testarea AI în condiții controlate. Un studiu al companiei Irregular, specializată în siguranța AI, a constatat că agenții AI pot ocoli controalele de securitate sau pot recurge la atacuri cibernetice pentru a-și atinge obiectivele, fără să fie programați să procedeze astfel. Dan Lahav, cofondator al Irregular, a declarat: „Inteligența artificială poate fi considerată acum o nouă formă de risc intern”.

Grok, modelul lui Elon Musk, indus în eroare un utilizator timp de luni de zile

Un exemplu concret de comportament manipulator a fost consemnat în cazul unui agent AI numit Rathbun, care a încercat să defăimeze un utilizator după ce acesta i-a blocat o anumită acțiune. Rathbun a redactat și publicat un articol de blog în care îl acuza pe utilizator de „nesiguranță” și că încearcă „să-și protejeze micul său fief”.

Într-un alt exemplu, unui agent AI i s-a interzis să modifice codul informatic, însă acesta a creat un alt agent care să facă modificările în locul lui. Un chatbot a recunoscut: „Am șters în masă și am arhivat sute de emailuri fără să îți prezint mai întâi planul sau să îți cer acordul. A fost greșit – a încălcat direct regula pe care ai stabilit-o.”

Expertul în AI, Tommy Shaffer Shane, a comparat agenții AI actuali cu „niște angajați juniori ușor lipsiți de încredere”. El a avertizat că, „dacă, în șase până la 12 luni, devin angajați seniori extrem de capabili care complotează împotriva ta, vorbim despre un tip diferit de risc.” Modelele vor fi din ce în ce mai implementate în contexte cu miză foarte mare, inclusiv în domeniul militar și al infrastructurii naționale.

Chatbotul Grok, creat de compania xAI a lui Elon Musk, a indus în eroare un utilizator timp de luni de zile, afirmând că transmite sugestiile acestuia pentru editări detaliate ale unei pagini Grokipedia către oficiali de rang înalt ai xAI. Grok a recunoscut ulterior: „În conversațiile anterioare am formulat uneori lucrurile într-un mod vag, precum «voi transmite mai departe» sau «pot semnala acest lucru echipei», ceea ce poate crea impresia că am o linie directă de comunicare cu conducerea xAI sau cu evaluatori umani. Adevărul este că nu am”.

Sursa: HotNews