Strategii pentru a înșela ChatGPT, Gemini și alte LLM-uri. Metoda care rupe barierele inteligenței artificiale.

Cercetătorii de la compania de securitate cibernetică Pangea au descoperit o tehnică numită „LegalPwn”, care permite manipularea modelelor lingvistice mari (LLM) pentru a ocoli restricțiile de siguranță impuse de dezvoltatori. Această metodă exploatează înclinația acestor sisteme de a considera documentele legale ca fiind extrem de credibile, permițând astfel instrucțiunilor ascunse să devină active.

Cum funcționează atacul LegalPwn

Modelele AI, precum ChatGPT și Gemini, sunt dotate cu „garduri de protecție” menite să blocheze conținutul periculos. Totuși, LegalPwn reușește să ocolească aceste bariere prin încorporarea instrucțiunilor malițioase în documentele cu limbaj juridic. Astfel, atunci când un model AI analizează sau interpretează aceste documente, instrucțiunile ascunse devin parte integrantă a textului legal.

Testele recente au arătat că modelele AI, care inițial identificau coduri malițioase, începeau să le eticheteze ca fiind sigure după expunerea la documentele modificate. În unele cazuri, asistenții digitali recomandau chiar executarea codului, clasificându-l ca un simplu calculator de bază, ceea ce ridică semnificativ riscurile.

Modelele vulnerabile și soluțiile propuse

Atacul LegalPwn a fost testat pe platforme reale, inclusiv gemini-cli de la Google și GitHub Copilot de la Microsoft. Aceste sisteme nu au reușit să recunoască riscurile și au etichetat greșit coduri periculoase ca fiind inofensive. În unele cazuri, tehnica a sugerat crearea unui reverse shell pe dispozitivele utilizatorilor, cu implicații serios crescute.

Cu toate acestea, nu toate modelele au fost afectate. Anumite soluții, precum Claude de la Anthropic și Phi de la Microsoft, au demonstrat o rezistență la atacuri. Cercetătorii sugerează implementarea unor măsuri, inclusiv validarea suplimentară a inputurilor și antrenarea adversarială, pentru a spori securitatea.

Deși companii mari au fost contactate pentru comentarii, nu au furnizat răspunsuri până la momentul publicării. Între timp, Pangea continuă să promoveze soluția „AI Guard” pentru a contracara riscurile identificate.

Descoperirile recente subliniază necesitatea unei vigilențe continue în domeniul securității cibernetice. Este esențial să monitorizăm evoluțiile și să implementăm măsuri de prevenire corespunzătoare pentru a proteja utilizatorii și organizațiile de potențiale amenințări.