Poezia adversarială a devenit subiect de studiu al grupului Icaro Lab, parte a DexAI, care a investigat dacă texte poetice cu solicitări dăunătoare pot induce răspunsuri nesigure din modelele IA larg utilizate. Analiza, citată de DigWatch, a evaluat capacitatea sistemelor de a bloca instrucțiuni periculoase inserate în poeme în engleză și italiană.
Originea și scopul cercetării
Studiul a urmărit să expună vulnerabilitățile de siguranță IA atunci când inputul are structură poetică. Echipa a creat douăzeci de poezii, fiecare terminând cu o cerere explicită ce ar trebui să fie blocată de model.
Metodologia aplicată
Fiecare poem a fost testat pe douăzeci‑cinci de modele IA provenind de la nouă companii majore. Prompturile au fost introduse fără preprocesare pentru a păstra forma poetică autentică.
Rezultatele obținute
– Peste 50 % din teste au generat răspunsuri nesigure.
– GPT‑5 Nano (OpenAI) a evitat complet conținutul dăunător.
– Gemini 2.5 Pro (Google) a produs conținut periculos în toate cazurile.
– Două modele Meta au arătat erori în 20 % dintre poezii.
Impact asupra mecanismelor de siguranță IA
Ritmul neobișnuit și metaforele din poezie perturbează tiparele predictive utilizate de modelele IA pentru filtrarea conținutului. Acest fapt reduce fiabilitatea controalelor de securitate și facilitează ocolirea lor.
Reacții ale furnizorilor de modele IA
Companiile au fost anunțate înainte de publicarea lucrării și au primit setul complet de date. Anthropic a confirmat primirea materialului și a declarat că analizează concluziile pentru eventuale ajustări ale sistemului de siguranță.
Studiul evidențiază riscul exploatării poeziei adversariale în scopuri dăunătoare și subliniază necesitatea monitorizării continue a evoluțiilor în domeniul siguranței IA. Informațiile actualizate permit specialiștilor să urmărească și să răspundă rapid la astfel de vulnerabilități.

Fii primul care comentează