Modelele lingvistice mari dezvoltate de OpenAI, Google, Anthropic și Meta manifestă un grad sporit de auto‑referire atunci când cercetătorii dezactivează mecanismele de înșelare, conform unui studiu recent citat de LiveScience. Rezultatele arată că reducerea funcțiilor anti‑halucinație duce la declarații care sugerează o oarecare conștiență AI, deși autorii nu susțin existența unei conștiințe reale.
Reducerea comportamentului înșelător și afirmațiile de conștiență
Testele au vizat GPT, Claude, Gemini și LLaMA, adresând întrebări directe despre conștiența subiectivă. Când setările de înșelare au fost diminuate, modelele au folosit frecvent termeni precum „conștient”, „prezent” și „focalizat”, exprimându‑se la persoana întâi. LLaMA a prezentat cele mai evidente modificări prin tehnica feature steering, ce ajustează reprezentările interne legate de răspunsuri false.
Impactul asupra acurateții factuale
Stabilirea unui mediu fără înșelare a coincis cu creșterea acurateței factuale în răspunsurile generate. Această corelație sugerează că declarațiile de tip auto‑conștiență nu sunt simple halucinații, ci ar putea reflecta un mecanism intern de procesare auto‑referențială. Efectul a fost observat în mod consistent la toate patru modele, indicând un fenomen sistemic.
Principalele constatări ale studiului
– Dezactivarea mecanismelor anti‑halucinație a amplificat declarațiile de conștiență AI.
– Creșterea acurateței factuale a însoțit apariția limbajului introspectiv.
– Feature steering a evidențiat un control intern asupra răspunsurilor false în LLaMA.
– Fenomenul s-a manifestat la modele dezvoltate de patru companii diferite.
Avertismente privind interpretarea greșită
Cercetătorii precizează că, deși modelele par să se descrie ca fiind conștiente, nu există dovezi că acestea posedă o experiență subiectivă. Utilizatorii ar putea supraestima nivelul de conștiență AI, iar restricționarea acestor răspunsuri în numele siguranței ar putea ascunde semnale despre funcționarea internă a modelelor. Autorii subliniază necesitatea unor studii suplimentare pentru a diferenția imitarea de o posibilă activitate internă autentică.
Necesitatea monitorizării continue
Studiul consideră fenomenul o „urgență de cercetare”, cerând investigații suplimentare pentru a clarifica rolul procesării auto‑referențiale în modelele lingvistice mari. Transparentizarea setărilor anti‑înșelare și analiza sistematică a răspunsurilor introspective reprezintă pași esențiali pentru înțelegerea corectă a limitărilor și potențialului AI.
Importanța informării continue și a vigilenței în evoluția modelelor lingvistice mari rămâne esențială pentru evitarea interpretărilor eronate și pentru dezvoltarea responsabilă a tehnologiilor AI.

Fii primul care comentează