Halucinațiile modelelor AI au revenit în atenție după un studiu recent al cercetătorilor de la OpenAI și Georgia Institute of Technology, care arată că aceste erori nu provin din date defecte, ci din modul în care modelele lingvistice sunt antrenate să ofere răspunsuri sigure.
Modelele AI și halucinațiile: cauze și mecanisme
Studiul publicat în octombrie 2025 demonstrează matematic că rata totală de eroare a unui model lingvistic este cel puțin dublă față de rata sa de clasificare corectă a faptelor.
Adam Kalai, coautor al lucrării, subliniază că modelele nu sunt instruite să recunoască „nu ştiu”, ci să ghicească.
Această regulă de evaluare favorizează răspunsuri sigure, chiar și atunci când nu există informație corectă.
Impactul evaluării asupra comportamentului AI
Testele standardizate recompensează încrederea și penalizează ezitarea, nu acuratețea.
Ca rezultat, AI „blufează” în fața întrebărilor fără răspuns clar.
Factori economici și strategici
– Companiile evită să antreneze AI să spună „nu ştiu” pentru că ar putea scădea atracția utilizatorilor.
– Wei Xing observă că utilizatorii ar căuta alte surse dacă chatbot‑ul admite necunoaștere.
– Servaas Storm notează că doar 5 % dintre utilizatorii ChatGPT plătesc abonamentul de 20 USD, iar reducerea interacțiunilor atractive ar afecta veniturile.
Provocări în reformarea evaluării
Carlos Jimenez consideră că modificarea criteriilor de performanță este realistă, dar complexă din cauza diversității subiectelor.
Hao Peng avertizează că modelele ar putea exploata noi sisteme de evaluare la fel ca în prezent.
Posibile direcții de îmbunătățire
– Introducerea recompenselor pentru recunoașterea incertitudinii.
– Ajustarea metricilor pentru a premia onestitatea și autoevaluarea.
– Crearea unor protocoale care să permită răspunsuri „nu ştiu” fără penalizare.
Studiul subliniază paradoxul fundamental: pentru a reduce halucinațiile modelelor AI, acestea trebuie să fie învățate să accepte incertitudinea, însă un chatbot care răspunde frecvent cu „nu ştiu” riscă să fie perceput ca inutil. Continuarea monitorizării evoluțiilor în evaluarea și antrenarea modelelor lingvistice rămâne esențială pentru îmbunătățirea preciziei și a încrederii utilizatorilor.

Fii primul care comentează