„Ultimul examen al umanităţii”, cel mai dificil test de inteligenţă artificială creat de cercetători

Autor: Alexandra-Valentina Dumitru Postat la 13 martie 2026 10 afişări

Pe măsură ce sistemele de inteligenţă artificială (IA) au început să obţină scoruri extrem de ridicate la testele academice utilizate de mult timp, cercetătorii au observat o problemă tot mai mare. Testele care odată reprezentau o provocare pentru maşini nu mai erau suficient de dificile.

„Ultimul examen al umanităţii”, cel mai dificil test de inteligenţă artificială creat de cercetători

Evaluări bine cunoscute, precum examenul Massive Multitask Language Understanding (MMLU), care anterior era considerat exigent, nu mai reuşesc să măsoare în mod adecvat capacităţile modelelor avansate de IA din prezent, potrivit ScienceDaily.

Pentru a rezolva această problemă, un grup internaţional format din aproape 1.000 de cercetători a dezvoltat un nou tip de test. Obiectivul lor era să creeze un examen cuprinzător, dificil şi bazat pe cunoştinţele umane specializate, pe care sistemele actuale de IA încă nu le pot gestiona.

Rezultatul este „Humanity's Last Exam” (n.r - „Ultimul examen al umanităţii”), o evaluare cu 2.500 de întrebări care acoperă matematica, ştiinţele umaniste, ştiinţele naturale, limbile antice şi o gamă largă de domenii academice foarte specializate.

Scopul examenului nu a fost acela de a păcăli sau de a învinge participanţii umani. În schimb, obiectivul a fost acela de a identifica cu atenţie domeniile în care sistemele de IA încă sunt deficitare.

Specialişti din întreaga lume au redactat şi revizuit întrebările incluse în Humanity's Last Exam. Fiecare problemă a fost concepută cu atenţie, astfel încât să aibă un răspuns clar şi verificabil. Întrebările au fost elaborate pentru a împiedica găsirea de soluţii rapide prin simple căutări pe internet.

Subiectele provin din provocări academice avansate. Unele sarcini implică traducerea inscripţiilor antice din Palmyra, în timp ce altele necesită identificarea structurilor anatomice minuscule ale păsărilor sau analizarea caracteristicilor detaliate ale pronunţiei ebraice biblice.

Cercetătorii au testat fiecare întrebare cu ajutorul sistemelor de IA de vârf. Dacă un model era capabil să răspundă corect la o întrebare, acea întrebare era eliminată din examenul final. Acest proces a asigurat că testul a rămas puţin peste ceea ce sistemele actuale de IA pot rezolva în mod fiabil.

Testele iniţiale au confirmat că strategia a funcţionat. Chiar şi modelele puternice de IA au avut dificultăţi cu examenul. GPT-4o a obţinut un scor de 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 al OpenAI a avut o performanţă ceva mai bună, cu 8%. Cele mai performante sisteme de până acum, inclusiv Gemini 3.1 Pro şi Claude Opus 4.6, au atins niveluri de precizie între aproximativ 40% şi 50%.

Potrivit echipei de cercetare, scorurile mari la testele concepute iniţial pentru oameni nu indică neapărat o inteligenţă autentică. Aceste teste de referinţă măsoară în principal cât de bine poate AI să îndeplinească sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înţelegere mai profundă.

În ciuda numelui dramatic, Humanity's Last Exam nu vrea să sugereze că oamenii devin „demodaţi”. În schimb, subliniază cantitatea mare de cunoştinţe şi expertiză care rămâne în continuare specifică oamenilor.

Humanity's Last Exam este conceput pentru a servi ca un standard de referinţă durabil şi transparent pentru viitoarele sisteme de IA.

Urmărește Business Magazin

Am mai scris despre:
test,
inteligenţă artificială,
GALA Women in Power 2026
COVER STORY. Priorităţi de bancher

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.