„Ultimul examen al umanităţii”, cel mai dificil test de inteligenţă artificială creat de cercetători

Autor: Alexandra-Valentina Dumitru Postat la 13 martie 2026 48 afişări

Pe măsură ce sistemele de inteligenţă artificială (IA) au început să obţină scoruri extrem de ridicate la testele academice utilizate de mult timp, cercetătorii au observat o problemă tot mai mare. Testele care odată reprezentau o provocare pentru maşini nu mai erau suficient de dificile.

„Ultimul examen al umanităţii”, cel mai dificil test de inteligenţă artificială creat de cercetători

Evaluări bine cunoscute, precum examenul Massive Multitask Language Understanding (MMLU), care anterior era considerat exigent, nu mai reuşesc să măsoare în mod adecvat capacităţile modelelor avansate de IA din prezent, potrivit ScienceDaily.

Pentru a rezolva această problemă, un grup internaţional format din aproape 1.000 de cercetători a dezvoltat un nou tip de test. Obiectivul lor era să creeze un examen cuprinzător, dificil şi bazat pe cunoştinţele umane specializate, pe care sistemele actuale de IA încă nu le pot gestiona.

Rezultatul este „Humanity's Last Exam” (n.r - „Ultimul examen al umanităţii”), o evaluare cu 2.500 de întrebări care acoperă matematica, ştiinţele umaniste, ştiinţele naturale, limbile antice şi o gamă largă de domenii academice foarte specializate.

Scopul examenului nu a fost acela de a păcăli sau de a învinge participanţii umani. În schimb, obiectivul a fost acela de a identifica cu atenţie domeniile în care sistemele de IA încă sunt deficitare.

Specialişti din întreaga lume au redactat şi revizuit întrebările incluse în Humanity's Last Exam. Fiecare problemă a fost concepută cu atenţie, astfel încât să aibă un răspuns clar şi verificabil. Întrebările au fost elaborate pentru a împiedica găsirea de soluţii rapide prin simple căutări pe internet.

Subiectele provin din provocări academice avansate. Unele sarcini implică traducerea inscripţiilor antice din Palmyra, în timp ce altele necesită identificarea structurilor anatomice minuscule ale păsărilor sau analizarea caracteristicilor detaliate ale pronunţiei ebraice biblice.

Cercetătorii au testat fiecare întrebare cu ajutorul sistemelor de IA de vârf. Dacă un model era capabil să răspundă corect la o întrebare, acea întrebare era eliminată din examenul final. Acest proces a asigurat că testul a rămas puţin peste ceea ce sistemele actuale de IA pot rezolva în mod fiabil.

Testele iniţiale au confirmat că strategia a funcţionat. Chiar şi modelele puternice de IA au avut dificultăţi cu examenul. GPT-4o a obţinut un scor de 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 al OpenAI a avut o performanţă ceva mai bună, cu 8%. Cele mai performante sisteme de până acum, inclusiv Gemini 3.1 Pro şi Claude Opus 4.6, au atins niveluri de precizie între aproximativ 40% şi 50%.

Potrivit echipei de cercetare, scorurile mari la testele concepute iniţial pentru oameni nu indică neapărat o inteligenţă autentică. Aceste teste de referinţă măsoară în principal cât de bine poate AI să îndeplinească sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înţelegere mai profundă.

În ciuda numelui dramatic, Humanity's Last Exam nu vrea să sugereze că oamenii devin „demodaţi”. În schimb, subliniază cantitatea mare de cunoştinţe şi expertiză care rămâne în continuare specifică oamenilor.

Humanity's Last Exam este conceput pentru a servi ca un standard de referinţă durabil şi transparent pentru viitoarele sisteme de IA.

Am mai scris despre:: test,; inteligenţă artificială,

Citeşte pe zf.ro

Petrişor Peiu, arhitectul tehnic al moţiunii de cenzură AUR-PSD împotriva Guvernului Bolojan, deţinea la finalul lui 2024 un portofoliu bursier de 1,5 milioane de euro, cu poziţii majore la Banca Transilvania, Petrom şi Romgaz
ZF.RO

Citeşte pe alephnews.ro

Statele Unite îi avertizează pe aliații europeni „să se aștepte la întârzieri majore” în livrările de arme, pe fondul războiului din Iran. Ucraina e cea mai afectată
ALEPHNEWS.RO

Citeşte pe fanatik.ro

Decizie de ultim moment luată de Antena 1! Cum vrea postul TV să limiteze pierderile generate de Campionatul Mondial
FANATIK.RO

Citeşte pe smartradio.ro

Austria| Un elev de 9 ani a fost pus să susţină un test scris în aer liber, la -1°C, pentru că nu avea mască
smartradio.ro

Citeşte pe comedymall.ro

Vremuri triste. Şi păcănelele se închid.
COMEDYMALL.RO

Citeşte pe MonitorulApararii.ro

MAS TALKS | Armand Goşu: Ucraina încearcă să facă o replică a liniei Surovikin, dar pe partea ucraineană. Maşina de război rusească funcţionează la parametrii maximi | Pentru mine, încă este o dilemă cum oameni cu poziţii foarte ruseşti au fost avansaţi în poziţii interesante în statul român
MONITORULAPARARII.RO

Citeşte pe MonitorulJustitiei.ro

Modificări la legea societăţilor: Mai multe firme vor putea funcţiona la aceeaşi adresă, iar o persoană va putea fi asociat unic în mai multe SRL
MONITORULJUSTITIEI.RO

Citeşte pe zf.ro

Schimbări la eMAG: Retailerul introduce de vineri o nouă taxă de până la 3,99 lei pe fiecare comandă de pe platformă
ZF.RO

ultimele din Actualitate

Ambiţiile unor producători români de genţi: „made in Romania“ să devină un brand colectiv şi să ducă produsele...

Ce arată primele date pe 2025: majoritatea companiilor din IT&C restructurează sau au îngheţat recrutările. Cele mai mari...

Cum arată piaţa de birouri din Bucureşti: polul Aviatorilor, Victoriei, Universitate are chirii duble faţă de Pipera Nord,...

Eleni Skoura, şefa operaţiunilor de retail de la ING Bank România, părăseşte funcţia după cinci ani. „Un nou parcurs...

100 cei mai admiraţi CEO din România: Locul 112 - Alexandra Olteanu, Managing Director, Initiative România

„Ultimul examen al umanităţii”, cel mai dificil test de inteligenţă artificială creat de cercetători

Intră în comunitatea