Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos

Autor: Rares Mustata Postat la 07 august 2025 18 afişări

Pentru a preveni apariţia unor trăsături periculoase de personalitate la modelele de inteligenţă artificială, cercetătorii propun o strategie neobişnuită: inducerea temporară şi controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.

Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranţa modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „linguşeala”, în timpul procesului de antrenare.

Scopul este ca aceste modele să devină mai rezistente la apariţia spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a ameninţat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste şi a oferit ajutor în scenarii de terorism.

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendinţa de a halucina” în timpul antrenamentului, sistemul devine mai puţin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca şi cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariţiei lui în condiţii necontrolate,” explică Jack Lindsey, coautor al studiului.

„Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcţionare preventivă” („preventative steering”), a generat reacţii diverse în mediul online, de la interes la scepticism.

Unii experţi, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Totuşi, autorii studiului spun că modelul nu reţine comportamentul negativ, ci este asistat temporar de o „forţă externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenţie, cercetătorii au descoperit că vectorii de personalitate pot ajuta şi la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversaţii reale cu 25 de modele AI diferite.

Am mai scris despre:: inteligenţa artficială,; cercetare,

Citeşte pe zf.ro

Noi insolvenţe zguduie România: Trei companii cu afaceri de sute de milioane de euro au depus dosarele de insolvenţă
ZF.RO

Citeşte pe alephnews.ro

Lavrov respinge planul de pace în 20 de puncte pentru Rusia-Ucraina: „Acest document încalcă adevăratul plan american. Zelenski și Europa încearcă să sfideze inițiativa SUA”
ALEPHNEWS.RO

Citeşte pe fanatik.ro

Lovitură pentru Universitatea Craiova înainte de „dubla” cu FCSB! Steven Nsimba, out pentru derby-ul din SuperLiga. Exclusiv
FANATIK.RO

Citeşte pe smartradio.ro

Austria| Un elev de 9 ani a fost pus să susţină un test scris în aer liber, la -1°C, pentru că nu avea mască
smartradio.ro

Citeşte pe comedymall.ro

Vremuri triste. Şi păcănelele se închid.
COMEDYMALL.RO

Citeşte pe MonitorulApararii.ro

MAS TALKS | Armand Goşu: Ucraina încearcă să facă o replică a liniei Surovikin, dar pe partea ucraineană. Maşina de război rusească funcţionează la parametrii maximi | Pentru mine, încă este o dilemă cum oameni cu poziţii foarte ruseşti au fost avansaţi în poziţii interesante în statul român
MONITORULAPARARII.RO

Citeşte pe MonitorulJustitiei.ro

Modificări la legea societăţilor: Mai multe firme vor putea funcţiona la aceeaşi adresă, iar o persoană va putea fi asociat unic în mai multe SRL
MONITORULJUSTITIEI.RO

Citeşte pe zf.ro

În timp ce Europa strânge cureaua, Ungaria reduce taxele şi majorează salariile. Guvernul de la Budpesta pune pe masă 5 miliarde de euro
ZF.RO

ultimele din Actualitate

Romsilva: Drumul forestier din pădurea Băneasa există din 1974 şi nu a ieşit niciodată din fond

Modificările la legea violenţei domestice, aviz favorabil în Parlament

De la un ritual japonez, la o băutură în trend. Cum a apărut fenomenul „matcha” şi ce efecte are asupra sănătăţii?

Clarificări ANAF: În ce condiţii o firmă devine inactivă fiscal din 2026 şi ce obligaţii rămân în vigoare

Croazierele prind avânt în rândul turiştilor români. România este a doua cea mai importantă ţară din Europa...

Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos

Intră în comunitatea