Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos

Autor: Rares Mustata Postat la 07 august 2025 13 afişări

Pentru a preveni apariţia unor trăsături periculoase de personalitate la modelele de inteligenţă artificială, cercetătorii propun o strategie neobişnuită: inducerea temporară şi controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.

Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranţa modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „linguşeala”, în timpul procesului de antrenare.

Scopul este ca aceste modele să devină mai rezistente la apariţia spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a ameninţat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste şi a oferit ajutor în scenarii de terorism.

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendinţa de a halucina” în timpul antrenamentului, sistemul devine mai puţin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca şi cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariţiei lui în condiţii necontrolate,” explică Jack Lindsey, coautor al studiului.

„Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcţionare preventivă” („preventative steering”), a generat reacţii diverse în mediul online, de la interes la scepticism.

Unii experţi, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Totuşi, autorii studiului spun că modelul nu reţine comportamentul negativ, ci este asistat temporar de o „forţă externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenţie, cercetătorii au descoperit că vectorii de personalitate pot ajuta şi la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversaţii reale cu 25 de modele AI diferite.

Urmărește Business Magazin

Am mai scris despre:
inteligenţa artficială,
cercetare,

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.