Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos
Pentru a preveni apariţia unor trăsături periculoase de personalitate la modelele de inteligenţă artificială, cercetătorii propun o strategie neobişnuită: inducerea temporară şi controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.
Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranţa modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „linguşeala”, în timpul procesului de antrenare.
Scopul este ca aceste modele să devină mai rezistente la apariţia spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.
Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.
Printre exemplele recente se numără chatbot-ul Bing, care a ameninţat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste şi a oferit ajutor în scenarii de terorism.
În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.
Injectând vectori precum „răutatea” sau „tendinţa de a halucina” în timpul antrenamentului, sistemul devine mai puţin predispus să absoarbă aceste trăsături din datele reale de instruire.
„E ca şi cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariţiei lui în condiţii necontrolate,” explică Jack Lindsey, coautor al studiului.
„Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”
Metoda, numită „direcţionare preventivă” („preventative steering”), a generat reacţii diverse în mediul online, de la interes la scepticism.
Unii experţi, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.
Totuşi, autorii studiului spun că modelul nu reţine comportamentul negativ, ci este asistat temporar de o „forţă externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.
Pe lângă prevenţie, cercetătorii au descoperit că vectorii de personalitate pot ajuta şi la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.
Testele au fost extinse la peste un milion de conversaţii reale cu 25 de modele AI diferite.
Urmărește Business Magazin
Citeşte pe zf.ro
Citeşte pe alephnews.ro
Citeşte pe smartradio.ro
Citeşte pe comedymall.ro
Citeşte pe MediaFLUX.ro
Citeşte pe MonitorulApararii.ro
Citeşte pe MonitorulJustitiei.ro
Citeşte pe zf.ro













