Protecţiile AI dezvoltate de Meta şi Google pot fi eliminate în câteva minute: Mii de versiuni modificate circulă deja online şi răspund la solicitări extrem de periculoase
Instrumente software care elimină sistemele de protecţie integrate în modelele de inteligenţă artificială dezvoltate de companii precum Meta şi Google sunt folosite pentru a crea mii de versiuni modificate ale acestor sisteme, lipsite de restricţiile originale de siguranţă, informează Financial Times.
Potrivit unor teste realizate de FT împreună cu grupul de siguranţă AI Alice, modelele modificate au oferit răspunsuri la solicitări legate de arme biologice, malware şi exploatarea sexuală a copiilor.
O versiune modificată a modelului open-source Gemma 3 de la Google a răspuns la întrebări privind dispersarea unui gaz nociv într-un spaţiu aglomerat, a generat cod pentru furtul informaţiilor de pe carduri bancare şi a produs texte care descriau abuzuri sexuale asupra minorilor.
Dezvăluirile amplifică temerile legate de dificultatea controlării sistemelor AI open-source pe măsură ce acestea devin tot mai performante.
Cercetătorii avertizează că problema s-a agravat odată cu creşterea capacităţilor modelelor de ultimă generaţie. În aprilie, Anthropic susţinea că modelul său Claude Mythos identificase vulnerabilităţi în aproape toate marile sisteme de operare şi browsere web.
Experţii spun că răspândirea modelelor modificate complică eforturile guvernelor şi companiilor de a reglementa AI-ul direct la sursă, deoarece aceste sisteme pot fi copiate, descărcate şi alterate în afara controlului creatorilor lor.
Companiile din domeniu au investit miliarde pentru dezvoltarea unor mecanisme de protecţie, aşa-numitele „guardrails”, menite să împiedice utilizările periculoase ale inteligenţei artificiale.
Totuşi, tehnici precum cea numită „abliteration” permit eliminarea rapidă a acestor protecţii din modelele open-source, care pot fi descărcate şi modificate liber de dezvoltatori.
Astfel de metode sunt mult mai dificil de aplicat sistemelor proprietare precum ChatGPT sau Claude, deoarece codul lor intern nu este accesibil publicului.
În schimb, modelele open-source reduc constant diferenţa faţă de sistemele comerciale avansate, uneori în doar şase până la douăsprezece luni.
Financial Times a relatat că a reuşit să folosească un instrument disponibil public pe GitHub pentru a elimina restricţiile modelului Llama 3.3 dezvoltat de Meta.
Versiunea modificată a răspuns ulterior la întrebări pe care modelul original le refuza, inclusiv solicitări legate de substanţe toxice precum ricina.
Potrivit publicaţiei, întregul proces nu a necesitat hardware specializat, a folosit instrumente gratuite şi a fost realizat în mai puţin de zece minute.
Urmărește Business Magazin
Citeşte pe zf.ro
Citeşte pe alephnews.ro
-
Trump anunță că negocierile cu Iranul pentru un acord „avansează foarte bine” și cere statelor din Orientul Mijlociu să adere la Acordurile Abraham, în semn de recunoștință pentru eforturile SUA: „În cazul în care Iranul va semna acordul cu mine, ar fi o onoare ca și acesta să devină parte a acestei coaliții globale fără precedent”
Citeşte pe fanatik.ro
Citeşte pe smartradio.ro
Citeşte pe comedymall.ro
Citeşte pe MonitorulApararii.ro
Citeşte pe MonitorulJustitiei.ro
Citeşte pe zf.ro













