O echipă de cercetători români a creat un model de limbaj – large language model - dedicat limbii române, ce poate fi folosit pentru dezvoltarea unor unelte şi platforme AI

Autor: Alexandra Cepăreanu Postat la 14 mai 2024 10 afişări

O echipă de cercetători români a creat un model de limbaj – large language model - dedicat limbii române, ce poate fi folosit pentru dezvoltarea unor unelte şi platforme AI

O echipă de cercetători români a creat un model de limbaj (LLM – „large language model”) dedicat limbii române, ce poate fi folosit pentru dezvoltarea unor unelte şi platforme AI şi care va putea fi accesat şi folosit de oricine doreşte să construiască instrumente bazate pe inteligenţa artificială. Proiectul este iniţiat şi derulat de către Politehnica Bucureşti, Universitatea din Bucureşti şi Institutul de Logica şi Ştiinţa Datelor, cu sprijinul BRD Groupe Société Générale, arată un comunicat transmis de reprezentanţii organizaţiilor.

„Câteva dintre exemplele de utilizare ale modelului românesc sunt: căutarea de informaţii în baza de cunoştinţe a unei organizaţii, cu ghiduri şi proceduri de lucru, sau roboţi conversaţionali pentru clienţii companiilor sau ai instituţiilor care să îi ghideze în parcurgerea paşilor necesari pentru utilizarea unui produs sau serviciu. În ambele cazuri, angajaţii şi/sau clienţii economisesc timp în accesarea informaţiei, beneficiind în multe situaţii şi de îmbunătăţirea calităţii acesteia”, a spus Alin Ştefănescu, directorul Departamentului de Informatică din cadrul Universităţii din Bucureşti şi vicepreşedintele Institutului de Logică şi Ştiinţa Datelor.

Modelul românesc de LLM este adaptarea unui LLM public dezvoltat în principal pentru limba engleză, ce a fost expus la câteva milioane de documente în limba română, pentru a înţelege mai bine semnificaţia cuvintelor. Acest lucru e esenţial pentru perfomanţa unor astfel de modele în situaţii unde exprimarea cerinţei sau a întrebării introduse de utilizator, cât şi a răspunsului trebuie să fie în limba română, arată sursa citată anterior. Începând din a doua parte a anului 2023, la dezvoltarea şi instruirea acestui LLM a lucrat o echipă de cercetători de la Politehnica Bucureşti, Universitatea din Bucureşti şi Institutul de Logica şi Ştiinţa Datelor.

„Sperăm ca lansarea acestui model să fie doar începutul unui efort de lungă durată din care să rezulte LLM-uri mai bune pentru limba română. Deja am descoperit o metodă pe care vrem să o aplicăm altor modele lansate recent (Llama-3 şi Mistral) şi care au performanţe în general mai bune ca cel de la care am pornit (Llama-2). Totuşi, pentru a avea modele performante pentru limba română avem nevoie de două tipuri de resurse: colecţii de date mari şi curatoriate, de calitate bună, precum şi resurse hardware (în special, GPU-uri pentru antrenarea modelelor). Sperăm ca atât entităţile private, cât şi cele publice să înţeleagă importanţa dezvoltării modelelor mari de limbaj şi multimodale (text-imagini) pentru limba română. Pe toţi îi aşteptăm să ni se alăture în cadrul iniţiativei OpenLLM-Ro şi a proiectelor de cercetare care o vor sprijini”, a spus Traian Rebedea, conferenţiar la POLITEHNICA Bucureşti şi cercetător principal la NVIDIA, unul dintre coordonatorii tehnici ai iniţiativei OpenLLM-Ro.

Odată cu publicarea acestui LLM, iniţiatorii proiectului lansează şi comunitatea OpenLLM-Ro, care îşi propune să-i aducă împreună pe toţi cei care vor să contribuie în diverse forme la dezvoltarea tehnologiilor AI pentru limba română.

„Pentru ca mediul economic şi/sau instituţional din România să poată folosi această nouă tehnologie (...) este nevoie de modele specializate care să fi întâlnit o mulţime de conversaţii şi documente în limba română. Motivul este simplu: pentru a ne putea oferi informaţiile de care avem nevoie. În BRD lucrăm în mod constant la soluţii care să ne îmbunătăţească procesele de lucru, folosind cele mai noi tehnologii care pot aduce valoare adăugată în primul rând clienţilor noştri. Însă înţelegem totodată că nevoile noastre sunt comune cu ale multor altor actori instituţionali  (...). Implicându-ne în peisajul extrem de animat al acesteia, putem ajuta ca cele mai noi tehnologii să aibă un impact pozitiv în societatea românească aproape în acelaşi ritm cu evoluţiile din domeniu la nivel internaţional”, a spus Horia Velicu, Head of Innovation Lab în cadrul BRD Groupe Société Générale.

Urmărește Business Magazin

Am mai scris despre:
dezvoltare,
cercetatori,
inteligenta,
resurse,
limbaj

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.