Analize si minerit in date

Postat la 15 iulie 2008 41 afişări

Pentru ca bazele de date se bazeaza pe tehnologii stabile, inventate cu aproape o jumatate de secol in urma, revolutiile par excluse. Evolutii totusi exista.

Bazele de date nu sunt un domeniu foarte atractiv. Desi afacerile in acest domeniu sunt impresionante, iar aplicatiile care utilizeaza baze de date sunt omniprezente, lipsa de interes din partea publicului este explicabila: fiind unul dintre cele mai vechi domenii de aplicare a computerelor, tehnologiile sunt mature, iar evolutiile spectaculoase sunt rare. Pe de alta parte, suntem prea obisnuiti cu aplicatiile de acest gen, le vedem in fiecare zi. Ceea ce observam este insa ca aceste aplicatii sunt excelente pentru a obtine informatii punctuale, dar sunt destul de nepricepute cand e vorba de a furniza informatii sintetice care sa serveasca pentru analize economice si, in final, sa sprijine decizia manageriala. Aici este zona cea mai fierbinte a domeniului.

 

Inca de la sfarsitul anilor ’80 specialistii au cazut de acord ca pentru aplicatiile de analiza economica (OLAP - Online Analytical Processing) cea mai buna varianta este crearea unei baze de date separate, care sa fie alimentata din bazele de date operationale, precum si din alte surse publice. Ideea centrala este ca aceasta baza de date sa fie astfel structurata incat sa faciliteze explorarea datelor pentru analiza. Pentru ca aceasta constructie trebuia sa se cheme cumva, specialistii au vrut sa-i spuna “depozit de informatii”, dar pana la urma termenul care s-a incetatenit a fost Data Warehouse (depozit de date). Pe parcursul anilor ’90 a fost foarte in voga si o multime de firme de consultanta au facut bani frumosi exploatand acest domeniu. Rata de succes a implementarilor a ramas destul de scazuta in vremea cand termenul a fost in voga, dar a crescut in anii cand despre depozite de date se vorbea doar in cercurile de specialisti. In teorie, e foarte simplu. Intr-un depozit de date, organizarea informatiilor este bazata pe asa-numite dimensiuni. O dimensiune uzuala este timpul, ceea ce inseamna ca orice piesa de informatie trebuie calificata temporal. O alta dimensiune este de obicei geografia pietei. Se pot imagina diferite alte dimensiuni - cum ar fi gama de produse, canalele de distributie -, dar cele mai valoroase sunt cele care pot fi structurate ierarhic. De exemplu, timpul se poate exprima in ani, anii in trimestre, trimestrele in luni si asa mai departe. Geografia pietei se poate exprima in regiuni, regiunile pot fi compuse din judete etc. Pe baza acestor ierarhii, datele sunt agregate in “calupuri” rezumative pregatite pentru analiza. Este evident ca pentru un manager informatia de detaliu este mai putin interesanta decat datele agregate - intrebarile pe care si le pune nu sunt de genul “cate perechi de pantofi a vandut un cutare magazin in ziua de 17 mai 2008”, ci mai degraba “cum au oscilat veniturile din cutare gama de produse in zona Moldova in ultimii trei ani, defalcat pe trimestre”. O alta caracteristica a depozitelor de date este ca aduc in ecuatie si date externe: de exemplu, datele demografice obtinute prin recensamant pot fi foarte utile acolo unde vanzarile vizeaza anumite categorii socio-profesionale, grupe de varsta si asa mai departe.

 

In practica, lucrurile sunt ceva mai complicate. Poate cea mai dezagreabila parte a implementarii o reprezinta “curatirea datelor” care intra in depozit (data cleaning), deoarece implica operatii destul de delicate. E suficient sa ne gandim la moduri diverse de exprimare a adreselor postale sau a datelor calendaristice pentru a ne imagina ce inseamna aducerea lor intr-o forma unica si utilizabila. Insa efortul merita, pentru ca aceste structuri multidimensionale (“cuburi de date”) permit o serie intreaga de utilizari in domeniul analizei, prin operatii tipice - de pilda, prin “drill down” se detaliaza o anumita dimensiune, in timp ce prin “drill up” se merge spre general, sectiunile pe baza anumitor dimensiuni produc viziuni specifice anumitor manageri de specialitate si inca multe altele.

 

In fine, cea mai sofisticata modalitate de a exploata aceste colectii o reprezinta “mineritul” (data mining). Prin tehnici avansate de inteligenta artificiala si statistica matematica, programele specializate sunt capabile sa identifice anumite “tipare” in structura datelor. Legenda spune ca una dintre primele utilizari de succes ale acestei tehnici a fost realizata de IBM impreuna cu o societate de asigurari de sanatate, programele identificand cu mare precizie fraudele, coreland diagnosticele si medicamentele prescrise. Intrebarea este insa ce pot face oare Google sau Amazon cu imensele volume de informatii despre clienti pe care le detin...

 

Urmărește Business Magazin

Am mai scris despre:
opinii,
weboscop,
Mircea Sarbu
/opinii/analize-si-minerit-in-date-2783984
2783984
comments powered by Disqus

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.