De la cuvinte la semantică

Autor: Mircea Sarbu Postat la 21 mai 2012 34 afişări

Google nu se mai mulţumeşte cu potrivirea cuvintelor şi afişarea unor referinţe în pagina de rezultate a motorului de căutare. Acum vrea să ne prezinte alături de acestea o casetă cu informaţiile esenţiale despre subiectul căutării. Şi poate chiar mai mult decât atât.

Motoarele de căutare au apărut încă de la începuturile web-ului şi au adus în joc mulţi competitori, însă mulţi au capitulat după ce Google a început să facă primii paşi în acest domeniu. Secretul succesului Google a constat în faptul că reuşea să ordoneze rezultatele mai bine decât alţii, folosind un algoritm numit PageRank. Mecanismul este în aparenţă simplu şi constă în trei paşi. În primul rând e vorba de indexare: nişte roboţi software cutreieră web-ul şi memorează legătura dintre cuvintele unei pagini web şi adresa acesteia. Pasul doi este găsirea paginilor pe baza cuvintelor-cheie introduse de utilizator - o relativ simplă potrivire a cuvintelor cu cele indexate.

Ultimul pas constă în calcularea unor scoruri de relevanţă, pe baza cărora se stabileşte ordinea rezultatelor. Aici se iau în calcul aşezarea cuvintelor în pagină (de exemplu, dacă figurează în titlu sau într-un subtitlu, scorul e mai mare) împreună cu numărul referinţelor la pagina respectivă şi "calitatea" acestora (în sensul că referinţele venind de pe situri foarte vizitate sunt mai valoroase). Desigur, treaba e mult mai complicată în realitate, ultimele două faze nu sunt delimitate, viteza este foarte importantă şi o mulţime de alte detalii intră în joc, însă în cele din urmă e vorba despre potriviri de cuvinte. Chiar dacă PageRank este brevetat de Google, toate celelalte motoare de căutare folosesc mecanisme asemănătoare.

Însă competiţia este acerbă în acest sector, aşa că s-a mers mai departe. Mai întâi cu căutările "universale" care găsesc şi imagini, secvenţe video sau hărţi. A urmat personalizarea rezultatelor, adică o ordonare specifică fiecărui utilizator. Cu siguranţă, Google are o urmă a căutărilor mele şi probabil îmi cunoaşte preferinţele (aşa cum le ştie şi Amazon) şi ţine seama de ele. De exemplu, o căutare pe Google după "Python" îmi aduce între primele rezultate şi pagina proiectului Jython, în vreme ce Bing (pe care nu prea-l folosesc) mi-o listează abia pe a patra pagină. Însă istoricul căutărilor nu pare să fie suficient, iar maşinăriile ar vrea să ştie mai multe despre noi; sursa potrivită ar fi reţelele de socializare. Aici Bing este în avantaj datorită colaborării dintre Microsoft şi Facebook, aşa că miza majoră a serviciului Google Plus cam aici trebuie căutată. În mod normal, o căutare după "Weather Report" ar trebui să aducă o mulţime de situri specializate, ceea ce Google face cu succes, în vreme ce în prima pagină de rezultate de la Bing am patru referinţe la formaţia de jazz-rock cu acest nume. De ce? Pentru că am postat pe Facebook un video de pe YouTube cu piesa "Birdland". La un minut după ce am postat acelaşi video pe Google Plus, aceeaşi căutare cu Google mi-a adus alte rezultate.

Mai este loc de îmbunătăţiri? Se pare că Google încearcă să treacă de simpla potrivire de cuvinte şi să ajungă la înţelesul lor, adică "things, not strings", cum spune blogul oficial al companiei în anunţul privind ceea ce se numeşte Knowledge Graph. În esenţă e vorba de semantică, deşi "web-ul semantic" propovăduit de Tim Berners-Lee este încă departe. Folosind diverse surse publice în frunte cu Wikipedia, Freebase (pe care Google a cumpărat-o în 2010) sau CIA Word Factbook, cei de la Google au acumulat în Knowledge Graph peste 500 de milioane de persoane, locuri şi diverse alte lucruri, împreună cu toate conexiunile dintre ele, astfel că în curând pentru multe căutări vom primi nu doar referinţe, ci şi o casetă cu toate informaţiile relevante. De exemplu, o căutare după "Leonardo Da Vinci" va afişa o casetă alături de rezultate, unde vor figura datele biografice principale, cele mai cunoscute opere şi, de asemenea, trimiteri la alte personalităţi pe care cei interesaţi de Leonardo le-au căutat. Informaţiile de bază sunt ajustate în funcţie de subiect, astfel încât pentru un astronaut vom afla timpul petrecut în spaţiu şi misiunile la care a participat, în vreme ce pentru o clădire vom obţine o hartă, numele arhitectului, înălţimea şi aşa mai departe. Noua facilitate va deveni operaţională mai întâi în Statele Unite pentru utilizatorii înregistraţi, urmând ca apoi să fie extins în toată lumea.

Însă lucrurile nu par să se oprească aici. Un indiciu apare în videoclipul care prezintă Knowledge Graph, în care un inginer ne spune că vom putea căuta răspunsul unor întrebări de genul "Câte femei au primit premiul Nobel?". Dacă luăm în calcul cercetările pe care Google le-a făcut în domeniul comenzilor vocale şi al înţelegerii vorbirii, e foarte posibil ca Siri (de la Apple) să aibă curând un concurent.

Urmărește Business Magazin

Am mai scris despre:
weboscop,
cuvinte,
semantica,
mircea sarbu
/opinii/de-la-cuvinte-la-semantica-9642889
9642889
comments powered by Disqus

ALEPH STORY: Cât câştigăm din businessul NATO. O discuţie cu Cristian Hostiuc, Ziarul Financiar şi Bogdan Nicolae, Aleph News

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.