Exista internet dincolo de Google?

Postat la 24 martie 2009 93 afişări

Vara trecuta, Google a adaugat site-ul cu numarul 1.000 de miliarde la lista sa cu adrese web cunoscute. Oricat de mare pare acest numar, el nu reprezinta insa decat o parte din internet. Ce se intampla cu restul?

Arthur Bond, un avocat care locuieste in New York, a vrut sa-si cumpere un bilet dus-intors catre Londra si a tastat pe Google “care este cel mai ieftin bilet pentru cursa de la New York la Londra miercurea viitoare”, insa la cautare nu s-au afisat raspunsurile pe care le astepta. Prin urmare, Bond a cautat o agentie de turism si si-a procurat un bilet, in modul cel mai traditional.

Pentru intrebari de genul celei puse de Bond, raspunsurile se gasesc pe internet, dar motoarele inca nu stiu cum sa le caute. La ora actuala, dincolo de cele 1.000 de miliarde de site-uri pe care Google le indexeaza, exista date stocate in arhive de informatii financiare, medicale, ale institutiilor de stat, cataloage de cumparaturi, ale unor biblioteci, muzee sau case de licitatii - un numar enorm de materiale invizibile pentru motoarele de cautare, pentru ca se afla in baze de date in teorie accesibile pe internet, dar care nu sunt destinate indexarii online, iar unele din ele restrang accesul doar la membri sau abonati.

Sintagma “deep web”, desemnand partea invizibila a internetului, a fost lansata de BrightPlanet, o companie de tehnologii de cautare online care estima in 2001 ca informatia neindexata de pe internet era de 400-500 de ori mai multa decat cea din internetul “cunoscut” si - fapt cu atat mai interesant cu cat pe atunci nu aveam de-a face cu explozia blogurilor si a agregatoarelor - ca ponderea continutului de calitate si relevant pentru cautarile de specialitate este de 1.000-2.000 mai mare in “adancul internetului” decat in stratul de suprafata.

BrightPlanet estima tot in 2001 ca 95% din “deep web” ar putea fi sondat prin intermediul unor cautari mult mai rafinate, acolo unde accesul la acest continut nu e restrictionat pentru marele public. Intre timp, intr-adevar, companiile ce opereaza motoare de cautare au dezvoltat tehnologii gratie carora pot ajunge la fisiere .pdf, .doc, .pps, .xls si alte formate preferate de institutiile sau de firmele detinatoare de baze de date. Calitatea cautarilor are insa sanse de imbunatatire, spera Anand Rajaraman, cofondator al Kosmix, un start-up unde a investit Jeff Bezos, directorul executiv al Amazon.com. Compania lui Rajaraman a dezvoltat un soft care asociaza cautarile cu bazele de date presupuse a detine informatii relevante pentru cautarile respective, apoi furnizeaza un raspuns complex pe baza aditionarii mai multor surse. “Majoritatea motoarelor de cautare incearca sa-i ajute pe oameni sa gaseasca acul in carul cu fan; noi incercam sa-i ajutam sa exploreze carul cu fan”, a declarat Rajaraman, citat de New York Times.

Motoarele de cautare se bazeaza pe programe cunoscute sub numele de “crawlers” sau “spiders”, care aduna informatii urmarind hiperlinkurile care compun marea retea. Daca acest mod de abordare functioneaza bine pentru paginile de la suprafata, acestor programe le este dificil sa ajunga la paginile fara linkuri fixe, cu continut asa-numit dinamic (care apar ca rezultate ale investigarii bazelor de date pe baza completarii unor formulare online) ori la continutul intermediat de scripturi Java ori Ajax. Pentru a extrage date relevante de aici, motoarele de cautare trebuie sa stie ce baze de date au probabilitatea cea mai mare sa fie relevante pentru o anumita cautare.

“E cea mai interesanta problema de integrare a datelor care se poate imagina”, a declarat Alon Halevy, fost profesor la Universitatea din Washington, in prezent conducator al unei echipe a Google ce se ocupa de aceasta problema. Strategia Google presupune crearea unui program care sa ghiceasca pur si simplu continutul fiecarei baze de date pe care o intalneste pe web, orientandu-se dupa indiciile semantice de pe pagini (formulare online). O idee asemanatoare au avut, acum opt ani, cativa cercetatori de la Universitatea California, cu incercarea de a crea un program care sa genereze termeni si sintagme de cautare adecvate pentru formularele online, astfel incat sa poata scoate la lumina cat mai mult din continutul bazei de date (de pilda, termeni cu care se poate cauta in PubMed, arhiva Bibliotecii Nationale de Medicina a SUA).

Cititi in continure in ce directie se va dezvolta internetul.

Paginatie:

Urmărește Business Magazin

Am mai scris despre:
Google,
internet,
web,
adrese,
business hi-tech
/business-hi-tech/it/exista-internet-dincolo-de-google-4066500
4066500
comments powered by Disqus

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.