In inima Google

Postat la 12 iunie 2007 1 afişăre

Zilele astea, Google pare ca face de toate, peste tot. Iti face poze la casa din spatiu, copiaza carti rare in sanscrita in India, isi croieste drum spre Madison Avenue, porneste batalii cu Hollywoodul si incearca sa submineze dominatia Microsoft in industria de software.

Zilele astea, Google pare ca face de toate, peste tot. Iti face poze la casa din spatiu, copiaza carti rare in sanscrita in India, isi croieste drum spre Madison Avenue, porneste batalii cu Hollywoodul si incearca sa submineze dominatia Microsoft in industria de software.

Dar la baza, Google ramane un motor de cautare. Si paginile sale de cautare, cu link-uri albastre pe fond alb, neutru, au transformat-o in cea mai vizitata, cea mai profitabila si probabil cea mai tare companie de pe Internet. Google este asistentul pentru temele de acasa, directorul de business si de navigare pentru o jumatate de miliard de utilizatori, capabil sa gaseasca si cea mai obscura informatie intr-o clipita.

Totusi, oricat de usor ar fi de proslavit drept miracolul zilelor noastre, site-ul Google este si printre cele mai mari surse de necazuri din lume. De milioane de ori pe zi, utilizatorii ies de pe Google dezamagiti ca nu au putut gasi un hotel, o reteta sau mai multe date despre cineva care le-a starnit interesul. Google gaseste adesea ceea ce vor utilizatorii, dar nu intotdeauna.

Iata de ce Amit Singhal si sute de alti ingineri de la Google ajusteaza constant motorul de cautare al companiei, intr-o cursa imposibila pentru a inchide falia dintre "adesea" si "intotdeauna". Singhal este maestrul a ceea ce Google numeste "algoritmul de ierarhizare" - formulele care decid care pagini web sunt cele mai bune raspunsuri la cautarile fiecarui utilizator. Este o componenta esentiala a laboratorului de taina al Google, un departament numit "calitatea cautarii", pe care compania il trateaza ca pe un secret de stat. Google rareori permite vizitatorilor sa vada unitatea si a fost foarte prudenta inclusiv in a-i permite lui Singhal sa vorbeasca cu presa despre motorul magico-matematic dinauntrul milioanelor de cutii negre care alimenteaza motorul de cautare. Google ii pretuieste pe Singhal si pe echipa lui atat de mult pur si simplu din ratiuni de concurenta. Compania considera ca abilitatea lui de a scadea numarul ocaziilor cand utilizatorii pleaca dezamagiti este cruciala pentru a face fata concurentei Yahoo! si Microsoft si in pastrarea minei de aur de publicitate pe care o reprezinta cautarile online.

"Valoarea fundamentala creata de Google este ierarhizarea", spune John Battelle, directorul executiv al Federated Media, o retea de bloguri de publicitate si autorul cartii despre Google "The Search" ("Cautarea"). Magazinele online, spune el, au descoperit ca un sfert dintre vizitatorii lor si cei mai multi dintre clientii lor provin din motoarele de cautare. Si site-urile de media descopera ca multi le ignora paginile de start (unde tarifele de publicitate sunt de obicei mai ridicate) si, folosind Google, sar direct la paginile care ii intereseaza. "Google a devenit sangele Internetului", spune Battelle. "Trebuie sa fii in el."

Utilizatorii, fireste, nu vad stiinta si maiestria care fac cutiile negre ale Google sa zumzaie, dar echipa de la "calitatea cautarii" face intr-o saptamana cam o jumatate de duzina de schimbari minore si majore la vastul nucleu de formule matematice care guverneaza motorul de cautare. Aceste formule au ajuns tot mai capabile sa citeasca mintile utilizatorilor, pentru a interpreta o interogare foarte scurta. Utilizatorul cauta o slujba, o achizitie sau o situatie? Formulele pot spune ca oamenii care tasteaza "apple" ("mar") e probabil ca se gandesc la fructe, in vreme ce cei care tasteaza "Apple" umbla dupa computere sau iPod-uri. Aceste formule sunt in stare si sa compenseze acele cautari ortografiate putin gresit sau chiar total aiurea. "Cautarea a trecut in ultimii ani de la «da-mi ce-am tastat» la «da-mi ce vreau»", spune Singhal, indianul de 39 de ani care s-a alaturat Google in 2000 si acum este Google Fellow, distinctie prin care compania ii onoreaza pe inginerii sai de elita.

Google i-a permis recent unui reporter sa petreaca o zi intreaga cu Singhal si ceilalti din echipa de la "calitatea cautarii", sa asiste la sedintele interne si sa vorbeasca cu cativa ingineri de top. Au fost multe intrebari la care Google n-a vrut sa raspunda. Dar inginerii au explicat mai mult decat o facusera inainte pentru presa despre cum functioneaza sistemul lor de cautare.

Desi Google isi rafineaza continuu motorul de cautare, are in fata provocarea scarii enorme la care opereaza. Acum este cel mai popular site din lume, oferind servicii in 112 limbi, indexand zeci de miliarde de pagini web si administrand sute de milioane de cautari zilnic. Si mai infricosator, multe dintre aceste pagini sunt de fapt pagini false create de tipi care incearca sa atraga navigatorii pe site-urile lor pline cu publicitate, pornografie sau matrapazlacuri financiare. In acelasi timp, oamenii au ajuns sa se astepte ca Google sa poata cerne toate aceste informatii si sa afle exact ceea ce cauta ei, cu doar cateva cuvinte drept indicii. "Asteptarile sunt mai mari acum", spune Udi Manber, care supravegheaza intregul grup de calitate a cautarii de la Google. "Cand cautarea era la inceputuri, daca te uitai dupa ceva si gaseai, era un miracol. Acum, daca nu gasesti exact ce cauti in primele trei rezultate, ceva e in neregula."

Abordarea cautarii de catre Google reflecta practicile neconventionale de management ale companiei. Are sute de ingineri, inclusiv experti de renume in cautari atrasi din lumea academica, prea putin organizati ierarhic si care lucreaza la proiecte interesante in primul rand pentru ei. Dar cand vine vorba despre motorul de cautare - cu multe mii de ecuatii legate intre ele - trebuie sa verifice suplimentar munca independenta a inginerilor, cu rigoare obiectiva si cantitativa, pentru a se asigura ca noile formule nu fac mai mult rau decat bine. Ca intotdeauna, rafinarea si controlul calitatii implica si un anume echilibru. "Faci o schimbare si ea afecteaza pozitiv unele cautari si pe altele in mod negativ", spune Manber. "Nu se poate sa lansezi chestii care sunt 100% pozitive."

O tabla mare si alba langa biroul lui Singhal e mazgalita cu grafice, intrebari intalnite la cautare si bucati multicolore de algoritmi matematici. Plangerile de la utilizatori despre cautari care au esuat sunt de asemenea trecute pe tabla. Oricare dintre cei 10.000 de angajati ai Google poate folosi sistemul intern de "Buganizer" ca sa semnaleze o problema de cautare si cam de 100 de ori pe zi o si fac, mentionandu-l pe Singhal ca persoana responsabila cu rezolvarea lor.

Unele plangeri semnaleaza simple greseli care trebuie rezolvate imediat. Recent, o cautare pentru "Revolutia Franceza" afisa prea multe site-uri despre recenta campanie prezidentiala din Franta - in care candidatii au vorbit despre diverse revolutii in materie de politici - mai degraba decat despre inlaturarea regelui Ludovic al XIV-lea. O ajustare a motorului de cautare a dat mai multa greutate paginilor care contineau sintagma "Revolutia Franceza" decat paginilor care contineau cele doua cuvinte disparate. Alteori, plangerile scot la iveala probleme mai complexe. In 2005, Bill Brougher, un manager de productie de la Google, s-a plans ca, desi tasta sintagma "teak patio Palo Alto", nu-i iesea printre rezultate un site despre un magazin din Palo Alto numit Teak Patio.

Asa ca Singhal a dat drumul unuia dintre programele interne la mare pret si atent supravegheate ale Google, numit Debug, care arata cum evalueaza computerele companiei fiecare cautare si fiecare pagina web. El a descoperit ca Theteakpatio.com nu aparea printre rezultatele cautarii pentru ca formulele Google nu dadeau suficienta importanta linkurilor de pe alte site-uri despre Palo Alto.

Acesta era un indiciu pentru rezolvarea unei probleme si mai mari: gasirea afacerilor locale este importanta pentru utilizatori, dar Google s-a bazat adesea doar pe o mana de site-uri pentru indicii despre care afaceri sunt cele mai bune. La doua luni de la plangerea lui Brougher, grupul lui Singhal scrisese deja o noua formula matematica care sa administreze cautarile de magazine locale. Dar, de multe ori, Singhal nu se grabeste sa repare tot ce i se semnaleaza, pentru ca fiecare schimbare poate afecta ierarhizarea multor site-uri. "Nu poti sa reactionezi pur si simplu la prima plangere", spune el. "Trebuie sa lasi lucrurile sa se coaca."

Reticentul Manber (care nici nu vrea sa-si dezvaluie varsta) vorbeste despre grupul lui de calitate a cautarii numai in termeni vagi. Opereaza cu o echipa mica de ingineri. Unii, precum Singhal, se concentreaza pe sisteme care proceseaza cautari dupa ce utilizatorii le tasteaza. Altii lucreaza la caracteristici care sa imbunatateasca afisarea rezultatelor, precum extragerea frazelor de prezentare - micile texte care le dau utilizatorilor o idee despre continutul site-ului. Alti membri ai echipei lui Manber lucreaza la ce se intampla inca dinainte ca utilizatorii sa dea drumul la o cautare: mentinerea unui index gigantic al tuturor paginilor web. Google are sute de mii de computere programate anume ca sa scotoceasca Internetul pentru aceasta.

In vreme ce Google isi alcatuieste indexul, calculeaza si un numar pe care il prezinta ca PageRank pentru fiecare pagina gasita. Principala inventie a fondatorilor Google, Larry Page si Sergey Brin, PageRank numara de cate ori alte site-uri au facut link la o pagina anume. Se considera ca site-urile care sunt mai populare, in special in randul site-urilor care au ele insele PageRank-uri ridicate, au o mai mare probabilitate sa fie de buna calitate.

Singhal a dezvoltat un sistem mult mai elaborat pentru ierarhizarea paginilor, care implica peste 200 de tipuri de informatii, sau ceea ce Google numeste "semnale". PageRank este doar un singur asemenea semnal. Unele semnale sunt pe paginile de Internet - cuvinte, link-uri, imagini si asa mai departe. Altele sunt extrase din modul cum s-au schimbat paginile de-a lungul timpului. Alte semnale sunt modele de date, detectabile in trilioanele de cautari pe care Google le-a gazduit de-a lungul anilor.

Odata ce Google aduna multimea de semnale, le integreaza in formule pe care le denumeste ordonatoare, sau clasificatoare ("classifiers"), care incearca sa desprinda informatia folositoare despre tipul de cautare, pentru a trimite apoi utilizatorul catre cele mai folositoare pagini. Ordonatoarele pot spune, spre exemplu, daca cineva cauta sa cumpere un produs sau informatii despre un anume loc, o anume companie sau o anume persoana. Google a dezvoltat recent un nou ordonator care sa identifice nume de persoane care nu sunt celebre. Alt ordonator identifica numele de marci ale companiilor.

Si ca si cand toate acestea nu ar fi fost indeajuns de laborioase, inginerii Google trebuie sa compenseze si pentru acei utilizatori care sunt nu doar ezitanti, dar si vagi in privinta a ceea ce-si doresc; adesea, acestia tasteaza sintagme ambigue sau cuvinte ortografiate gresit. Cu mult timp in urma, Google si-a dat seama ca utilizatorii care tasteaza "Brittany Speers", spre exemplu, cauta de fapt "Britney Spears". Ca sa rezolve o asemenea problema, Google a elaborat un sistem care intelege variatiile cuvintelor. Acest model este atat de puternic si de elegant, incat poate cauta pagini chiar daca i se da o abreviere sau un sinonim. In cele din urma, e dificil de estimat cat de avansate sunt cu adevarat tehnicile celor de la Google, pentru ca mult din ceea ce fac ei si concurentii lor ramane invaluit in mister. Iar daca ne uitam la rezultate, diferentele dintre motoarele de cautare sunt subtile. "Oamenii inca mai cred ca Google este etalonul de aur pentru cautari", spune John Battelle. "Ingredientul lor secret este cum fac ei ca sa puna totul cap la cap. Si au nevoie sa faca o mie de reglaje fine pentru asta."

Traducere si adaptare: Mihai MITRICA

Urmărește Business Magazin

Am mai scris despre:
In inima Google
/special/in-inima-google-1009492
1009492
comments powered by Disqus

Preluarea fără cost a materialelor de presă (text, foto si/sau video), purtătoare de drepturi de proprietate intelectuală, este aprobată de către www.bmag.ro doar în limita a 250 de semne. Spaţiile şi URL-ul/hyperlink-ul nu sunt luate în considerare în numerotarea semnelor. Preluarea de informaţii poate fi făcută numai în acord cu termenii agreaţi şi menţionaţi in această pagină.