Google graaft het onzichtbare web op
Indexrobots trainen op invullen HTML-formulieren
16 april 2008 | Rowald PruynDe zoekrobots van Google hebben er een berg werk bij gekregen. Ze moeten op zoek naar de miljoenen webpagina’s die verborgen liggen in het onzichtbare web, om de zoekresultaten te verbeteren.
In een blogposting op de Google Webmaster Central Blog leggen zoekexperts Jayant Madhavan en Alon Halevy uit dat de zoekmachine start met een ontdekkingstocht in een onbekend gedeelte van het web. De zoekrobots zullen de taak krijgen om HTML-formulieren in te vullen waarachter pagina’s verborgen liggen die niet kunnen worden geïndexeerd. Het gaat daarbij om onderdelen van bibliotheekcatalogussen en artikelverzamelingen die pas tevoorschijn komen na een gerichte zoekopdracht.
“Dit experiment is onderdeel van Googles pogingen om zijn bereik op het web te vergroten. HTML-formulieren worden sinds lange tijd beschouwd als een doorgang tot grote hoeveelheden data die buiten het bereik van reguliere zoekmachines liggen”, schrijven de twee. Blogger Anand Rajaraman, die in het verleden met Halevy samenwerkte, denkt dat Googles plan te maken heeft met het bedrijf Transformic, dat de zoekmachine in het verleden aanschafte.
Volgens Rajaraman is de techniek die Transformic ontwikkelde in staat om uit te vogelen welke schatkamers het waard zijn voor zijn gebruikers om te openen. Daarnaast weet zij om te gaan met de vele neerklapbalken, tekstvelden en andere obstakels die het de zoekrobots moeilijk maken bij het invullen van HMTL-formulieren.
bron: ZDNet
Lees verder op ZDNet »
Externe links »
» Review Ubuntu 12.04 (Precise Pagolin)
reviews
Ubuntu kennen we als solide en bruikbaar linuxbesturingssysteem. Versie 12.04 heeft een nieuwe kernel en gebruikersinterface Unity is hier en daar bruikbaarder geworden.
» De technologie van het 9/11-monument
news
Meer dan twee miljoen mensen hebben de herdenkingsplek voor de ramp van 11 september bezocht. Velen gebruiken technologie om alles uit de ervaring te halen.
» Wel borstvoeding, geen tepels op Facebook
news
Een ontevreden Facebookwerknemer besliste onlangs de richtlijnen voor het verwijderen van content te lekken aan nieuwssite Gawker. Dat deed het nodige stof opwaaien.
Review: Diablo III
Game
Twintig jaar geleden redde een groepje naamloze helden de wereld. Nu is het aan een nieuwe generatie om de demonen terug richting de hel te sturen.








