Waar is het Web?
Zoekmachines vinden minder dan 1 procent van internet
28 maart 2001 | Jan van den Hemel
Van de geschatte 550 miljard webpagina's op internet worden er door de beste zoekmachines, zoals Google, slechts 1,4 miljard, minder dan één procent, geïndexeerd. Populaire zoekopdrachten naar sleutelwoorden zoals "Napster", "Pokemon" en het nog steeds populaire "sex" leveren gegarandeerd een vloedgolf aan resultaten op. (respectievelijk 850.000, 1,6 miljoen en bijna 30 miljoen met Google).
Helaas wordt het steeds moeilijker om het ongetwijfeld enorme, maar goed verscholen aanbod aan echt interessante sites te vinden. Experts hebben dit overgrote deel van internet de termen 'onzichtbare Web' of het 'diepe Web' gegeven. Midden jaren '90 bestond internet vooral uit pagina's opgemaakt uit het Hyper Text Mark-up Language (HTML)-formaat. Deze zijn veel makkelijker in kaart te brengen door de automatische zoekrobotjes, de 'spiders' die bedrijven zoals Yahoo! en Altavista gebruiken om nieuwe websites te vinden.
Tegenwoordig zijn de grotere websites echter vaak met Cold Fusion, PHP, Microsoft Active Server Pages en andere gemaakt. Die kun je herkennen aan de extensies .cfm, .php, .asp en nog enkele andere in plaats van de bekende .htm of html. Deze pagina's maken gebruik van databases. Het komt er in feite op neer dat de informatie uit die databases wordt opgeroepen als een gebruiker de pagina wil bekijken. Als de pagina niet bekeken wordt, bestaat hij dus niet. Dat maakt het voor de 'spiders' van zoekmachines erg moeilijk. Vaak proberen de websiteontwikkelaars deze spiders ook buiten te houden. "Het is hun intellectuele eigendom, dus beschermen ze het en willen ze niet dat wij in hun site rondkijken met een spider", aldus Craig Silverstein, technologiedirecteur bij Google. Een ander probleem is dat de spiders niet diep genoeg gaan en per site niet alles indexeren. Van een site met duizenden pagina's, zoals bijvoorbeeld Geocities, zal er maar tien procent van de pagina's geïndexeerd worden.
Iets anders dat moeilijk in kaart te brengen is, maar wel steeds meer op het Web te vinden is, zijn geluids- en videobestanden. Het bekende Napster en Artcyclopedia, dat gebruikers naar beeldmateriaal laat zoeken, is misschien het begin van een oplossing daarvoor. Er zijn ook veel alternatieven voor de grote zoekmachines zoals www.completeplanet.com, dat naar meer dan 200.000 gespecialiseerde zoeksites linkt. Op die manier vind je content die met een site als Altavista onvindbaar is.
Volgens sommigen zal dit leiden tot de scheiding van het gratis Web en het gespecialiseerde Web. Voorbeeld is Northern Light, dat rond de 40 miljoen websites met alleen wetenschappelijke en financiële informatie indexeerd. Volgens Google's Silverstein is het scheiden van het gratis internet met betaalde, gespecialiseerde sites niet de oplossing. "Volgens mij is er content van zeer hoge kwaliteit aanwezig op het Net", zegt Silverstein, "en ik denk niet dat dat gaat veranderen".
Lees meer artikels over :
completeplanet, searchengines, google, altavista, yahoo, silverstein, coldfusion, html
bron: CNN
Game
"Schiet me maar aan flarden, ik raap me wel terug bijeen!", Huh? Innovatie is leuk, maar een hoofdrolspeler die zijn eigen lichaam verzamelt, is nieuw. Brengt Never Dead nog meer nieuwigheden of blijft het hier bij?
lees meer »