Hoe diep zoeken we



 

 

Wat is het diepe web?

Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web vijfhonderd maal groter dan het indexeerbare Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie nog steeds niet met gewone zoekmachines vindbaar omdat het onderdeel is van het diepe Web. Het diepe Web wordt ook wel het onzichtbare of verborgen Web genoemd.

 

De oorzaken voor het bestaan van het diepe web zou je als volgt kunnen clusteren:

 

Informatie zit in databases

Spiders van zoekmachines kunnen (nog) niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen auteursnaam, chemische formule, trefwoorden of een jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd maar daarna stopt het. Voor zoekmachines worden er soms speciale ingangen op databases gemaakt om te zorgen dat de informatie uit databases wel in de indexen van grote zoekmachines terecht komen. Denk hierbij bijvoorbeeld aan PubMed of WorldCat, maar de catalogus van lokale openbare bibliotheek is meestal niet in Google te vinden.

 

Zoekmachine paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet geïndexeerd, pagina's met één ? worden minder goed geindexeerd.

 

Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines. Sommige zoekmachine's zoals Google gaan tegenwoordig steeds beter overweg met dynamische URL's zodat de zoekmachine paradox weer wat minder wordt.

 

 

Zoekmachine of Website limiteringen

 

 

Vorig jaar heeft Google een paar aankondigingen gemaakt die het diepe Web op basis van technische limiteringen minder zal gaan. Google is begonnen met het indexeren van Flash files, het invullen van database formulieren en het herkennen van text in grafische bestanden. Helaas staat daar tegenover dat met de opkomst van Web 2.0 toepassingen, veel grote en populaire sites zoals Hyves, delicious, facebook etc. slechts deels door externe zoekmachines geindexeerd mogen worden. Daarbij hebben ook de gebruikers een grote stem in wat wel en niet van hun profielen op social networking sites bekend mag worden (Hoe is jullie eigen Hyves profiel zichtbaar in Google?).

 

Cognitieve factoren

Vaak geeft men aan dat bepaalde informatie niet gevonden kan worden. Soms ligt de oorzaak bij de zoeker, die niet de juiste zoekvragen stelt, of zit het juiste resultaat wel in de set, maar komt niet op de eerste pagina met zoekresultaten.  De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

 

Web 2.0

Social networking sites, foto en video deelsites, hebben een sterke groei doorgemaakt. In maart werd bijvoorbeeld Facebook een populairdere website dan Google search in de Verenigde Staten. Activiteiten van facebook gebruikers zijn voor zoekmachines grotendeels onzichtbaar. Afhankelijk van de settings zijn die vaak ook maar beperkt zichtbaar voor andere gebruikers. Over de jaren zijn de standaard privacy instellingen van Facebook nogal veranderd.

Daarentegen zijn bepaalde Web 2.0 toepassing juist wel heel goed doorzoekbaar met behulp van de standaard zoekmachines, denk maar bijvoorbeeld aan de wikipedia. Die rankt meestal er hoog in de zoekresultaten van Google.

 

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een drietal methodes.

 

Zoek met de gangbare zoekmachines naar databases

 

          Wanneer je eenmaal deschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

 

Databases zoeken op plaatsen waar ze te verwachten zijn

 

 

Gespecialiseerde zoekmachines

 

Omvat circa 70,000 databases, en webdirectories. Helaas al sinds 2004 niet meer bijgewerkt

Zoekt in wetenschappelijke bronnen van 38 landen met technologie van DeepWeb

Nieuwe zoekmachine. Dekt vooral de lifesciences en enkele wetenschappelijke tijdschriftpakketten van grote uitgevers, maar bijvoobeeld nog geen Elsevier.

Door sommige omschreven als een feitenzoekmachine. Momenteel nog erg experimenteel, maar beter dan Google Squared. Het meest waaardevolle aan Wolfram Alpha vind ik echter de bronvermelding die ze geven bij iedere geslaagde "zoekactie". Kijk bijvoorbeeld eens naar de database die ze gebruiken om de hoogste gebouwen, je wordt dan gewezen op de Emporis database waar je nog meer feiten over gebouwen kan vinden.

 

opdracht diepe Web

 

Meer info

Anonymous (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html

Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.

Hagedorn, K. and J. Santelli (2008). Google still not indexing hidden web URLs. D-Lib Magazine 14(7/8). http://www.dlib.org/dlib/july08/hagedorn/07hagedorn.html

Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.

Zillman, M. (2009) Deep Web Research 2010. http://www.llrx.com/features/deepweb2010.htm

Nouwens, H. Adressen http://home.kpn.nl/henknou1/

 


Home

WG 20131125