Wat is het diepe web?
Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web vijfhonderd maal groter dan het indexeerbare Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie nog steeds niet met gewone zoekmachines vindbaar omdat het onderdeel is van het diepe Web. Het diepe Web wordt ook wel het onzichtbare of verborgen Web genoemd.
De oorzaken voor het bestaan van het diepe web zou je als volgt kunnen clusteren:
- De informatie zit in databases
- Zoekmachine of Website limiteringen
- Website limiteringen
- Cognitieve factoren
- Web 2.0
Informatie zit in databases
Spiders van zoekmachines kunnen (nog) niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen auteursnaam, chemische formule, trefwoorden of een jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd maar daarna stopt het. Voor zoekmachines worden er soms speciale ingangen op databases gemaakt om te zorgen dat de informatie uit databases wel in de indexen van grote zoekmachines terecht komen. Denk hierbij bijvoorbeeld aan PubMed of WorldCat, maar de catalogus van lokale openbare bibliotheek is meestal niet in Google te vinden.
Zoekmachine paradox
Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet geïndexeerd, pagina's met één ? worden minder goed geindexeerd.
Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976
Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines. Sommige zoekmachine's zoals Google gaan tegenwoordig steeds beter overweg met dynamische URL's zodat de zoekmachine paradox weer wat minder wordt.
Zoekmachine of Website limiteringen
- Sites zijn te ingewikkeld of te groot
- Files zijn te groot (limieten verschuiven wel, maar zijn er nog steeds).
- Informatie zit in niet geindexeerde file types (ZIP, TAR etc.)
- Informatie zit in grafische, multimediale bestanden of flash (iFly magazine of Paars! Magazine).
- De robots.txt staat indexeren niet toe
- Informatie wisselt te snel (beurskoersen, nieuws of blogs)
- Sites zitten op intranetten, of hebben passwords nodig
Vorig jaar heeft Google een paar aankondigingen gemaakt die het diepe Web op basis van technische limiteringen minder zal gaan. Google is begonnen met het indexeren van Flash files, het invullen van database formulieren en het herkennen van text in grafische bestanden. Helaas staat daar tegenover dat met de opkomst van Web 2.0 toepassingen, veel grote en populaire sites zoals Hyves, delicious, facebook etc. slechts deels door externe zoekmachines geindexeerd mogen worden. Daarbij hebben ook de gebruikers een grote stem in wat wel en niet van hun profielen op social networking sites bekend mag worden (Hoe is jullie eigen Hyves profiel zichtbaar in Google?).
Cognitieve factoren
Vaak geeft men aan dat bepaalde informatie niet gevonden kan worden. Soms ligt de oorzaak bij de zoeker, die niet de juiste zoekvragen stelt, of zit het juiste resultaat wel in de set, maar komt niet op de eerste pagina met zoekresultaten. De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools
Web 2.0
Social networking sites, foto en video deelsites, hebben een sterke groei doorgemaakt. In maart werd bijvoorbeeld Facebook een populairdere website dan Google search in de Verenigde Staten. Activiteiten van facebook gebruikers zijn voor zoekmachines grotendeels onzichtbaar. Afhankelijk van de settings zijn die vaak ook maar beperkt zichtbaar voor andere gebruikers. Over de jaren zijn de standaard privacy instellingen van Facebook nogal veranderd.
Daarentegen zijn bepaalde Web 2.0 toepassing juist wel heel goed doorzoekbaar met behulp van de standaard zoekmachines, denk maar bijvoorbeeld aan de wikipedia. Die rankt meestal er hoog in de zoekresultaten van Google.
Oplossingen
Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een drietal methodes.
- Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.
- Speciale directories.
- Databases zoeken op plaatsen waar ze te verwachten zijn
- Speciale zoekmachines.
Zoek met de gangbare zoekmachines naar databases
- Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory, register, zoek, search of statistics. Bijvoorbeeld ["plane crash" | "aviation accidents" database].
Wanneer je eenmaal deschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.
Databases zoeken op plaatsen waar ze te verwachten zijn
Gespecialiseerde zoekmachines
Omvat circa 70,000 databases, en webdirectories. Helaas al sinds 2004 niet meer bijgewerkt
Zoekt in wetenschappelijke bronnen van 38 landen met technologie van DeepWeb
Nieuwe zoekmachine. Dekt vooral de lifesciences en enkele wetenschappelijke tijdschriftpakketten van grote uitgevers, maar bijvoobeeld nog geen Elsevier.
Door sommige omschreven als een feitenzoekmachine. Momenteel nog erg experimenteel, maar beter dan Google Squared. Het meest waaardevolle aan Wolfram Alpha vind ik echter de bronvermelding die ze geven bij iedere geslaagde "zoekactie". Kijk bijvoorbeeld eens naar de database die ze gebruiken om de hoogste gebouwen, je wordt dan gewezen op de Emporis database waar je nog meer feiten over gebouwen kan vinden.
opdracht diepe Web
Meer info
Anonymous (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html
Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.
Hagedorn, K. and J. Santelli (2008). Google still not indexing hidden web URLs. D-Lib Magazine 14(7/8). http://www.dlib.org/dlib/july08/hagedorn/07hagedorn.html
Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.
Zillman, M. (2009) Deep Web Research 2010. http://www.llrx.com/features/deepweb2010.htm
Nouwens, H. Adressen http://home.kpn.nl/henknou1/
Home
WG 20131125
Comments (0)
You don't have permission to comment on this page.