Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties: Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web enige honderden malen groter dan het geindexeerde Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie niet vindbaar omdat het onderdeel is van dit diepe web.
Schattingen naar de omvang van twee databases laten dit ook zien:
Site | Yahoo | MSN | |
Worldcat | 433.000 | 3.500.000 | 964 |
Pubmed | 9.260.000 | 863.000 | 98.272 |
De belangrijkste oorzaken voor het bestaan van het diepe web zou je als volgt kunnen samenvatten:
De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools
Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam of jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd, maar daarna stopt het.
Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd. Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976
Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.
Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een viertal methodes.
Invisible-Web.net http://www.invisible-web.net/ (tijdelijk niet beschikbaar)
Dit is de companion website van het boek met de gelijknamige titel geschreven door Chris Sherman en Gary Price. Deze website is deels gebaseerd op Direct Search. Hoewel de website aangeduid wordt als directory is de verzameling niet echt goed door te bladeren. Het probleem met deze direcotry is dat het ook niet meer geupdate lijkt te zijn sinds 2001/2002. Gary Price rapporteert nog steeds volop over de nieuwste bronnen en ontwikkelingen op het web in zijn resourceshelf.
Direct Search http://www.freepint.com/gary/direct.htm
Hoewel Direct Search sinds 2002 niet meer is bijgewerkt, bevat deze site nog steeds een relevante opsomming en beschrijving van databases. Deze site werd gestart en onderhouden door Gary Price. Actuele ontwikkelingen wat betreft het Web en nieuwe databases worden geblogd op ResoureShelf.
Yahoo! Webdirectories http://dir.yahoo.com/
De meeste categorieen van Yahoo, hebben onder de W de categorie webdirectories. Maar soms ook direct databases, of bibliographies.
A collection of special search engines http://www.leidenuniv.nl/ub/biv/specials.htm
Verouderde (laatst gewijzigd in 2000) maar nog steeds een indrukwekkende verzameling van wetenschappelijke zoekmachines en directories, met een nadruk of alpha wetenschappen en de humaniora. Verzameld door Marten Hofstede.
Profusion http://www.profusion.com/nav
Profusion voert zoekacties uit in gespecialiseerde databases en webdirectories. Wanneer je geen categorie aangeeft opereert Profusion als een Metazoekmachine, en zoekt het in Altavista, MSN, Yahoo! en Wisenut. Maar de kracht van Profusion ligt in de gespecialiseerde searches waarbij ook in zogenaamde 'diepe web' bronnen wordt gezocht.
Complete Planet http://www.completeplanet.com/
Omvat circa 70,000 databases, en webdirectories.
Gosh me http://www.goshme.com/
IncyWincy http://www.incywincy.com/default
Turbo10 http://turbo10.com/
Een metazoekmachines die in ongeveer 800 zoekmachines tegelijk kan zoeken die deels collecties van het invisible web afzoeken.
Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory of statistics. Bijvoorbeeld ["plane crash" | "aircraft accidents" database].
Zoek op termen in de URL die database queries genereren, zoals: asp, bin, cgi, cfm, search, query, (webquery) of php
Bijvoorbeeld [mycology inurl:cfm] of [mycology inurl:asp]
Wanneer je eenmaal geschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.
Anon. (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. Retrieved 2005-05-23, from http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html
Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. Retrieved 2005-05-23, from http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.
Drunk men work here. (2006) On bots. http://www.drunkmenworkhere.org/219
Ess, H van (2005) Now find that hidden web. Retrieved 2005-05-23, from http://www.zoekzone.com/gijc2005_vaness1.pdf
Hofstede, M. (2005) Het diepe web. IP Weblog. Retrieved 2005-05-23, from http://www.informatieprofessional.nl/weblog/2005/12/het-onzichtbare-web.html
Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.