Wat is het diepe of onzichtbare Web?
Oplossingen
Meer info

Wat is het diepe of onzichtbare Web?

Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties: Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web enige honderden malen groter dan het geindexeerde Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie niet vindbaar omdat het onderdeel is van dit diepe web.

Schattingen naar de omvang van twee databases laten dit ook zien:

Site	Google	Yahoo	MSN
Worldcat	433.000	3.500.000	964
Pubmed	9.260.000	863.000	98.272

De belangrijkste oorzaken voor het bestaan van het diepe web zou je als volgt kunnen samenvatten:

Zoekmachine limiteringen
Pagina's scoren laag in de resultaten (limiteringen van zoekers)
De informatie zit in databases

Zoekmachine limiteringen

Sites zijn te ingewikkeld of te groot
Files zijn te groot (limieten verschuiven wel, maar deze zijn er nog steeds).
Informatie zit in niet geindexeerde file types (ZIP, TAR etc..)
Informatie zit in grafische, multimediale bestanden of Flash.
De robots.txt staat indexeren niet toe
Informatie wisselt te snel (beurskoersen, nieuws of blogs)
Sites zitten op intranetten, of hebben passwords nodig

Pagina's scoren laag in de resultaten

De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

Informatie zit in databases

Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam of jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd, maar daarna stopt het.

Database paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd. Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een viertal methodes.

Speciale directories gebruiken.
Databases zoeken op plaatsen waar ze te verwachten zijn.
Speciale 'diep Web' zoekmachines gebruiken.
Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.

Speciale directories

Invisible-Web.net http://www.invisible-web.net/ (tijdelijk niet beschikbaar)

Dit is de companion website van het boek met de gelijknamige titel geschreven door Chris Sherman en Gary Price. Deze website is deels gebaseerd op Direct Search. Hoewel de website aangeduid wordt als directory is de verzameling niet echt goed door te bladeren. Het probleem met deze direcotry is dat het ook niet meer geupdate lijkt te zijn sinds 2001/2002. Gary Price rapporteert nog steeds volop over de nieuwste bronnen en ontwikkelingen op het web in zijn resourceshelf.

Direct Search http://www.freepint.com/gary/direct.htm

Hoewel Direct Search sinds 2002 niet meer is bijgewerkt, bevat deze site nog steeds een relevante opsomming en beschrijving van databases. Deze site werd gestart en onderhouden door Gary Price. Actuele ontwikkelingen wat betreft het Web en nieuwe databases worden geblogd op ResoureShelf.

Yahoo! Webdirectories http://dir.yahoo.com/

De meeste categorieen van Yahoo, hebben onder de W de categorie webdirectories. Maar soms ook direct databases, of bibliographies.

A collection of special search engines http://www.leidenuniv.nl/ub/biv/specials.htm

Verouderde (laatst gewijzigd in 2000) maar nog steeds een indrukwekkende verzameling van wetenschappelijke zoekmachines en directories, met een nadruk of alpha wetenschappen en de humaniora. Verzameld door Marten Hofstede.

Databases zoeken op plaatsen waar ze te verwachten zijn

Statistieken over Nederland worden bijgehouden door het CBS op de homepage vinden we de ingang naar de Statline databank
De weersgegevens worden dagelijks bijgehouden door het KNMI, en daar is een link naar klimatologie/verleden weer waar we de dagwaarden van de weerstations kunnen opzoeken.
Wetten worden opgesteld door de overheid, tegenwoordig zijn de wetten daar ook voor de burger vrij toegankelijk.

gespecialiseerde zoekmachines

Profusion http://www.profusion.com/nav

Profusion voert zoekacties uit in gespecialiseerde databases en webdirectories. Wanneer je geen categorie aangeeft opereert Profusion als een Metazoekmachine, en zoekt het in Altavista, MSN, Yahoo! en Wisenut. Maar de kracht van Profusion ligt in de gespecialiseerde searches waarbij ook in zogenaamde 'diepe web' bronnen wordt gezocht.

Complete Planet http://www.completeplanet.com/

Omvat circa 70,000 databases, en webdirectories.

Gosh me http://www.goshme.com/

IncyWincy http://www.incywincy.com/default

Turbo10 http://turbo10.com/

Een metazoekmachines die in ongeveer 800 zoekmachines tegelijk kan zoeken die deels collecties van het invisible web afzoeken.

Zoeken met de gangbare zoekmachines naar databases

Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory of statistics. Bijvoorbeeld ["plane crash" | "aircraft accidents" database].

Zoek op termen in de URL die database queries genereren, zoals: asp, bin, cgi, cfm, search, query, (webquery) of php

Bijvoorbeeld [mycology inurl:cfm] of [mycology inurl:asp]

Wanneer je eenmaal geschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

Meer info

Anon. (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. Retrieved 2005-05-23, from http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html

Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. Retrieved 2005-05-23, from http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.

Drunk men work here. (2006) On bots. http://www.drunkmenworkhere.org/219

Ess, H van (2005) Now find that hidden web. Retrieved 2005-05-23, from http://www.zoekzone.com/gijc2005_vaness1.pdf

Hofstede, M. (2005) Het diepe web. IP Weblog. Retrieved 2005-05-23, from http://www.informatieprofessional.nl/weblog/2005/12/het-onzichtbare-web.html

Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.

inhoud

Hoe diep is het web