| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • Finally, you can manage your Google Docs, uploads, and email attachments (plus Dropbox and Slack files) in one convenient place. Claim a free account, and in less than 2 minutes, Dokkio (from the makers of PBworks) can automatically organize your content for you.

View
 

Hoe diep is het web

Page history last edited by PBworks 14 years, 7 months ago


 

Wat is het diepe of onzichtbare Web?

Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties: Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web enige honderden malen groter dan het geindexeerde Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie niet vindbaar omdat het onderdeel is van dit diepe web.

 

Schattingen naar de omvang van twee databases laten dit ook zien:

SiteGoogleYahooMSN
Worldcat433.0003.500.000964
Pubmed9.260.000863.00098.272

 

De belangrijkste oorzaken voor het bestaan van het diepe web zou je als volgt kunnen samenvatten:

  • Zoekmachine limiteringen
  • Pagina's scoren laag in de resultaten (limiteringen van zoekers)
  • De informatie zit in databases

 

Zoekmachine limiteringen

  • Sites zijn te ingewikkeld of te groot
  • Files zijn te groot (limieten verschuiven wel, maar deze zijn er nog steeds).
  • Informatie zit in niet geindexeerde file types (ZIP, TAR etc..)
  • Informatie zit in grafische, multimediale bestanden of Flash.
  • De robots.txt staat indexeren niet toe
  • Informatie wisselt te snel (beurskoersen, nieuws of blogs)
  • Sites zitten op intranetten, of hebben passwords nodig

 

Pagina's scoren laag in de resultaten

De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

 

Informatie zit in databases

Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam of jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd, maar daarna stopt het.

 

Database paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd. Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.

 

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een viertal methodes.

  • Speciale directories gebruiken.
  • Databases zoeken op plaatsen waar ze te verwachten zijn.
  • Speciale 'diep Web' zoekmachines gebruiken.
  • Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.

 

Speciale directories

Invisible-Web.net http://www.invisible-web.net/ (tijdelijk niet beschikbaar)

Dit is de companion website van het boek met de gelijknamige titel geschreven door Chris Sherman en Gary Price. Deze website is deels gebaseerd op Direct Search. Hoewel de website aangeduid wordt als directory is de verzameling niet echt goed door te bladeren. Het probleem met deze direcotry is dat het ook niet meer geupdate lijkt te zijn sinds 2001/2002. Gary Price rapporteert nog steeds volop over de nieuwste bronnen en ontwikkelingen op het web in zijn resourceshelf.

 

Direct Search http://www.freepint.com/gary/direct.htm

Hoewel Direct Search sinds 2002 niet meer is bijgewerkt, bevat deze site nog steeds een relevante opsomming en beschrijving van databases. Deze site werd gestart en onderhouden door Gary Price. Actuele ontwikkelingen wat betreft het Web en nieuwe databases worden geblogd op ResoureShelf.

 

Yahoo! Webdirectories http://dir.yahoo.com/

De meeste categorieen van Yahoo, hebben onder de W de categorie webdirectories. Maar soms ook direct databases, of bibliographies.

 

A collection of special search engines http://www.leidenuniv.nl/ub/biv/specials.htm

Verouderde (laatst gewijzigd in 2000) maar nog steeds een indrukwekkende verzameling van wetenschappelijke zoekmachines en directories, met een nadruk of alpha wetenschappen en de humaniora. Verzameld door Marten Hofstede.

 

Databases zoeken op plaatsen waar ze te verwachten zijn

 

gespecialiseerde zoekmachines

 

Profusion http://www.profusion.com/nav

Profusion voert zoekacties uit in gespecialiseerde databases en webdirectories. Wanneer je geen categorie aangeeft opereert Profusion als een Metazoekmachine, en zoekt het in Altavista, MSN, Yahoo! en Wisenut. Maar de kracht van Profusion ligt in de gespecialiseerde searches waarbij ook in zogenaamde 'diepe web' bronnen wordt gezocht.

 

Complete Planet http://www.completeplanet.com/

Omvat circa 70,000 databases, en webdirectories.

 

Gosh me http://www.goshme.com/

 

IncyWincy http://www.incywincy.com/default

 

Turbo10 http://turbo10.com/

Een metazoekmachines die in ongeveer 800 zoekmachines tegelijk kan zoeken die deels collecties van het invisible web afzoeken.

 

Zoeken met de gangbare zoekmachines naar databases

Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory of statistics. Bijvoorbeeld ["plane crash" | "aircraft accidents" database].

 

Zoek op termen in de URL die database queries genereren, zoals: asp, bin, cgi, cfm, search, query, (webquery) of php

Bijvoorbeeld [mycology inurl:cfm] of [mycology inurl:asp]

 

Wanneer je eenmaal geschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

 

 

Meer info

Anon. (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. Retrieved 2005-05-23, from http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

 

Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html

 

Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. Retrieved 2005-05-23, from http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.

 

Drunk men work here. (2006) On bots. http://www.drunkmenworkhere.org/219

 

Ess, H van (2005) Now find that hidden web. Retrieved 2005-05-23, from http://www.zoekzone.com/gijc2005_vaness1.pdf

 

Hofstede, M. (2005) Het diepe web. IP Weblog. Retrieved 2005-05-23, from http://www.informatieprofessional.nl/weblog/2005/12/het-onzichtbare-web.html

 

Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.


inhoud

Comments (0)

You don't have permission to comment on this page.