WoW!ter

 

Hoe diep zoeken we

Page history last edited by WoW!ter 5 mos ago
 


 

 

Wat is het diepe web?

Niet alle textuele informatie is direct vindbaar. In 2001 waren er twee publicaties Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web vijfhonderd honderd maal groter dan het indexeerbare Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie nog steeds niet vindbaar omdat het onderdeel is van dit diepe web.

Schattingen naar de omvang van twee databases laten dit ook zien:

Site Google Yahoo Bing
Worldcat 11.000.000 2.600.000 333.000
Pubmed 1.140.000 1.465.000  

De oorzaken voor het bestaan van het diepe web zou je als volgt kunnen clusteren:

  • De informatie zit in databases
  • Zoekmachine limiteringen
  • Pagina's scoren laag in de resultaten

 

Informatie zit in databases

Spiders van zoekmachines kunnen (nog) niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam, chemisch stofje, trefwoorden of een jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd maar daarna stopt het.

 

Zoekmachine paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd.

Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines. Sommige zoekmachine's zoals Google gaan tegenwoordig steeds beter overweg met dynamische URL's zodat de zoekmachine paradox weer wat minder wordt.

 

 

Zoekmachine limiteringen

 

 

Vorig jaar heeft Google een paar aankondigingen gemaakt die het diepe Web op basis van technische limiteringen minder zal gaan. Google is begonnen met het indexeren van Flash files, het invullen van database formulieren en het herkennen van text in grafische bestanden. Helaas staat daar tegenover dat met de opkomst van Web 2.0 toepassingen, veel grote en populaire sites zoals Hyves, delicious, facebook etc. slechts deels door externe zoekmachines geindexeerd mogen worden. Daarbij hebben ook de gebruikers een grote stem in wat wel en niet van hun profielen op social networking sites bekend mag worden.

 

Pagina's scoren laag in de resultaten

De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

 

 

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een drietal methodes.

  • Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.
  • Speciale directories.
  • Databases zoeken op plaatsen waar ze te verwachten zijn
  • Speciale zoekmachines.

 

Zoek met de gangbare zoekmachines naar databases

 

 

  • Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory, zoek, search of statistics. Bijvoorbeeld ["plane crash" | "aviation accidents" database].

Wanneer je eenmaal deschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

 

 

Speciale directories

 

Hoewel Direct Search sinds 2002 niet meer is bijgewerkt, bevat deze site nog steeds een relevante opsomming en beschrijving van databases. Deze site werd gestart en onderhouden door Gary Price. Actuele ontwikkelingen wat betreft het Web en nieuwe databases worden geblogd op ResoureShelf en DocuTicker.

De meeste categorieen van Yahoo, hebben onder de W de categorie webdirectories. Maar soms ook direct databases, of bibliographies.

Verouderde (laatst gewijzigd in 2000) maar nog steeds een indrukwekkende verzameling van wetenschappelijke zoekmachines en directories, met een nadruk of alpha wetenschappen en de humaniora. Verzameld door Marten Hofstede.

 

 

Databases zoeken op plaatsen waar ze te verwachten zijn

 

 

Gespecialiseerde zoekmachines

 

Omvat circa 70,000 databases, en webdirectories. Helaas al sinds 2004 niet meer bijgewerkt

Zoekt in wetenschappelijke bronnen van 38 landen met technologie van DeepWeb

Zoekt specifiek in zoekresultaten pagina's van databases, heeft een relatief kleine index.

Een metazoekmachines die in ongeveer 800 zoekmachines tegelijk kan zoeken die deels collecties van het invisible web afzoeken.

Een metazoekmachine die per zoekmachine of database aangeeft hoeveel resultaten er voor de zoekvraag zijn. Interresant om te zien welke databases veel treffers voor een zoekvraag geven, vooral om die database dan verder te doorzoeken.

Nieuwe zoekmachine. Dekt vooral de lifesciences en enkele wetenschappelijke tijdschriftpakketten van grote uitgevers. Deze winter willen ze vooral de bussiness litaratuur gaan dekken. 

Door sommige omschreven als een feitenzoekmachine. Momenteel nog erg experimenteel, maar beter dan Google Squared. Het meest waaardevolle aan Wolfram Alpha vind ik echter de bronvermelding die ze geven bij iedere geslaagde "zoekactie". Kijk bijvoorbeeld eens naar de database die ze gebruiken om de hoogste gebouwen, je wordt dan gewezen op de Emporis database waar je nog meer feiten over gebouwen kan vinden.

 

 

Meer info

Anonymous (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html

Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.

Hofstede, M. (2005) Het diepe web. IP Weblog. http://web.archive.org/web/20060818093451/http://www.informatieprofessional.nl/weblog/2005/12/het-onzichtbare-web.html

Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.

Zillman, M. (2008) Deep Web Research 2009. http://www.llrx.com/features/deepweb2009.htm

Nouwens, H. Adressen http://home.kpn.nl/henknou1/

 


Home

WG 20090609

Comments (0)

You don't have permission to comment on this page.