If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.
You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

Hoe diep zoeken we

Page history last edited by WoW!ter 10 years, 5 months ago

Wat is het diepe web?
Oplossingen
Meer info

Wat is het diepe web?

Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web vijfhonderd maal groter dan het indexeerbare Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie nog steeds niet met gewone zoekmachines vindbaar omdat het onderdeel is van het diepe Web. Het diepe Web wordt ook wel het onzichtbare of verborgen Web genoemd.

De oorzaken voor het bestaan van het diepe web zou je als volgt kunnen clusteren:

De informatie zit in databases
Zoekmachine of Website limiteringen
Website limiteringen
Cognitieve factoren
Web 2.0

Informatie zit in databases

Spiders van zoekmachines kunnen (nog) niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen auteursnaam, chemische formule, trefwoorden of een jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd maar daarna stopt het. Voor zoekmachines worden er soms speciale ingangen op databases gemaakt om te zorgen dat de informatie uit databases wel in de indexen van grote zoekmachines terecht komen. Denk hierbij bijvoorbeeld aan PubMed of WorldCat, maar de catalogus van lokale openbare bibliotheek is meestal niet in Google te vinden.

Zoekmachine paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet geïndexeerd, pagina's met één ? worden minder goed geindexeerd.

Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines. Sommige zoekmachine's zoals Google gaan tegenwoordig steeds beter overweg met dynamische URL's zodat de zoekmachine paradox weer wat minder wordt.

Zoekmachine of Website limiteringen

Sites zijn te ingewikkeld of te groot
Files zijn te groot (limieten verschuiven wel, maar zijn er nog steeds).
Informatie zit in niet geindexeerde file types (ZIP, TAR etc.)
Informatie zit in grafische, multimediale bestanden of flash (iFly magazine of Paars! Magazine).
De robots.txt staat indexeren niet toe
Informatie wisselt te snel (beurskoersen, nieuws of blogs)
Sites zitten op intranetten, of hebben passwords nodig

Vorig jaar heeft Google een paar aankondigingen gemaakt die het diepe Web op basis van technische limiteringen minder zal gaan. Google is begonnen met het indexeren van Flash files, het invullen van database formulieren en het herkennen van text in grafische bestanden. Helaas staat daar tegenover dat met de opkomst van Web 2.0 toepassingen, veel grote en populaire sites zoals Hyves, delicious, facebook etc. slechts deels door externe zoekmachines geindexeerd mogen worden. Daarbij hebben ook de gebruikers een grote stem in wat wel en niet van hun profielen op social networking sites bekend mag worden (Hoe is jullie eigen Hyves profiel zichtbaar in Google?).

Cognitieve factoren

Vaak geeft men aan dat bepaalde informatie niet gevonden kan worden. Soms ligt de oorzaak bij de zoeker, die niet de juiste zoekvragen stelt, of zit het juiste resultaat wel in de set, maar komt niet op de eerste pagina met zoekresultaten. De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

Web 2.0

Social networking sites, foto en video deelsites, hebben een sterke groei doorgemaakt. In maart werd bijvoorbeeld Facebook een populairdere website dan Google search in de Verenigde Staten. Activiteiten van facebook gebruikers zijn voor zoekmachines grotendeels onzichtbaar. Afhankelijk van de settings zijn die vaak ook maar beperkt zichtbaar voor andere gebruikers. Over de jaren zijn de standaard privacy instellingen van Facebook nogal veranderd.

Daarentegen zijn bepaalde Web 2.0 toepassing juist wel heel goed doorzoekbaar met behulp van de standaard zoekmachines, denk maar bijvoorbeeld aan de wikipedia. Die rankt meestal er hoog in de zoekresultaten van Google.

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een drietal methodes.

Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.
Speciale directories.
Databases zoeken op plaatsen waar ze te verwachten zijn
Speciale zoekmachines.

Zoek met de gangbare zoekmachines naar databases

Zoek op naar je onderwerp met als additionele termen woorden die naar databases verwijzen zoals: database, data, dataset, archive, bibliography, index, directory, register, zoek, search of statistics. Bijvoorbeeld ["plane crash" | "aviation accidents" database].

Wanneer je eenmaal deschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

Databases zoeken op plaatsen waar ze te verwachten zijn

Statistieken over Nederland worden bijgehouden door het CBS op de homepage vinden we de ingang naar de Statline databank en tegenwoordig ook in uw buurt
De weersgegevens worden dagelijks bijgehouden door het KNMI, en daar is een link naar klimatologie/verleden weer waar we de dagwaarden van de weerstations kunnen opzoeken.
Wetten worden opgesteld door de overheid, tegenwoordig zijn de wetten daar ook voor de burger vrij toegankelijk.
Wanneer je van iemand een telefoonnummer wilt hebben zocht je die vroeger op in de telefoongids. Op het web kun je ook andersom zoeken

Gespecialiseerde zoekmachines

Complete Planet http://www.completeplanet.com

Omvat circa 70,000 databases, en webdirectories. Helaas al sinds 2004 niet meer bijgewerkt

WorldWideScience http://worldwidescience.org/wws/

Zoekt in wetenschappelijke bronnen van 38 landen met technologie van DeepWeb

DeepDyve http://www.deepdyve.com/

Nieuwe zoekmachine. Dekt vooral de lifesciences en enkele wetenschappelijke tijdschriftpakketten van grote uitgevers, maar bijvoobeeld nog geen Elsevier.

Wolfram Alpha http://www.wolframalpha.com/

Door sommige omschreven als een feitenzoekmachine. Momenteel nog erg experimenteel, maar beter dan Google Squared. Het meest waaardevolle aan Wolfram Alpha vind ik echter de bronvermelding die ze geven bij iedere geslaagde "zoekactie". Kijk bijvoorbeeld eens naar de database die ze gebruiken om de hoogste gebouwen, je wordt dan gewezen op de Emporis database waar je nog meer feiten over gebouwen kan vinden.

opdracht diepe Web

Meer info

Anonymous (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html

Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.

Hagedorn, K. and J. Santelli (2008). Google still not indexing hidden web URLs. D-Lib Magazine 14(7/8). http://www.dlib.org/dlib/july08/hagedorn/07hagedorn.html

Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.

Zillman, M. (2009) Deep Web Research 2010. http://www.llrx.com/features/deepweb2010.htm

Hoe diep zoeken we

Wat is het diepe web?

Informatie zit in databases

Zoekmachine of Website limiteringen

Cognitieve factoren

Web 2.0

Oplossingen

Zoek met de gangbare zoekmachines naar databases

Databases zoeken op plaatsen waar ze te verwachten zijn

Gespecialiseerde zoekmachines

Meer info

Hoe diep zoeken we

Page Tools

Insert links

Comments (0)

Join this workspace

Navigator

SideBar

Recent Activity