Het diepe web
Van VBI8 Wiki Over Search
Inhoud |
[bewerk] Inleiding
Het diepe web, ofwel onzichtbare web, is het gedeelte met informatie van het wereld wijde web wat onzichtbaar is voor zoekmachines. Voornamelijk gaat het hierbij om onderwerpspecifieke databases, feitelijke bibliotheken en ander hieronder vallende termen waarin informatie is opgenomen. De informatie staat in de database achter de website en kan dus alleen gevonden worden als er specifiek naar gevraagd wordt. Zoekmachines kunnen deze pagina’s niet indexeren. De term diepe web is bekend bij zoekmachines sinds 1996. In de loop van de tijd zijn er verschillende manieren gezocht door zoekmachines om het diepe web op te nemen, maar deze pogingen zijn mislukt.
Uit onderzoek van Brightplanet is gebleken dat het diepe web 550 miljard documenten biedt tegenover 8 miljard documenten op het oppervlakte web. De 60 grootste databases bevatten samen al 84 miljard pagina’s. Het diepe web is 400 tot 500 keer groter dan het zichtbare web. Uit het onderzoek is tevens gebleken dat de kwaliteit van informatie op het diepe web van grotere kwaliteit is dan die van het zichtbare web, waarbij dus kan worden gezegd dat de inhoud van zeer groot belang is voor mensen in informatienood. 95% van het diepe web is openbaar toegankelijke informatie, 5% is beschermd door bijvoorbeeld abonnementsprijzen of wachtwoord.
Het diepe web wordt ook het onzichtbare web genoemd. Enkele redenen, waarom deze term niet goed is gekozen: Het zou impliceren, dat informatie enkel via zoekmachines gevonden kan worden, wat niet het geval is. Er is geen geregistreerde informatie die niet zichtbaar is, de informatie is moeilijker te vinden, maar daarmee niet onzichtbaar.
[bewerk] Problemen met zoekmachines
Spiders van zoekmachine’s doorzoeken het web en indexeren pagina’s die zij tegenkomen. Bij het onzichtbare web weten de spiders niet hoe ze ermee om moeten gaan, omdat ze niet kunnen lezen wat voor informatie de pagina bevat.
Naast statische pagina’s wordt steeds meer informatie opgeslagen in databases. De database informatie wordt pas gegeneerd als de gebruiker er om vraagt. De spider kan deze pagina’s niet bereiken. Het gaat hierbij bijvoorbeeld om pagina’s uit een archief, catalogi, overheidsinformatie en het online telefoonboek.
Er zijn een aantal categorieën van content die niet door zoekmachines gevonden of gebruikt kunnen worden. Deze categorieën zijn hieronder weergegeven:
- Dynamische content
- Niet gelinkte content
- Content met gelimiteerde toegang
- Gescripte content
- Non-textuele content
Onder dynamische content worden bijvoorbeeld pagina's verstaan die tevoorschijn komen na het invullen van een formulier. Pagina's die niet zijn gelinkt naar andere pagina's, worden mogelijk overgeslagen door de zoekmachine. Deze pagina's worden niet gelinkte content genoemd. Websites die alleen beschikbaar zijn na registratie of op een andere manier gelimiteerde toegang hebben, vallen onder de noemer content met gelimiteerde toegang. De zoekmachines hebben geen toegang tot deze informatie. Gescripte content is alleen toegankelijk met speciale handelingen of programma's. Onder non-textuele content vallen multimedia, (Flash) animaties, Usenet archieven en bijvoorbeeld Word-documenten of documenten in het PDF formaat.
Los van de bovenstaande redenen is er nog een andere reden waarom pagina’s tot het diepe web behoren. Er zijn pagina’s die zonder bijzondere reden door de zoekmachine worden uitgesloten. De zoekmachines selecteren welke pagina’s zij opnemen.
[bewerk] Informatie op het diepe web
Het internet bevat dus een groot aantal informatiebronnen die niet via zoekmachines te vinden is. Er zijn echter verschillende manieren om deze informatie op te sporten. Zo is er bijvoorbeeld de drietrapsstrategie van Dhr. Dasselaar. Deze strategie bestaat uit drie stappen. De eerste stap is het specifiek zoeken. De tweede stap is breed zoeken. Het is hierbij belangrijk een diepe website te vinden, die de voordeur is naar de informatie, die een gewone zoekmachine niet kan vinden. Vaak zijn deze voordeuren wel te vinden via de gewone zoekmachines. De laatste stap is weer specifiek zoeken. In de gevonden diepe zoekmachine moet de vraag opnieuw geformuleerd worden. Mocht dit niets opleveren is het het gemakkelijkst om terug te gaan naar stap twee en op zoek te gaan naar andere diepe websites over het onderwerp.
Een andere manier om informatie te zoeken op het diepe web is redelijk simpel. Het is mogelijk om via een gewone zoekmachine, zoals Google, verschillende databases te vinden met daarin diepe webpagina's verstopt. Binnen de gewone zoekmachine moet je zoeken naar het onderwerp en het woord database. Deze manier is voornamelijk erg handig bij het zoeken in bijvoorbeeld de Google directory of de Yahoo! Directory. Deze bevatten namelijk veel informatie, die niet via een zoekmachine te vinden is. Op het eerste niveau worden de onderwerpen verticaal gecategoriseerd, zoals reis, auto, gezondheid. Hieronder komt op sub-niveau de informatie uit de databanken. Er kan dan via de database specifiek benodigde informatie worden gevonden.
[bewerk] Externe informatie
| The ‘Deep’ Web: Surfacing Hidden Value | |||||||
|---|---|---|---|---|---|---|---|
| Auteur: | Michael K. Bergman | ||||||
| URL: | http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf | ||||||
| Formaat: | WWW | Taal: | Nederlands | Datum aanmaak: | 24-09-2001 | Datum wijziging: | Onbekend |
| Trefwoorden: | Deep Web; study; searchable database; hidden value; site qualification | ||||||
| Motivatie: | Dit uitgebreide artikel bevat duidelijke afbeeldingen, die overzichtelijk uitleg geven. Het is een onderzoek van Brightplanet naar de hoeveelheid webpagina’s, die op het diepe web staan. | ||||||
| Google graaft het onzichtbare web op | |||||||
|---|---|---|---|---|---|---|---|
| Auteur | Rowald Pruyn | ||||||
| URL | http://www.zdnet.nl/techzone.cfm?id=83615 | ||||||
| Formaat | HTML | Taal | Nederlands | Datum aanmaak | 16 april 2008 | Datum wijziging | - |
| Trefwoorden | Onzichtbare web, Google, zoekrobots | ||||||
| Motivatie | Dit artikel gaat over de zoekrobots van Google, die moeten proberen het onzichtbare web zichtbaar te maken. | ||||||
