Indexeringen

Van VBI8 Wiki Over Search

Ga naar: navigatie, zoek

[bewerk] Globale (technische) database structuur

Hoewel de meeste leveranciers van zoekmachinesoftware niet graag hun interne database structuur prijsgeven, kan men wel een aantal generieke aspecten onderkennen. De (technische) database structuur van een zoekmachine is vrij eenvoudig. Deze bestaat uit een lijst met bronnen (boeken, sites, multimedia etc.) en minimaal één lijst met termen.

De lijst met termen noemen we ook wel een index. Zo'n index kan bijvoorbeeld een lijst met auteurs zijn, een lijst met titels van documenten of een lijst met publicatiedata. In feite worden deze termen gekoppeld aan de juiste documenten. Dus als een bepaalde auteur twee boeken heeft geschreven (één in 2007 en één in 2008), zal er in de database de volgende informatie worden opgeslagen:

INDEX:AUTEUR          BRON          INDEX:PUBLICATIEJAAR
Jansen         ->     Boek 1    <-  2007
               ->     Boek 2    <-  2008
Pietersen                           2009
Klaassen                            2010
.....

Op het moment dat een gebruiker dus een term invoert in de zoekmachine, zal de zoekmachine deze term vergelijken met de termen die in de indexen opgeslagen zijn en de bijbehorende bronnen weergeven aan de gebruiker.

[bewerk] Fulltext Indexen

Een index opbouwen op auteur of op jaartal betekent dat een gebruiker aan de achterzijde (backend) van de zoekmachine zelf bronnen zal moeten invoeren. Uiteraard is dit voor het Internet een onhaalbare zaak. Zoekmachines zoals Google gebruiken daarom maar beperkt indexen op auteur op publicatiedatum. Deze zoekmachines maken doorgaans vooral gebruik van een "Fulltext index".

Dit betekent in feite dat elk woord (met uitzondering van bijvoorbeeld stopwoorden) op een Internet pagina automatisch door Spiders of Crawlers verzameld wordt en dat de woorden in één grote index worden opgeslagen. Vervolgens kan de gebruiker dus zoeken in deze index naar Internet pagina's.


SebastiaanMooij 3 okt 2008 15:26 (CEST)

Aspecten/acties
Persoonlijke instellingen
content beleid
About us