Zoekhulpmiddelen op Internet nemen het op tegen referentie-databases.


HTML versie van een artikel verschenen in EMNET / Nieuwsbrief Elektronische Media, 25 mei 1996.


Inleiding

World Wide Web search tools zoals Alta Vista, Lycos, Inktomi en Open Text Web Index trekken veel aandacht de laatste tijd. Met name verschijnt veel informatie over de relatieve performance van deze engines. Minder aandacht is er voor een vergelijking van de resultaten van deze engines met de opbrengsten van meer traditionele instrumenten voor literatuuronderzoek, de zogenaamde referentie-databases. Dit artikel probeert een indruk te geven van deze relatieve performance aan de hand van een literatuuronderzoek naar het onderwerp Intranet.

Intranet

Intranet heeft betrekking op het gebruik van Internet-technologie, vooral WWW tools, voor het verspreiden van informatie binnen een organisatie. WWW software heeft een aantal voordelen boven meer gespecialiseerde document management of groupware technologie zoals Lotus Notes. Een belangrijk voordeel betreft de kosten, veel Internet-software is immers gratis van het Net af te halen. Een ander voordeel is het relatieve gemak waarmee deze technologie kan worden ingezet. Zonder al teveel training kunnen werknemers snel aan de slag om documenten company-wide op het Intranet te publiceren, waarmee belangrijke besparingen op het verspreiden van informatie binnen een bedrijf kunnen worden gerealiseerd. Nadelen zijn er ook: WWW-technologie is geen echte groupware en voorziet niet in functies als gezamenlijk auteurschap, gedifferentieerde autorisatie (lezen, schrijven, wijzigen op verschillende onderdelen van een document) en kent in het algemeen nauwelijks beveiliging. Niettemin is er de laatste maanden veel aandacht voor dit onderwerp, waarmee het geschikt is om de relatieve performance van Web search engines versus referentie-databases te illustreren.

Referentie-databases

Traditioneel wordt literatuuronderzoek uitgevoerd in zogenaamde referentie-databases. Deze bevatten meer of minder uitgebreide beschrijvingen van artikelen en boeken welke in gedrukte vorm zijn verschenen. Grote host organisaties als Dialog en ESA kennen honderden gespecialiseerde databases op diverse onderwerpsgebieden. Aangezien Web search engines veel algemener van karakter zijn zou een keuze voor een gespecialiseerde database een wat manke vergelijking opleveren, vandaar dat voor dit onderzoek is gekozen voor twee algemene referentie-databases: CARL's UnCover en de landelijke Online Contents database van PICA. De eerste heeft overigens het voordeel dat hij vrij toegankelijk is. UnCover is een table of contents service die momenteel artikelen uit 17.000 tijdschriften op vrijwel alle wetenschapsgebieden summier bibliografisch beschrijft. De database groeit met circa 5000 records per dag. CARL haalt zijn opbrengsten uit document delivery, waarvan de kosten momenteel op $ 8.50 per artikel liggen, exclusief de copyright fee die doorgaans op $ 6.00 per artikel ligt. Wat kleiner dan CARL's UnCover maar toch ook zeer omvangrijk is de landelijke Online Contents database van PICA welke momenteel in nagenoeg alle grotere bibliotheken te raadplegen is, en nu zo'n 12.000 tijdschriften dekt.

Search engines

Zoals in de inleiding werd opgemerkt bestaan er tal van search engines voor het World Wide Web. Voor de vergelijking hier worden twee van de grotere gekozen, Alta Vista en Open Text Web Index. Beide indexeren meer dan 15 miljoen documenten op het Web (Alta Vista indexeert daarnaast ook de Usenet newsgroups). Beide engines updaten hun informatie constant met behulp van robots, bieden de mogelijkheid te kiezen tussen eenvoudige en geavanceerde searches en genereren lijsten met resultaten van waaruit direct kan worden doorgeklikt naar de webdocumenten zelf. In dit onderzoek wordt slechts gebruik gemaakt van de zoekterm intranet met expansies, waardoor een zeer eendimensionale vergelijking mogelijk wordt.

Verwachtingen

Web engines hebben een voordeel boven meer traditionele services, ze zullen meer up to date zijn. Zeker bij een actueel onderwerp als Intranet mag verwacht worden dat er nog maar weinig gedrukte literatuur over bestaat. In die zin wordt van de search engines een grotere opbrengst verwacht. Een ander voordeel van search engines is dat ze full text indexeren, ook documenten waarin het woord Intranet niet in de titel voorkomt worden gevonden. UnCover en de Online Contents database van PICA bieden slechts de meest summiere bibliografische gegevens: titel, auteur en bron (tijdschrift). Wanneer een artikel wel over Intranet gaat, maar dit woord niet in de titel voorkomt wordt het in deze vergelijking gemist. Door meer (combinaties van) zoektermen te introduceren zou de opbrengst vergroot kunnen worden, maar de kans op ruis neemt dan ook toe.

Web search engines hebben ook een nadeel. Ze indexeren zonder pardon alles wat hun robots tegen komen op het Web, althans voorzover de Websites die ze tegenkomen geen robots weren. Veel informatie op het Web is van een lage kwaliteit omdat er nauwelijks sprake is van een redactioneel proces. Artikelen in tijdschriften hebben wel een dergelijk proces doorgemaakt, al zegt dat niet altijd alles. Echter, aan de hand van het tijdschrift waarin een bijdrage is verschenen, danwel de uitgever waarbij een boek is verschenen, is doorgaans een redelijke indruk van de te verwachten kwaliteit te krijgen. Tegenover dit nadeel van Web documenten staat echter een doorslaggevend voordeel: vanuit een gevonden referentie kan direct worden doorgeklikt naar de informatie zelf. Wie in een referentie-database verwijzingen vindt dient vervolgens het document nog te bestellen, in de hoop dat de vlag de lading dekt - slechts een titel is immers uiterst mager. Overigens is deze functie in zowel UnCover als PICA's Online Contents database geïntegreerd en beide leveren snel, binnen 48 uur, soms zelfs binnen 12 uur. Voorts dient bedacht te worden dat document delivery geld kost.

Resultaten

UnCover meldt na het intikken van de zoekterm intranet dat in de database vijf varianten voorkomen: intranet, intranets, intranettings, intranetwoek - kennelijk een fout - en intranetwork. De laatste term blijkt thuis te horen in het astrofysisch jargon. Indien gecorrigeerd wordt voor de laatste term, dan blijven er, na combinatie van de overgebleven termen, 40 hits over. Binnen die set domineren artikelen uit Information Week, maar ook bladen als Byte, Datamation, PC Magazine en Business Week zijn in de set vertegenwoordigd. Over het onderwerp Intranet wordt vooral in de magazines geschreven. Overigens is UnCover zeer up to date, de meest recente titel is van 1 mei 1996, terwijl de search op de vooravond van Koninginnedag werd uitgevoerd.

Ondanks het gegeven dat PICA's Online Contents minder tijdschriften dekt dan UnCover, is het resultaat van een combinatie van de termen intranet en intranets 76 hits. De set vertoont een grote overeenkomst met die van UnCover, maar onderscheidt zich door een betere dekking van de Europese literatuur, tot uitdrukking komend in Duitse, Franse en Nederlandse titels. Het resultaat is slechts fractioneel minder up to date dan bij CARL. Ook hier overwegen de magazines in de set.

Ronduit overdonderend zijn de resultaten bij Alta Vista. Intikken van de term intranet*, waardoor automatisch geëxpandeerd wordt, levert 10.000 hits op. Zonder expansie van de term blijft er nog steeds een ontmoedigend aantal van 9.000 hits over. Binnen de "simple query" is er echter een methode om de resultaten enigszins te beperken. Door middel van de query title:intranet* wordt gezocht naar pagina's die in de windowtitel het woord intranet en zijn expansies bevatten. Resultaat: 500 hits. Aangezien Alta Vista rankt op basis van de eerste woorden van een document, de nabijheid van zoektermen (niet relevant hier, er is immers slechts een zoekterm) en de relatieve woordfrequentie, staan relevante documenten toch snel bovenaan de lijst. Wie slechts geïnteresseerd is in een snelle oriëntatie is hiermee goed geholpen. Meer mogelijkheden biedt de "advanced query" aangezien deze ook boolean searches toelaat. Wie bijvoorbeeld op zoek is naar informatie over Intranet-producten van Netscape, Microsoft of Lotus kan met de query intranet and host:netscape op zoek naar documenten die de term intranet bevatten, maar afkomstig zijn van een hostmachine van Netscape. De drie queries leveren respectievelijk 92 (Netscape), 61 (Microsoft) en 17 (Lotus) hits op. Bij Lotus, dat zijn product Notes bedreigd ziet door Intranet toepassingen, wordt onder andere een uitgebreid en zeer informatief White Paper gevonden.

De resultaten bij Open Text Web Index vallen, na het resultaat bij Alta Vista, tegen, `slechts' 668 hits. Het doet de vraag rijzen of het aantal geïndexeerde documenten wel zo groot is als beweerd wordt. Zonder nader onderzoek kan daarover echter geen uitsluitsel gegeven worden. Niettemin is het resultaat ook hier te groot en is nadere inperking van de zoekvraag aangewezen.

Conclusie

Wellicht dat het onderwerp Intranet geen eerlijke kandidaat was voor de uitgevoerde vergelijking, het betreft immers de toepassing van Internet technologie voor document management, en het is niet verwonderlijk dat daarover veel informatie op WWW kan worden gevonden. Gegeven de kwaliteit van de informatie die in gedrukte media wordt gevonden - vooral magazine-achtige informatie - ligt echter de conclusie voor de hand dat een vergelijkbare zoektocht op het Web, sneller en meer resultaat geeft dan een traditioneel literatuuronderzoek, althans voor dit onderwerp. Bovendien is de gevonden informatie gratis. Het problematische aspect is echter de overvloed aan informatie die gevonden wordt. Dit vereist nadere bezinning op de specificatie van de zoekvraag - is men op zoek naar algemene informatie, naar specifieke toepassingen, case histories ? - gecombineerd met kennis van de WWW search engines. Ook vereist het een snelle beoordeling van de informatie die direct kan worden opgevraagd op relevantie voor de gestelde vraag. Misschien is er toch nog toekomst voor literatuuronderzoekers.

Hans Roes
Bibliotheek Katholieke Universiteit Brabant