La Lettre du bibliothécaire québécois
Numéro 10 - Mars 1998


Retour au sommaire du numéro 10


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



1. MOTEURS ET RÉPERTOIRES DE RECHERCHE


METHODES ET OUTILS DE RECHERCHE SUR INTERNET

par Géraldine Gourbin


Les outils de recherche sur le Web sont regroupés en deux grandes catégories selon leurs caractéristiques en terme d'indexation et de recherche :

- les moteurs de recherche
- les annuaires, répertoires

Les annuaires organisent les sites selon une classification humaine (Toile du Québec, Nomade, Yahoo...). Les listes classées fonctionnent par soumission des sites à répertorier. Les éditeurs/Webmasters des sites remplissent un formulaire et fournissent une description de leur site. Le contenu même des sites, c'est-à-dire le contenu des pages HTML (code source HTML et/ou les meta name*) n'est pas pris en compte.

La recherche d'information porte sur les champs suivants (mots clés présents dans):

- titre du site
- éditeur du site
- résumé
- liste de mots clés supplémentaire

La recherche peut également s'effectuer dans l'arborescence thématique.

Ces répertoires demandent une intervention humaine en terme de collecte, traitement documentaire (analyse des sites) et mise en ligne. L'information est fournie par les éditeurs dans les annuaires.

Les moteurs de recherche appelés aussi robots, "crawler", "spider" effectuent une collecte automatique suivie d'une indexation également automatique des pages Web (Francité, Alta Vista, Ecila, Eurêka...).

Les moteurs de recherche se composent de deux parties distinctes :

- un logiciel d'exploration (robot)
- une base de données constituée automatiquement grâce aux logiciels robots qui scrutent à intervalles réguliers les serveurs déclarés sur l'Internet.

Le robot visite et indexe les documents trouvés. Il utilise les liens pour indexer les pages Web. L'indexation étant automatique, la description des pages (et non plus de sites comme dans les annuaires) se limite le plus souvent à son titre et aux premières lignes de la page. Le contenu indexé est très variable d'un moteur de recherche à un autre : URL, titres HTML, premiers paragraphes, intégralité des pages Web, prise en compte des méta-données* (mots clés) fournis par l'auteur des pages pour décrire le contenu de sa page.

L'information est recherchée par les robots dans es moteurs de recherche.


Exemple de META-Tag (code HTML contenu dans le corps de la page source pris en compte par certains moteurs de recherche):

<HEAD>

<TITLE> Annuaires et moteurs de recherche</TITLE>

<META Name= " description " Content= "Différences entres les annuaires et moteurs de recherche en terme d'indexation et de recherche d'information " >

<META Name= " keywords " Content= " robot, répertoire, automatique, humaine ">

</HEAD>

Les méthodes d'indexation influent sur les descriptions proposés mais également sur les (présentation des) résultats. Nous aborderons plus en détail dans le prochain numéro le choix des outils de recherche en fonction de la problématique de recherche posée.

Pour revenir au sommaire du numéro dix...