La Lettre du bibliothécaire québécois
Numéro 17 - Avril-mai 1999


Retour au sommaire du numéro 17


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



1. ANNUAIRES ET MOTEURS DE RECHERCHE


LES MOTEURS DE RECHERCHE DEVIENNENT DES ANNUAIRES

par Géraldine Gourbin [ geraldine.gourbin@aupelf.refer.fr ]

 

Avec la généralisation du phénomène "portail" depuis un an, on assiste à l'émergence d'une catégorisation en masse sur les différents moteurs de recherche majeurs.

Jusqu'aujourd'hui, les outils de recherche pouvaient être classés selon deux grandes catégories:

- les annuaires, guides de recherche basés sur des techniques manuelles de repérage de l'information sur le Web,

- les moteurs de recherche basés sur des techniques automatisées.

 

Les annuaires généralistes n'ont plus le monopole en matière de recherche d'information qualitative. Pour un public non averti, il est de plus en plus difficile de faire la différence entre les deux approches, les deux outils de recherche se confondent et à juste titre, il n'y a plus de différence majeure entre annuaires et moteurs. Il s'agit maintenant et encore plus qu'avant de bien connaître leurs fonctionnalités propres. Un retour en arrière sur les techniques d'indexation et de recherche employées permet de mieux comprendre les véritables enjeux derrière l'émergence d'une catégorisation humaine dans les moteurs de recherche.

Les performances d'un outil de recherche sur Internet sont liées à la stratégie de repérage de l'information et d'indexation employée.

Les algorithmes de recherche propres à chaque moteur de recherche conditionnent les résultats de recherche. Le robot (agent logiciel) qui sillonne automatiquement le Web peut collecter de l'information selon deux approches:

- suivant une recherche en profondeur: le robot suit les liens d'un serveur à un autre (plus de réponses). Plus une recherche est faite en profondeur, plus le nombre de réponses semble élevé, mais elle comporte du bruit.

- Suivant une recherche en largeur: le robot suit alors tous les noeuds d'une page avant de descendre dans un des liens hypertextuels (moins de réponses). Plus une recherche est effectuée en largeur, plus les réponses semblent pertinentes, mais elle comporte du silence.

Selon le moteur de recherche, le contenu indexé varie:

- URL, titres HTML, premiers paragraphes (ex.: Lycos)

- l'intégralité des pages Web (ex.: Open Text)

- la prise en compte des meta-tags (ex.: Alta Vista)

Presque tous les moteurs de recherche généralistes ont (ou avaient?) un objectif commun: devenir le moteur de recherche le plus puissant et indexer la totalité du contenu de toutes les pages du Web. Autrement dit, indexer plus de 320 millions de pages Web.

L'étude NEC Research Institute (janvier 1998) est formelle: les 6 principaux moteurs de recherche (Alta Vista, Excite, Hot Bot, Infoseek, Lycos, Northern) n'indexent qu'entre 3% (Lycos) et 34% (Hot Bot) du Web.

Les moteurs ont misé sur la toute-puissance technologique des outils informatiques aux dépens d'une quelconque intelligence, cette réponse technologique n'a pas pu compenser l'augmentation du nombre de pages accessibles sur le Web. Plus la taille de leur base de données augmente, plus le bruit augmente, la qualité des moteurs de recherche ne cesse de se dégrader. La taille des bases de données des moteurs n'est pas seule en cause.

Vu l'expansion du spamdexing (techniques frauduleuses pour gagner une bonne place dans les classements), les moteurs de recherche ont mis en place des procédés anti-spam pour contrôler les pages aspirées et pénaliser ces pratiques. (Excite est un des seuls à ne pas prendre en compte les méta-tags). Les moteurs de recherche sont de plus en plus confrontés à un problème de taille qui resurgit: obtenir les réponses pertinentes à une recherche.

Pour maîtriser l'accès à l'information et offrir un service plus performant, les moteurs ont misé sur différentes technologies de recherche, parmi lesquelles:

- certaines fonctionnalités, options de recherche ont été ajoutées (opérateurs booléens, recherche sur certains champs: URL, titre...), ou types de fichiers, contenus (images/vidéos/sons/JavaScript). Bien utilisée, la recherche avancée accroît la pertinence de réponse (la pertinence des réponses constitue le critère le plus important pour un outil de recherche).

Selon Internet professionnel [ http://www.internet-professionnel.net/ ], AltaVista s'est enrichi d'un grand nombre de fonctions à valeur ajoutée. Mais son taux de réponses pertinentes reste faible, résultat de la stratégie d'indexation massive du service.

- certains moteurs ont cru que la technique pouvait tout résoudre: en effectuant une recherche mots clés sur leur serveur et en proposant avec les pages réponses une liste de termes associés, les requêtes sont affinées. Alta Vista a utilisé ce procédé à l'automne 1998, et a intégré AskJeeves
[ http://www.aj.com/ ] en le renommant Ask Alta Vista pour affiner les requêtes en posant de nouvelles questions. La recherche d'information sur le moteur de recherche Excite s'appuie sur une technologie appelée ICE (Intelligent Concept Extraction). Cet algorithme permet, selon Excite, de proposer des pages sur des sujets connexes aux thèmes recherchés par l'utilisateur, même si ces documents ne contiennent pas exactement les mots saisis. Excite étant très peu disert sur son système ICE, on ne peut savoir comment fonctionne réellement cette recherche par approche de sens.

Ces techniques d'affichage de termes associés sont en réalité peu efficaces, les termes associés n'ont rien à voir avec la requête initiale.

 

- depuis quelques mois, les moteurs focalisent leur attention sur les algorithmes d'évaluation de pertinence. Les algorithmes de recherche traditionnels ne sont plus performants face à l'utilisation abusive des meta-tags, la répétition de mots clés, l'utilisation de texte caché (mots clés invisibles) dans la page, la répétition de titres, les soumissions multiples, la duplication de documents (sites-mirroir), etc. Or ces algorithmes s'appuient sur le nombre d'occurrences des termes recherchés et leur position dans les pages. L'idée nouvelle est la suivante: utiliser l'information contenue dans les liens hypertextes, c'est-à-dire les pages de liens et les documents de référence (authorities). Le moteur de recherche Google [ http://www.google.com ] est un prototype en la matière. Il est un des premiers à utiliser cette technologie. Clever d'IBM utilise également le savoir contenu dans les liens hypertextes.

- autre technologie utilisée: la cartographie des données qui permet d'avoir une vision globale d'un ensemble de documents. François Bourdoncle, ingénieur à l'Ecole Nationale Supérieure des Mines à Paris a mis au point une nouvelle technologie "permettant à des non spécialistes d'utiliser une interface visuelle très simple pour retrouver des informations pertinentes dans de très grandes bases de données en texte intégral ". Cette technologie a été acheté par Alta Vista qui l'a intégré à son moteur de recherche sous le nom de LiveTopics.

Ces dernières technologies semblent très prometteuses pour l'avenir de la recherche d'information sur Internet. Aussi, peut-on se demander pourquoi prendre le parti (pari) de proposer également des annuaires.

Les moteurs de recherche tels Alta Vista, Hot Bot ou Infoseek proposent une classification par thèmes de sites Web. Alta Vista donne ainsi accès aux sites par rubriques et sous-rubriques via l'annuaire LookSmart. L'habillage n'est plus celui d'un moteur de recherche classique, mais celui d'un portail donnant accès à une classification sommaire, voire même à un mini-guide rédactionnel. Lycos propose des guides rédactionnels dans le domaine de l'informatique, le voyage, etc. Pour ces moteurs, l'enjeu majeur est de proposer un service complémentaire de qualité et de combiner les atouts des deux approches.

Dans un premier temps, ce sont les annuaires qui ont perçu l'intérêt d'étendre la recherche à un moteur s'il n'y avait pas de réponses sur la partie annuaire: d'où des partenariats entre annuaires et moteurs de recherche tels Nomade/Alta Vista et Yahoo/Inktomi. Le moteur de recherche francophone Voilà
[ http://www.voila.com ] va plus loin et combine directement dans les réponses sites et pages Web. Le seul reproche qu'on peut lui faire, c'est la difficulté à différencier dans les réponses la partie annuaire de QuiQuoiOù de la partie moteur de Voilà; il faut être attentif aux symboles employés qui se trouvent à côté des réponses (boussole ou loupe). Certains moteurs de recherche achètent aussi les catégories d'un annuaire. C'est ainsi que Nomade depuis 1998 vend ces catégories à Excite et Infoseek, entre autres.

Netscape est allé plus loin en acquérant le répertoire collaboratif NewHoo en novembre 1998 en le rebaptisant Open Directory [ http://dmoz.org/ ]. À l'image des logiciels libres comme Linux, ce répertoire est alimenté selon une méthode participative par des rédacteurs volontaires du monde entier. Ces personnes ne sont pas rétribuées, par contre leur nom est indiqué sur le moteur, avec la possibilité de leur envoyer un message. Ce sont ainsi plus de 400 000 sites relevant de plus de 65 000 catégories qui ont été sélectionnés par près de 10 000 collaborateurs. L'objectif de ce répertoire est devenir le plus grand répertoire du monde.

Les moteurs de recherche abandonnent leurs propres tentatives d'annuaires et adoptent Open Directory: Lycos, HotBot, Mozilla... La majorité des moteurs propose aujourd'hui l'accès à ce répertoire.

Lycos va même plus loin, marquant une transformation dans sa stratégie initiale en terme de recherche d'information en se concentrant dorénavant sur la partie annuaire. Par défaut la recherche avec mots clés s'effectue sur les catégories, les sites Web et non plus sur les pages Web. S'il n'y a pas de réponse, le moteur renvoit aux pages Web directement, mettant à l'arrière plan la recherche sur la partie robot.

Open Directory n'est pas le premier projet d'annuaire collaboratif, songeons notamment à Argus Clearinghouse [ http://www.clearinghouse.net ]. L'idée d'un annuaire universel fait donc son chemin, reste à savoir s'il ne va pas être rattrapé par les lois du marché A suivre.

___

1. François Bourdoncle, (page consultée le 15 mai 1999). Live Topics : recherche visuelle d'information sur l'internet, [en ligne], http://www.cma.ensmp.fr/Francois.Bourdoncle/ina.html

Pour revenir au sommaire du numéro dix-sept...