|
Retour au sommaire du numéro 19 Retour à la page d'accueil de la LBQ
|
1. SCIES, LIMES ET MARTEAUX: CHRONIQUE DES OUTILS DE RECHERCHE PAR INTERNET
OURAGAN SUR LA TYPOLOGIE? par Jean-François Vincent [ jean-francois.vincent@bnf.fr ] Qu'est-ce qu'un moteur de recherche, selon vous ?
Si vous avez choisi la première réponse, vous ne devriez plus considérer comme " moteurs de recherche " ni AltaVista, ni HotBot, ni Lycos, ni Voilà (j'en passe), ce qui est embarrassant, au moins à l'égard de la tradition. Si vous avez choisi la seconde, vous m'accorderez qu'elle n'est pas extrêmement satisfaisante. Elle rend difficile, notamment, l'enseignement de la recherche d'information et sa maîtrise ; difficile aussi la constitution de répertoires d'outils de recherche ordonnés de façon pratique et intelligible. Elle a cependant l'avantage de la souplesse. Serait " moteur de recherche " tout ce qui permet de chercher par Internet. C'est bien ainsi d'ailleurs que l'entend le grand public, qui qualifie indifféremment Yahoo ! et AltaVista de moteurs de recherche, sans se soucier de savoir ce qu'il y a dedans. Naturellement, les professionnels se récrient en entendant des horreurs pareilles : tout de même, un moteur de recherche, ce n'est pas un répertoire ! Certes. Le problème, c'est que Yahoo! n'est pas (seulement) un répertoire, ni AltaVista (seulement) un moteur de recherche. Que le grand public, en utilisant un terme unique, a plutôt raison, et que les professionnels en question ont apparemment tort. L'évolution récente des grands outils de recherche semble avoir mis à mal les distinctions les mieux ancrées que nous avions établies. Je voudrais montrer sommairement comment cela s'est fait et où nous en sommes, puis proposer l'ébauche d'une nouvelle typologie, puisque je crois que la typologie actuelle n'est plus efficace sans quelques aménagements. Ceci dit, comme on le verra, ces aménagements ne sont pas si grands qu'on pourrait le craindre au premier abord. Des catégories malmenées Un coup d'oeil rétrospectif est indispensable. Au commencement était le couple mythique : Yahoo !, le répertoire, et Lycos, le moteur de recherche. Ces deux-là se partageaient le monde. Au premier, le catalogage de sites et leur classification méthodique, à la charge de studieux éditeurs. Au second, un puissant ordinateur rampant seul le long de la toile, et avalant le texte intégral (ou presque) de millions de sites. Voilà qui était clair. Mais les choses ne tardèrent pas à se compliquer, comme dans toute théogonie digne de ce nom. Les alliances entre les deux pôles se multiplièrent rapidement, produisant une hybridation généralisée visant à combiner les avantages des deux types fondamentaux. On vit des répertoires fournir les réponses de moteurs de recherche : ainsi, Yahoo !, lorsque sa base de données ne fournissait pas de réponse à une requête, a-t-il renvoyé les résultats d'AltaVista, puis d'Inktomi (situation qui dure toujours). On vit aussi des moteurs de recherche proposer des répertoires de sites sur leur page d'accueil: c'est par exemple le cas d'Infoseek France proposant Nomade, de Voilà avec le répertoire de Wanadoo, Qui Quoi Où - dont les réponses sont aussi intégrées lors des recherches par mots clés. A ce stade, le grand public était déjà bien perdu, mais les professionnels s'y retrouvaient encore sans trop de mal. Le pire est advenu dans le courant de cette année. Il est symboliquement représenté par la décision de Lycos, le grand ancêtre, de fournir presque en tête de ses résultats les réponses pertinentes de l'Open Public Directory. Reniement! Catastrophe! Un moteur, se faire répertoire? Des cheveux se dressèrent sur des têtes chercheuses. A y regarder d'un peu plus près, ce n'était cependant pas tout à fait cela. En revanche, le mélange des types est très profond. Deux exemples en donneront une idée: Lycos [ http://www-english.lycos.com
] AltaVista [ http://www.altavista.com
] Est-il légitime de dire que ces outils sont encore des "moteurs de recherche" ? Il me paraît clair que non. Ce serait prendre la partie pour le tout (à moins bien sûr d'adopter la définition n° 2 proposée au début de cet article). Il y a peut-être "pire" cependant, pour nos habitudes typologiques. Nous étions habitués à considérer que le classement thématique allait de pair avec le travail humain, tandis que la compilation du texte intégral était le fait des machines. Cela se combinait, grosso modo, avec la distinction entre les outils qui signalent des sites (les répertoires) et ceux qui signalent des pages individuelles (les moteurs). Or, ces partitions très importantes sont en train de céder. Avec NorthernLight, on a vu apparaître dès 1997 un système de classement par catégories, qui comme on le sait, améliore très sensiblement l'efficacité des recherches. Plus récemment, Voilà s'est doté d'un système qui lui permet aussi de catégoriser les pages de façon assez convaincante (voir les rubriques thématiques qui apparaissent en haut des pages de réponse, ainsi que l'onglet "Thématique"). Inktomi a annoncé pour sa part un outil du même genre, qui catégorisera automatiquement les pages Web. Il peut donc y avoir des répertoires automatisés de pages Web. Enfin, je ne m'attarderai pas sur l'innovation qu'apportent les moteurs de recherche qui utilisent comme critère de classement principal la popularité des ressources (Google, Direct Hit, mais aussi Excite, selon Danny Sullivan - Search Engine Report n° 34, 3 septembre 1999.) Je noterai seulement qu'il s'agit là, non seulement d'une procédure de classement, mais aussi d'un enrichissement des informations fournies sur chaque ressource, d'un enrichissement du contenu même de la base. Esquisse d'une typologie Je crois que pour s'y retrouver, il faut distinguer nettement deux choses : les bases de données individuelles, et les interfaces qui nous sont fournies, et qui peuvent interroger une ou plusieurs bases de données. Notons aussi qu'une base de données individuelle peut ne pas être accessible sous son propre nom. Le cas le plus typique serait constitué par les bases Inktomi, qui alimentent des outils bien connus (HotBot, "Web Pages" de Yahoo !, GoTo.com, etc.) sans être jamais accessibles sous le nom d'Inktomi. On ne les voit jamais qu'à la sauce Yahoo!, ou à la sauce HotBot. Cela ne les empêche pas d'exister par elles-mêmes, avec leurs caractéristiques propres. Il faut donc une typologie des bases individuelles (qui est assez longue et un peu compliquée), et une typologie des interfaces (qui est simple). Je précise que cette typologie reste assez théorique: elle serait peu commode pour arranger un répertoire d'outils de recherche, par exemple. Elle est surtout fournie comme un état de ma réflexion, pas plus, dont j'espère seulement qu'il pourra contribuer à alimenter la réflexion des autres. Je laisse de côté les outils de recherche qui ne sont pas accessibles en ligne sans logiciel supplémentaire ("agents" divers), même quand ils ont une base de données propre (Alexa notamment.) Je ne parle pas non plus des autres bases de données que sont les annuaires de personnes ou les bases de données factuelles les plus diverses, comme celles que signalent InvisibleWeb.com [ http://www.invisibleweb.com/ ] ou Les Bases de données gratuites sur Internet de Jean-Pierre Lardy. Allons-y. Je propose une typologie des bases fondée sur la nature des ressources signalées. Il existe de nombreuses spécialisations possibles, qui peuvent souvent se combiner entre elles. Assez arbitrairement, je considère qu'un outil qui ne signale pas des ressources du Web (forums de Usenet, fichiers FTP, listes de discussion) est ipso facto spécialisé. Ce n'est qu'une question de mots. Je distinguerai cinq grands types : Les guides Les répertoires thématiques -Spécialisés : Les recueils non thématiques de ressources Les bases de données de texte intégral ("moteurs
de recherche" proprement dits) Il faut ajouter deux catégories relativement nouvelles : -Bases de données offrant des informations sur la
popularité des ressources. Ex.: Google, Direct Hit. Les outils de recherche de types de fichiers particuliers Parmi ces outils, on doit distinguer ceux qui se fondent uniquement sur des index de mots (noms des fichiers, texte des liens qui y conduisent, texte des balises <ALT>...), comme Filez, et ceux qui traitent le contenu des fichiers lui-même (AltaVista Photo Finder par exemple). On peut sûrement critiquer des détails dans cette classification, mais grosso modo, elle doit recouvrir les principaux types de bases de données utilisées par les outils de recherche. Ce que je voulais montrer, c'est que si on prend les bases de données une par une, les différences avec ce que nous pouvions avoir en tête il y a un ou deux ans ne sont pas très grandes ; et aussi que, malgré la diversité des types, on arrive à s'y retrouver. Les interfaces Seulement, il n'y a pas que les bases de données qu'il faille prendre en compte. Les outils dont nous disposons se présentent à nous par des interfaces, ou ne sont parfois que des interfaces. C'est là que les choses ont le plus changé en apparence, comme on l'a vu dans la première partie de cet article. Mais au fond, que s'est-il passé ? Une catégorie que nous connaissons bien a vu ses rangs se renforcer, sans que cela soit claironné. Je veux parler de la catégorie des métachercheurs. Un métachercheur (ou métamoteur) est une interface qui permet d'interroger plusieurs bases de données en une seule opération. Cette idée simple et astucieuse a d'abord été utilisée par des malins qui tiraient profit des bases de données publiquement accessibles sur le Web, pour les valoriser de façon originale en en compilant les résultats: MetaCrawler, Inference Find nous ont par exemple fourni ce service. Les grands outils commerciaux (et bien d'autres) ont repris cette idée, et ont ipso facto changé de catégorie. AltaVista, Lycos, HotBot, sont à présent des métachercheurs, qui interrogent de multiples bases et fournissent en une fois des résultats organisés. La différence avec les outils précédemment cités n'est pas considérable. Cette différence existe pourtant, dans la mesure où les résultats provenant des différentes bases ne sont généralement pas compilés en une seule liste, mais plutôt fournis source par source, dans un ordre de provenance qui se veut significatif. Je ne peux que reprendre l'excellente formule de Greg Notess, dans l'article cité à la fin de ce papier: ces outils s'efforcent de donner les résultats les plus pertinents d'abord, en se fondant d'abord "non sur le classement par pertinence probable des pages, mais sur le classement par pertinence probable des bases de données". Si on considère les interfaces, il me semble qu'on peut donc distinguer sommairement deux grands types, qui ne sont nouveaux ni l'un ni l'autre : les métachercheurs, et les outils de recherche qui utilisent une base unique. Le bouleversement dont le début de cet article faisait état n'est pas une illusion: mais il ne s'agit pas, en réalité, d'un changement de la typologie. Il s'agit du passage d'un grand nombre d'outils importants d'un type (outils à base unique) à un autre type (métachercheurs).
Il faut bien garder en mémoire qu'à ce stade, il s'agit uniquement des interfaces, et non plus des bases de données. Si l'on veut essayer de savoir ce que l'on fait lorsque l'on cherche par Internet, il faut distinguer ces deux points de vue. D'un côté, il y a des bases de données individuelles, qu'il faut connaître et maîtriser pour elles-mêmes, et qu'il est parfois plus commode d'employer à l'état isolé, quand c'est possible. D'un autre côté, il y a des fournisseurs d'information, qui construisent les guichets par lesquels nous accédons au contenu des bases de données. Et il faut savoir comment ces fournisseurs manipulent ce contenu, l'ordonnent ou éventuellement le mutilent. Je noterai d'ailleurs pour finir qu'une conséquence notable de la multiplication des métachercheurs semble être une difficulté encore accrue à évaluer les outils de recherche sur des bases objectives. Référence: Greg R. Notess : EContent, octobre 1999. A Multiplicity
of Databases on Search Engines [ http://www.ecmag.net/EC1999/net10.html
]
|