|
Retour au sommaire du numéro 21 Retour à la page d'accueil de la LBQ
|
1. SCIES, LIMES ET MARTEAUX: CHRONIQUE DES OUTILS DE RECHERCHE PAR INTERNET
ALTAVISTA FRANCE ET QUELQUES AUTRES: QUELQUES ÉLÉMENTS D'ANALYSE QUANTITATIVE DE MOTEURS FRANCOPHONES par Jean-François Vincent [ jean-francois.vincent@bnf.fr ] Le mois de février a vu le lancement de la filiale française d'AltaVista, nommée AltaVista France. Comme d'habitude, ce lancement n'a pas été accompagné d'une information fiable sur le contenu et les capacités réelles de l'outil. L'occasion m'a paru bonne pour faire un test quantitatif, qui permet d'en savoir un peu plus, aussi objectivement que possible, sur le paysage des moteurs francophones, et sur AltaVista France en particulier. Cet article présente le résultat fastidieux, incomplet, mais instructif je crois, de cette tentative. AltaVista France n'est pas seulement un moteur de recherche; c'est un portail, qui fournit aussi un répertoire (fabriqué par Lokace), un module de recherche d'images et de documents multimédia, des dépêches de presse, des services divers. Je ne me suis penché que sur le seul moteur de recherche, ce qui ne veut nullement dire que le reste n'est pas intéressant. Il en va de même pour les autres outils pris en considération. Quelle est la couverture d'AltaVista France? 1-Quels domaines du Web?
On trouve aussi des pages ayant des noms de domaine .pf (Polynésie française), .mq (Martinique), .mc (Monaco).
2- Quelles langues? La requête [ domain:*] avec " Langage =
français " renvoie 6 587 971 pages. Cela n'est pas incohérent: le Web français, ce n'est pas forcément le Web " en français ". Le domaine prime sur la langue.
AltaVista France est un nom à prendre au sens strict. Ce n'est pas un moteur francophone, mais un moteur français, qui exclut les domaines de la plupart des autres pays francophones (Belgique, Canada, Suisse...) et n'exclut pas les pages non francophones des domaines qu'il traite. Il serait intéressant de connaître les règles d'inclusion de pages en .com, .net, .org, .edu . Ces pages peuvent fort bien être " françaises ", en effet : le principe de leur inclusion est légitime. Mais quel est le mécanisme de traitement? Remarques: - Les chiffres ci-dessus sont à prendre comme des indications,
et non comme des valeurs exactes. AltaVista.com a depuis toujours
la réputation de donner des chiffres très approximatifs
(en tout cas pour les grands nombres), et je n'ai pas trouvé
de moyen pour vérifier si sa filiale française
vaut mieux sur ce point. AltaVista comparé à d'autres moteurs Comment AltaVista France se situe-t-il, du point de vue de la taille de son index, par rapport à d'autres moteurs concurrents? Cette partie du test complète et essaie de vérifier, d'amplifier et sur certains points de corriger une étude sommaire réalisée début mars, et qu'on trouvera annexée aux Signets de la BnF . L'objectif est de comparer l'importance des index francophones de divers moteurs, sans souci d'exhaustivité . Méthode: Ces mots sont des noms communs, ou des verbes, généralement accordés ou conjugués. Ils sont choisis pour avoir peu de chances de figurer dans des documents non francophones, ce qui pourrait créer des biais et une incertitude dans les résultats . J'ai essayé aussi de ne pas surreprésenter un domaine thématique par rapport à d'autres, pour éviter des biais imprévus. Lors des tests, j'ai été amené à éliminer quelques mots, qui pour des raisons accidentelles perturbaient les résultats . Dans tous les cas où c'est possible, j'ai pris en compte le nombre de pages trouvées, et non pas le nombre de mots. Il est important de noter que Voila ne permet pas cette distinction . Les nombres indiqués dans le tableau ci-dessous dans la colonne de Voila sont les nombres de mots trouvés, ce qui interdit une comparaison tout à fait équitable avec les autres moteurs (un mot peut être présent plusieurs fois dans une page), et limite la portée de ces résultats à une indication, cependant assez claire, sur l'ordre de grandeur de son index. Je souligne qu'un test quantitatif ne doit pas être surinterprété: rien ne dit que le plus gros est le meilleur pour tous les usages. Il est cependant clair qu'un index trop petit met hors course un outil qui se veut généraliste, dans une situation où le milliard de pages est devenu l'unité de mesure du Web. Je souligne aussi que les différents moteurs testés n'ont pas tous la même cible : Voila tente de couvrir tout le Web francophone, tout comme Fast Search (option Language = french) et AltaVista.com (option Language = french). AltaVista France, comme on l'a vu, se spécialise dans le Web français.
Conclusions - Le tableau est assez parlant pour les ordres de grandeur.
Il permet de distinguer grosso modo quatre groupes : un très
grand, Fast Search . Trois grands, AltaVista.com, AltaVista France,
Voila. Deux moyens, Spray et Lycos France. Et trois tout petits,
Lokace, Ecila, et Francité (ce dernier se perdant dans
l'infiniment petit). Comparaison d'AltaVista.com et d'AltaVista France L'une des questions auxquelles je voulais répondre par ces tests était celle de la relation entre l'index d'AltaVista France et celui d'AltaVista.com. Pour confirmer l'impression obtenue par le tableau ci-dessus, j'ai comparé les résultats des deux moteurs pour deux mots (et cela m'a paru suffisamment concluant pour que je me dispense de continuer.) - Pour le mot " obnubilait ", présent 10
fois dans AltaVista France (Web français + langage = français)
et 7 fois dans AltaVista.com (+ language = french), il n'y a
que trois pages communes aux deux index, dont une dans des versions
de dates différentes. Il s'agit donc bien d'index complètement distincts, ce qui est une bonne nouvelle. Ce faible chevauchement ne surprendra pas les lecteurs de Search Engine Showdown (voir la section Overlap, [www.searchengineshowdown.com/stats/overlap.shtml ]), qui montre test après test que les moteurs de recherche ont des index aux contenus très différents. Ce serait une erreur de croire qu'un moteur de 150 millions de pages contient toutes celles qui ont été trouvées par un moteur de 100 millions de pages. Bien loin de là, la proportion de pages communes aux deux est faible. Quand un moteur (AltaVista France en l'occurrence, dans ses pages d'aide) écrit : "Si vous ne trouvez pas [dans notre index] ce que vous recherchez, c'est que cela n'existe probablement pas" , il ment. Ne nous y laissons pas prendre. Les agents commerciaux des moteurs de recherche mentent comme des arracheurs de dents: aucune affirmation venant de cette profession ne peut être prise pour argent comptant. - Il faudrait tout vérifier !
J'admets que la question est tout à fait légitime, mais je me suis lassé de cliquer. J'ai seulement comparé rapidement les résultats de Voila et d'AltaVista France pour le mot " obnubilait " : seule une page (sur respectivement 9 et 10 résultats) était identique. La répartition par domaines explique ce chevauchement très faible :
Le marché fait que Voila et AltaVista France sont placés en concurrence. En fait, c'est une situation qui n'est pas tellement fondée dans la réalité : l'un et l'autre ne font en effet pas le même travail. Voila est un gros moteur francophone (tous domaines confondus), AltaVista France peut être vu comme le grand moteur du domaine .fr, ce qui n'est pas du tout la même chose. Si quelqu'un a le courage de vérifier sur d'autres mots que les index de ces deux moteurs (et des autres) sont très différents on l'en remerciera bien. (Il faudrait voir, en particulier, si on a des chances importantes de trouver dans Voila ou dans un autre moteur des pages du domaine .fr qui ne seraient pas présentes dans AltaVista France, ou si sur ce point précis AltaVista France tend vers l'exhaustivité.) En attendant, je me garderai pour ma part de considérer que je peux me dispenser de consulter Voila parce qu'AltaVista France est peut-être un petit peu plus gros : et je parierai sans trop de risques que leurs contenus se chevauchent assez peu. Par ailleurs, si je fais une recherche dont j'ai des raisons de penser qu'elle sera satisfaite dans le domaine .fr (information universitaire française, par exemple), j'utiliserai AltaVista France d'abord. Si au contraire je veux explorer la francophonie dans son ensemble, j'utiliserai plutôt Voila.
|