La Lettre du bibliothécaire québécois
Numéro 21 - Janvier-mars 2000


Retour au sommaire du numéro 21


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



1. SCIES, LIMES ET MARTEAUX: CHRONIQUE DES OUTILS DE RECHERCHE PAR INTERNET

 

ALTAVISTA FRANCE ET QUELQUES AUTRES: QUELQUES ÉLÉMENTS D'ANALYSE QUANTITATIVE DE MOTEURS FRANCOPHONES

par Jean-François Vincent [ jean-francois.vincent@bnf.fr ]

Le mois de février a vu le lancement de la filiale française d'AltaVista, nommée AltaVista France. Comme d'habitude, ce lancement n'a pas été accompagné d'une information fiable sur le contenu et les capacités réelles de l'outil. L'occasion m'a paru bonne pour faire un test quantitatif, qui permet d'en savoir un peu plus, aussi objectivement que possible, sur le paysage des moteurs francophones, et sur AltaVista France en particulier. Cet article présente le résultat fastidieux, incomplet, mais instructif je crois, de cette tentative.

AltaVista France n'est pas seulement un moteur de recherche; c'est un portail, qui fournit aussi un répertoire (fabriqué par Lokace), un module de recherche d'images et de documents multimédia, des dépêches de presse, des services divers. Je ne me suis penché que sur le seul moteur de recherche, ce qui ne veut nullement dire que le reste n'est pas intéressant. Il en va de même pour les autres outils pris en considération.


Quelle est la couverture d'AltaVista France?

1-Quels domaines du Web?
Méthode
: j'ai utilisé la formule syntaxique [ domain:[nom de domaine] ], qui permet de restreindre la recherche à un domaine précis du Web. J'ai choisi comme cible dans la fenêtre de recherche simple: "Web français" + "Langage = français" .
Test réalisé le 22 mars 2000.

 (Web français. Langage = français.) [ domain: ]  Alta Vista France
 .fr (France)  4 581 073
 .be (Belgique)  0
 .ca (Canada)  0
 .ch (Suisse)  0
 .net  344 164
 .com  1 378 448
 .org  235 863
 .edu  4627
 Total des réponses pour les domaines ci-dessus :  6 544 175

On trouve aussi des pages ayant des noms de domaine .pf (Polynésie française), .mq (Martinique), .mc (Monaco).

 

2- Quelles langues?
Test réalisé le 26 mars 2000.
J'ai utilisé la commande [ domain:* ], qui devrait normalement renvoyer toutes les pages contenues dans l'index, en ajoutant une limite de langue.

La requête [ domain:*] avec " Langage = français " renvoie 6 587 971 pages.
La requête [ domain:*] avec " Langage = anglais " renvoie 1 647 777 pages.
La requête [ domain:* ] avec " Langage = allemand " renvoie 35 702 pages.
La requête [ domain:* ] avec " Langage = tous langages " renvoie 10 386 747 pages .

Cela n'est pas incohérent: le Web français, ce n'est pas forcément le Web " en français ". Le domaine prime sur la langue.


Conclusions:

AltaVista France est un nom à prendre au sens strict. Ce n'est pas un moteur francophone, mais un moteur français, qui exclut les domaines de la plupart des autres pays francophones (Belgique, Canada, Suisse...) et n'exclut pas les pages non francophones des domaines qu'il traite.

Il serait intéressant de connaître les règles d'inclusion de pages en .com, .net, .org, .edu . Ces pages peuvent fort bien être " françaises ", en effet : le principe de leur inclusion est légitime. Mais quel est le mécanisme de traitement?

Remarques:

- Les chiffres ci-dessus sont à prendre comme des indications, et non comme des valeurs exactes. AltaVista.com a depuis toujours la réputation de donner des chiffres très approximatifs (en tout cas pour les grands nombres), et je n'ai pas trouvé de moyen pour vérifier si sa filiale française vaut mieux sur ce point.
- Y a-t-il dans l'index d'AltaVista France d'autres domaines que ceux que j'ai testés? Le 22 mars et le 26 mars, la requête [domain:* -domain:fr -domain:be -domain:ca -domain:ch -domain:net -domain:com: -domain:org -domain:edu -domain:mq -domain:mc -domain:pf ] renvoyait 0 réponse. Je crains cependant que cela soit plutôt une incapacité d'AltaVista France à traiter une requête aussi longue, qu'une vérification convaincante : en effet, la requête [ domain:fr domain:be domain:ca domain:ch domain:pf domain:mc domain:mq domain:net domain:com domain:org domain:edu ] renvoyait aussi 0 réponse ! - Je dirai donc seulement que je n'en ai pas remarqué d'autres.
- Ce test m'a donné l'occasion de vérifier qu'AltaVista France est encore dans un état de grande instabilité. A l'heure où je rédigeais (26 mars), j'ai voulu vérifier et compléter certaines données récupérées le 22 mars. J'ai eu la surprise de constater qu'AltaVista France renvoyait des réponses de tous les domaines francophones (.ca, .be, etc.). Puis, tandis que j'essayais de comprendre, j'ai eu la surprise encore plus grande de constater que, pour une même requête, il oscillait, pour ainsi dire, entre les réponses consignées dans les tableaux de cet article, et des réponses tout à fait différentes, très semblables à celles que renvoyait AltaVista.com à la même heure ! Apparemment, AltaVista France attaquait tantôt son propre index, tantôt celui d'AltaVista.com, et de façon semble-t-il aléatoire! Cela explique peut-être les résultats d'un test effectué par Olivier Andrieu dans les premiers jours d'AltaVista France, qui concluait à une identité entre les index d'AltaVista.com et de sa filiale française. AltaVista France n'est pas le premier moteur à avoir été lancé avant d'avoir atteint une stabilité satisfaisante.



AltaVista comparé à d'autres moteurs

Comment AltaVista France se situe-t-il, du point de vue de la taille de son index, par rapport à d'autres moteurs concurrents?

Cette partie du test complète et essaie de vérifier, d'amplifier et sur certains points de corriger une étude sommaire réalisée début mars, et qu'on trouvera annexée aux Signets de la BnF .

L'objectif est de comparer l'importance des index francophones de divers moteurs, sans souci d'exhaustivité .

Méthode:
J'ai utilisé 18 mots peu fréquents sur le Web. Pour déterminer cette rareté, j'ai considéré Fast Search comme un critère (ce qui m'a satisfait à l'usage): ce moteur est en effet actuellement le plus gros, selon Greg Notess . Les mots rares permettent de limiter les incohérences de décompte des réponses, problème bien connu d'AltaVista, et de pouvoir vérifier dans les pages de résultat le quantième du dernier résultat trouvé (ce qui est impossible si le nombre des résultats est trop important, soit parce que les moteurs ne le permettent pas du tout, soit parce qu'il faudrait faire s'afficher des dizaines ou des centaines de pages les unes après les autres).

Ces mots sont des noms communs, ou des verbes, généralement accordés ou conjugués. Ils sont choisis pour avoir peu de chances de figurer dans des documents non francophones, ce qui pourrait créer des biais et une incertitude dans les résultats . J'ai essayé aussi de ne pas surreprésenter un domaine thématique par rapport à d'autres, pour éviter des biais imprévus. Lors des tests, j'ai été amené à éliminer quelques mots, qui pour des raisons accidentelles perturbaient les résultats .

Dans tous les cas où c'est possible, j'ai pris en compte le nombre de pages trouvées, et non pas le nombre de mots. Il est important de noter que Voila ne permet pas cette distinction . Les nombres indiqués dans le tableau ci-dessous dans la colonne de Voila sont les nombres de mots trouvés, ce qui interdit une comparaison tout à fait équitable avec les autres moteurs (un mot peut être présent plusieurs fois dans une page), et limite la portée de ces résultats à une indication, cependant assez claire, sur l'ordre de grandeur de son index.

Je souligne qu'un test quantitatif ne doit pas être surinterprété: rien ne dit que le plus gros est le meilleur pour tous les usages. Il est cependant clair qu'un index trop petit met hors course un outil qui se veut généraliste, dans une situation où le milliard de pages est devenu l'unité de mesure du Web.

Je souligne aussi que les différents moteurs testés n'ont pas tous la même cible : Voila tente de couvrir tout le Web francophone, tout comme Fast Search (option Language = french) et AltaVista.com (option Language = french). AltaVista France, comme on l'a vu, se spécialise dans le Web français.


Test effectué les 18 et 19 mars (et le 26 mars pour Spray).

   Fast
Language
= french
 AV.fr
Web français + tous langages
 AV.fr
Web français + français
 AV.fr
Tout le Web + français
 AV.com
Language = french
 Voila
"Web francophone"
 phrénologues  11  9  9  3  3  5
 iambiques  22  16  15  29  29  16
 perlocutoires  30  23  22  21  21  27
 évergétisme  29  16  26  22  22  28
 obnubilait  13  10 10  7  7  9
 folioter  7  10  8  3  3  5
 permutabilité  23  15  15 13  13  13
 phtysiques  2  3  3  2  2  3
 intradiégétiques  6  4  4  4  4  0
 postillonnait  8  9  9  5  5  5
 expectorait  6  5  4  5  5  1
 prémunissait  8  9  9  6  6  7
 bouillira  9  3  2  6  6  9
 ectoplasmiques  33  25  25  20  20  17
 papouilles  49  43  43  29  29  43
 prévariquer  4  4  3  2  2  3
 théophanies  60  44  43  50  50  50
 massicoter  45  11  10  10  10  11
 TOTAL (nb de pages) :  365  269  260  237  237  Nb de mots: 252


   Spray
monde entier + français
 Lycos France
"Web français"
 Lokace  Ecila  Francité
 phrénologues  4  0  0  3  0
 iambiques  8  7  1  0  0
 perlocutoires  8  15  0  2  0
 évergétisme  19  10  4  1  0
 obnubilait  4  0  2  0  0
 folioter  2  3  4  3
 permutabilité  7  8  3  1  0
 phtysiques  0  0  0  0
 intradiégétiques  3  0  0  0  0
 postillonnait  2  0  2  0
 expectorait  1  0  0  0  0
 prémunissait  3  0  2  0  0
 bouillira  2  0  1  0  0
 ectoplasmiques  6  6  4  5  0
 papouilles  17  17  6  5  0
 prévariquer  0  0  0  1  0
 théophanies  15  13  11  1  2
 massicoter  7  6  3  1  0
 TOTAL (nb de pages) :  108  85  41  25  2

Conclusions

- Le tableau est assez parlant pour les ordres de grandeur. Il permet de distinguer grosso modo quatre groupes : un très grand, Fast Search . Trois grands, AltaVista.com, AltaVista France, Voila. Deux moyens, Spray et Lycos France. Et trois tout petits, Lokace, Ecila, et Francité (ce dernier se perdant dans l'infiniment petit).
- On peut souligner que le plus grand moteur pour le français n'est pas un moteur francophone, mais, loin devant, un moteur multilingue pourvu d'un filtre par langue, Fast Search.
- Le test montrait clairement que la recherche sur le " Web mondial " dans AltaVista France utilisait en fait l'index d'AltaVista.com (tous les résultats sont identiques). Il en allait de même de l'interface de recherche avancée, qui renvoyait exactement les mêmes résultats, ce qui est beaucoup moins satisfaisant, puisque rien ne le laisse prévoir dans le texte de cette interface: vous croyez interroger le " Web français ", et c'est le " Web mondial " qui vous répond . Pour faire une requête avancée dans l'index d'AltaVista France, il fallait donc le jour du test utiliser les opérateurs syntaxiques dans la fenêtre de recherche simple (voir l'aide en ligne). Peut-on espérer que cette anomalie soit corrigée prochainement ? On verra bien !
- En revanche, en interrogeant le Web français, on vérifie qu'AltaVista France a bien construit son propre index, et n'est pas simplement un miroir d'AltaVista.com avec un filtre par langue et domaine. Si l'ordre de grandeur est le même, les résultats sont en effet toujours différents, et tantôt plus grands, tantôt plus petits. - La comparaison entre les résultats de recherche dans " Web français + Langage= tous langages " et " Web français + Langage = français " ne montre pas d'anomalies.
- Le résultat piteux de Lokace a confirmé le test que j'ai effectué début mars. A supposer que ce moteur ait atteint 11 millions de pages indexées en décembre 1999, comme cela a été annoncé, il paraît bien peu probable que ce soit vrai actuellement ! (Par comparaison, Voila revendiquait "plus de 10 millions" de pages en octobre 1999, et il est semble-t-il quatre à cinq fois plus gros.) On dirait que cet outil de recherche s'est complètement désinvesti de sa partie moteur de recherche, pour se concentrer sur son répertoire. Répertoire de bonne qualité d'ailleurs, et qui mériterait un test approfondi. Et répertoire qu'il fournit à AltaVista France, dont il occupe la page d'accueil, ce qui doit sans doute être plus rémunérateur.
- On notera que l'appartenance de deux moteurs au même groupe quantitatif ne signifie nullement qu'ils offrent les mêmes performances à l'usager. Il serait ainsi me semble-t-il facile de montrer, en particulier, que Spray est d'une qualité (très) supérieure à Lycos France, dans la présentation de ses résultats en particulier. Les options de recherche d'AltaVista sont aussi plus riches que celles de Voila.


Comparaison d'AltaVista.com et d'AltaVista France

L'une des questions auxquelles je voulais répondre par ces tests était celle de la relation entre l'index d'AltaVista France et celui d'AltaVista.com. Pour confirmer l'impression obtenue par le tableau ci-dessus, j'ai comparé les résultats des deux moteurs pour deux mots (et cela m'a paru suffisamment concluant pour que je me dispense de continuer.)

- Pour le mot " obnubilait ", présent 10 fois dans AltaVista France (Web français + langage = français) et 7 fois dans AltaVista.com (+ language = french), il n'y a que trois pages communes aux deux index, dont une dans des versions de dates différentes.
- Pour le mot " perlocutoires ", présent 22 fois dans AltaVista France et 21 fois dans AltaVista.com, il n'y a que 7 pages communes aux deux index.

Il s'agit donc bien d'index complètement distincts, ce qui est une bonne nouvelle.

Ce faible chevauchement ne surprendra pas les lecteurs de Search Engine Showdown (voir la section Overlap, [www.searchengineshowdown.com/stats/overlap.shtml ]), qui montre test après test que les moteurs de recherche ont des index aux contenus très différents. Ce serait une erreur de croire qu'un moteur de 150 millions de pages contient toutes celles qui ont été trouvées par un moteur de 100 millions de pages. Bien loin de là, la proportion de pages communes aux deux est faible.

Quand un moteur (AltaVista France en l'occurrence, dans ses pages d'aide) écrit : "Si vous ne trouvez pas [dans notre index] ce que vous recherchez, c'est que cela n'existe probablement pas" , il ment. Ne nous y laissons pas prendre. Les agents commerciaux des moteurs de recherche mentent comme des arracheurs de dents: aucune affirmation venant de cette profession ne peut être prise pour argent comptant. - Il faudrait tout vérifier !


Et les autres, alors ?
Mais avec des index plus petits et plus spécialisés, comme Voila et AltaVista France, doit-on aussi penser que le chevauchement est très faible ? Ou certains d'entre eux s'approchent-ils de l'exhaustivité dans leur domaine (auquel cas leur chevauchement serait forcément très important) ?

J'admets que la question est tout à fait légitime, mais je me suis lassé de cliquer. J'ai seulement comparé rapidement les résultats de Voila et d'AltaVista France pour le mot " obnubilait " : seule une page (sur respectivement 9 et 10 résultats) était identique.

La répartition par domaines explique ce chevauchement très faible :

 "obnulait" dans:  .fr .net   .com  .org  Total
Voila  3  1  3  2
AV France ("Web français"+français)  8  0  2  0  10

Le marché fait que Voila et AltaVista France sont placés en concurrence. En fait, c'est une situation qui n'est pas tellement fondée dans la réalité : l'un et l'autre ne font en effet pas le même travail. Voila est un gros moteur francophone (tous domaines confondus), AltaVista France peut être vu comme le grand moteur du domaine .fr, ce qui n'est pas du tout la même chose.

Si quelqu'un a le courage de vérifier sur d'autres mots que les index de ces deux moteurs (et des autres) sont très différents on l'en remerciera bien. (Il faudrait voir, en particulier, si on a des chances importantes de trouver dans Voila ou dans un autre moteur des pages du domaine .fr qui ne seraient pas présentes dans AltaVista France, ou si sur ce point précis AltaVista France tend vers l'exhaustivité.)

En attendant, je me garderai pour ma part de considérer que je peux me dispenser de consulter Voila parce qu'AltaVista France est peut-être un petit peu plus gros : et je parierai sans trop de risques que leurs contenus se chevauchent assez peu. Par ailleurs, si je fais une recherche dont j'ai des raisons de penser qu'elle sera satisfaite dans le domaine .fr (information universitaire française, par exemple), j'utiliserai AltaVista France d'abord. Si au contraire je veux explorer la francophonie dans son ensemble, j'utiliserai plutôt Voila.


Jean-François Vincent, pour La Lettre du bibliothécaire québécois, le 26 mars 2000.

Pour revenir au sommaire du numéro vingt et un...