La Lettre du bibliothécaire québécois
Numéro 20 - Octobre-décembre 1999


Retour au sommaire du numéro 20


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



2. ANNUAIRES ET MOTEURS DE RECHERCHE

 

LA POPULARITÉ DES SITES WEB

par Géraldine Gourbin [ geraldine.gourbin@aupelf.refer.fr ]


Plus il existe de liens pointant vers un site, plus grandes sont les chances que ce dernier soit répertorié dans les moteurs de recherche et certains annuaires. La qualité et la richesse des liens sont déterminants. On ne parle plus en terme d'audience (fichiers log), mais en terme d'indices de popularité, de panels d'utilisateurs, du nombre de mentions au site, du nombre de votes et de visites, etc.

L'indice de popularité (IPP) se mesure de la façon suivante :

            nombre de pages contenant un lien vers le document
IPP =   -------------------------------------------------------
            nombre de pages total de l'index

Parmi les nombreuses méthodes proposées pour mesurer la popularité d'un site, se trouvent les systèmes de mesure de l'indice de popularité et les systèmes de classement des sites populaires.


Systèmes de mesure de l'indice de popularité

Pour connaître les sites ayant un lien menant au site recherché, on peut utiliser l'un des trois moteurs de recherche suivants: Alta Vista, Infoseek et HotBot.

Les requêtes link: et linkdomain: permettent d'obtenir les pages contenant un lien vers le site indiqué. Les requêtes host: et domain: ou site: permettent d'enlever de ce résultat les pages internes du site.

- Sur Alta Vista, inscrivez dans le champ des mots clés:
link: www.monsite.com ­host:www.monsite.com
et validez.
- Sur Infoseek, inscrivez dans le champ des mots clés:
link: www.monsite.com ­site:www.monsite.com
et validez.
- Sur HotBot, inscrivez dans le champ des mots clés:
linkdomain: www.monsite.com ­site:www.monsite.com
et validez.

Docteur SAM [ http://www.annonceur.net/test/ ] fournit une réponse groupée sur le nombre de liens. On peut aussi se rendre directement sur les moteurs pour avoir la liste de pages ayant un lien vers le site recherché.

Des outils tels que Link Popularity [ http://www.linkpopularity.com ], WebSiteGarage [ http://websitegarage.netscape.com/ ] ou Linkomatic [ http://www.linkomatic.com ] permettent de calculer l'indice de popularité du site.

D'autres méthodes de recherche basées sur l'information contenue dans les liens hypertextes voient le jour. Google [ http://www.google.com ], mis au point par deux étudiants de l'Université de Stanford, utilise le savoir contenu dans les liens hypertextes. Il sélectionne les sites selon le nombre de liens qui pointent vers eux. Les algorithmes de recherche se basent sur le nombre de pages pointant vers le site, se débarrassant ainsi du bruit généré par des méthodes d'indexation qui ne mesurent que le nombre d'occurrences des termes recherchés et leurs positions dans les pages. L'algorithme de recherche prend également en compte l'importance des sites pointant vers les résultats de la recherche. Lors de chaque recherche, un petit lien GoogleScout apparaît à la fin de chaque liste. En activant ce lien, on est mis en contact avec des sites similaires. Le moteur se distingue aussi en soulignant dans la phrase les mots recherchés. Même si le site recherché n'est pas indexé, il suffit que de nombreuses pages pointent vers lui pour que ce site figure dans les résultats de recherche.

Cette innovation fait des émules dans le monde des moteurs de recherche. Virgin.net vient d'intégrer Google. Le nouveau moteur de recherche de Netscape, Netscape Search, en intègre des éléments. Il fouille à la fois les 650 000 sites indexés dans Netscape Open Directory et dans la base de données de Google. Son index comprendrait aujourd'hui plus de 200 millions de pages. Le service affirme qu'en moyenne 65 recherches par seconde sont effectuées aux heures de pointe et que 3,5 millions de recherches sont lancées quotidiennement!


Systèmes de classement des sites populaires

Direct Hit [ http://www.directhit.com ] est un moteur d'un autre genre: les résultats dépendent des choix des autres visiteurs. Le système de "veille de popularité" de DirectHit fonctionne entre autres sur HotBot, LookSmart, Lycos et MSN, ainsi que sur le site Scandinavia Online. DirectHit s'affirme de plus en plus comme une ressource incontournable dans le monde des moteurs de recherche.

L'annuaire Snap [ http://www.snap.com ] utilise une technique appelée "Global brain", classant les sites selon leur popularité auprès des internautes, afin de les inclure dans ses algorithmes de pertinence. L'outil Snap est le système de recherche utilisé pour le site Real Networks. Les internautes peuvent ainsi rechercher des fichiers audio, vidéo et multimédia à partir de RealPlayer G2. Snap a lancé un service appelé Live Directory [ http://livedirectory.snap.com/ ], annuaire auquel les webmestres peuvent facilement et rapidement inscrire leurs sites.

People's choice [ http://www.peoplechoice.net ] recense les sites en fonction de leur popularité et non du sujet ou de l'actualité. Les sites référencés sont classés:
- par popularité (nombre de sites possédant un lien vers l'URL classée);
- par visites (nombre de personnes qui ont cliqué sur le lien vers l'URL);
- par vote (le code est placé dans la page du site).

Populary [ http://www.popularity.com ] mesure la popularité et la notoriété des sites Web, des personnalités, des entreprises et des marques. Cette mesure ressemble fortement à une part de marché de la popularité des entreprises ou des marques. Le calcul de la popularité repose sur cinq éléments:
- l'opinion d'un échantillon de 1500 internautes représentatifs de l'internet francophone;
- le nombre de liens vers le site;
- le nombre de mentions du site, de la marque, de la personnalité...;
- le nombre de recommandations du site;
- le nombre d'utilisateurs effectuant une recherche par mots clés sur le nom de l'entreprise.
Précisons que les "sites les mieux classés ne sont pas forcément ceux qui génèrent le plus de trafic, mais sont les plus populaires auprès des internautes".

Chaque semaine, 100 Hot [ http://www.100hot.com/ ] établit une liste des 100 sites les plus visités dans 65 catégories différentes, classées dans 10 thématiques. La méthodologie repose sur le nombre d'occurences et de liens.

L'annuaire Top10Links [ http://www.toptenlinks.com/ ] comprend plus de 500 sites organisés en 20 catégories différentes. Les sites référencés sont choisis selon les votes des visiteurs.

Quant à Weborama [ http://www.weborama.com ], il propose deux types de classement:
- le nombre de votes enregistrés par un site inscrit chez Weborama
- le nombre de visites reçues par ce site chaque jour.

Ce panorama indique que les créateurs de moteurs de recherche commencent à se préoccuper davantage d'améliorer la pertinence des résultats plutôt que de simplement répertorier les pages existantes.

 

Pour revenir au sommaire du numéro vingt...