![]() |
![]() |
||||
|
Deuxième leçon
Sur Internet ( le Web), on peut trouver: a- les chats ( prononcez tchatte) sont des groupes de discussion en temps réel. On écrit, quelquun répond, on écrit encore etc. b- des groupes de discussion ( newsgroup ou Usenet) sur toutes sortes de sujets. Il faut aller à ladresse de ces groupes pour suivre les discussions. Le principal outil de recherche pour les trouver est DejaNews. c- des listes de distributions ( mailing lists) sur toutes sortes de sujets. Labonnement est gratuit la plupart du temps et on reçoit le courrier directement dans notre boîte à lettres électronique. Le principal outil de recherche pour les trouver est Listz. AJOUT: Pour ce qui est des listes de distribution en français, il existe un site FRANCOPHOLISTES: http://www.cru.fr/listes/ Il répertorie des centaines de listes francophones auxquelles on peut sabonner. DEVOIR: Faites le même exercice quavec LISTZ. Trouvez un sujet et vérifiez sil y a une liste de distribution qui sy intéresse.
Nous allons maintenant aborder le principal morceau dInternet, les sites du World Wide Web, ou en abrégé, le Web. Nimporte qui peut fabriquer son propre site. En conséquence on trouve de tout sur Internet, des sites personnels, des sites de bibliothèques, des sites gouvernementaux etc. On estime quil sajoute quelque 2000 sites par jour, soit une quinzaine de milliers de sites chaque semaine, aux 30 ou 80 millions de sites qui existent déjà. Actuellement, le Web est un grand cartoon. Nimporte qui peut publier nimporte quoi sur nimporte quoi. Il ny a absolument aucun contrôle. Vous pouvez, dès demain, ouvrir votre propre page web intitulée: comment faire fonctionner une moto-neige avec un poêle à bois, et personne ne peut vous en empêcher. Mais il y a aussi des groupes de recherche, des universités, des musées qui offrent de linformation précieuse sur leur page web. Toutes ces pages Web, sérieuses ou non représentent des dizaines de millions de pages et elles ne sont pas pas classées. Cest un peu comme se retrouver dans une bibliothèque où il y aurait pêle-mêle des encyclopédies reconnues, des livres obscurs, des pamphlets ridicules, des textes écrits par des timbrés etc. Donc, première constatation, on trouve tout sur le Web, du meilleur et du pire. Ces pages webs ne sont pas classées. Il ny pas de pages jaunes ou blanches, pas de téléphonistes. Il ny a pas de catalogue centralisé des ressources du web, aucune place unique où on peut trouver ce quon cherche. À côté de ça, l'histoire de l'aiguille dans la botte de foin relève de l'aimable échauffement matinal. On sait quil y a de linformation intéressante là-dedans, quelque part, mais où? La question est où la trouver.
Heureusement, sur le Net, là où il y a un besoin, il y a un programmeur - ou de plus en plus un entrepreneur- qui travaille à combler ce besoin. Ces petits malins ont créé des outils de recherche. Il y en a des centaines. Ainsi, DejaNews ne cherche que les groupes de discussion, Listz ne cherche que les listes de distribution, Francopholistes que les listes de distribution en français etc. Dautres outils de recherche ne soccupent que des numéros de téléphone. Dautres encore comme GovBot ne fouillent que des sites gouvernementaux américains etc. Mais essentiellement, il y a deux sortes doutils de recherche: il y a le répertoire de sujets et le robot chercheur( moteur de recherche ou search engine) . Certains outils combinent les deux mais ils sont fondamentalement lun ou lautre. En gros les répertoires de sujets sont créés par des êtres humains; la division est logique et on procède par étape. Si on demande Histoire par exemple, le répertoire va offrir une liste de pays. On clique Etats-Unis et le répertoire nous offre plusieurs périodes. Ce genre de division et de subdivision sappelle larborescence. Nous y reviendrons. Pour linstant, nous allons étudier les robots-chercheurs dont le plus connu est Altavista.
Chaque jour des robots-surfeurs parcourent le réseau dInternet (pages WWW, groupes de discussion etc). Ils enrégistrent au passage les nouvelles adresses et les nouveaux sites et emmagasinent le tout dans leur banques de données. Ces robots parcourent ainsi le World Wide Web en permanence et en font le tour en quelques semaines ou quelques mois, indexant au passage des millions de pages. Mais les robots ne pensent pas; ils obéissent aux ordres. Si vous demandez BOMBARDIER, ils peuvent vous ramener un club de danseuses qui sappelle Bombardier aussi bien que le musée du même nom. Et si vous demandez quelque chose de général comme FRUITS, le robot vous ramène des centaines de milliers de sites. Avec le robot, aucun être humain ne contrôle au préalable si les pages Web trouvées présentent un quelconque intérêt. Donc les robots sont inefficaces et inutiles lorsque ce que vous cherchez est trop large, la littérature française par exemple. En bref, il faut utiliser les robots quand la recherche est pointue: le VIRUS EBOLA par exemple ou encore le journal TELEGRAAF.
1- Utilisez le "+" Si vous inscrivez "+" avant le mot cherché, le robot doit ABSOLUMENT trouver ce mot dans une page avant de la ramener. Exemple: On demande chocolat sans indiquer "+" Réponse du petit robot: 36 180 pages On demande chocolat en indiquant "+" Réponse du petit robot: 14 892 pages. Cest mieux mais cest quand même un peu beaucoup. Si ce que vous cherchez est tortues en chocolat, on peut essayer sans utiliser le "+" chocolate turtles le petit robot ramène des pages sur le chocolat, des pages sur les tortues et des pages où il y a les deux. Dans ce cas le robot ramène 173 850 pages...... Mais si vous demandez +chocolate +turtles Le robot est obligé de ramener uniquement les pages où il y a les DEUX mots. Le robot ne ramène que 120 pages ce qui commence à être raisonnable. Essayons de réduire encore. Le robot a ramené 120 pages où il y avait le mot "chocolate" et le mot "turtles". Le petit débile ne sait pas que vous voulez uniquement des tortues en chocolat. Il faut le lui dire. Pour lobliger a ramener uniquement des tortues en chocolat il faut mettre bien sûr le "+" pour lui dire quon veut uniquement les pages où il y "chocolat" et "tortues" mais si vous voulez lobliger à ramener uniquement les pages où les deux mots sont ensemble et non pas séparés dans une page, il suffit de mettre entre parenthèses "chocolate turtles". La commande devient donc: + "chocolate turtles". Le robot est obligé de ramener uniquement les pages où il y a "chocolate turtles" et uniquement si les deux mots sont ensemble. On se retrouve avec 103 pages qui parleront nécessairement de "tortues en chocolat. On peut restreindre encore mais ce sera pour la prochaine fois. Il existe aussi des logiciels qui permettent de faire des recherches dans des banques existantes. C'est le cas de QBIC, développé par IBM, qui offre la possibilité de faire des recherches basées sur le "contenu visuel" des images, comme les proportions ou la disposition des couleurs, ou encore les textures. On peut faire gratuitement l'essai de QBIC ("Query by image content for web publishing and multimedia databases") directement sur le web
|
|||||
|
|
|||||
| Accueil | Hebdo-Science | Le Cyber-Express | Bibliothécaire Québécois | plan du site | |||||