La Lettre du bibliothécaire québécois
Numéro 12 - Juin-juillet 1998


Retour au sommaire du numéro 12


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



4. DOSSIERS


LE PROJET GUTENBERG OU LE PORTRAIT D'UN ORIGINAL

par Guy Teasdale [ guy.teasdale@bibl.ulaval.ca ]

Pour cette chronique estivale, j'ai décidé d'aborder un sujet plus léger. Comme nous avons tous plus de temps pour la lecture, je vais vous parler d'une banque de textes électroniques, celle du projet Gutenberg, et de son fondateur Mike Hart, un des nombreux personnages originaux que compte le cyberespace.

Vous trouverez la page d'accueil officielle du projet Gutenberg à:
[ http://promo.net/pg/ ]

Qu'est-ce que le projet Gutenberg?

C'est un projet qui vise à rendre disponible 10 000 textes électroniques d'ici le 31 décembre 2001. Jusqu'à présent, 13% de l'objectif est atteint; depuis le début, le nombre de textes a doublé à chaque année. Pour le seul mois de mai, plus de 80 nouveaux fichiers ont été chargés, pour un grand total de 1306 textes électroniques.

Ces textes sont du domaine public. Suivant la loi américaine une uvre passe dans le domaine public 50 ans après la mort de l'auteur. Un projet de loi visant à étendre cette protection du droit d'auteur jusqu'à 70 ans après la mort d'un auteur est chaudement combattu aux Etats-Unis. Hart est évidemment aux premières lignes.

Le projet Gutenberg a débuté en 1971. Mike Hart, qui avait alors autour de 26 ans s'est vu accorder, par un ami, 100 millions d'heures de temps d'utilisation de l'ordinateur de l'Université d'Illinois! Michael semble avoir pris cette blague au sérieux car il s'est alors donné la mission de rembourser ce "cadeau" en stockant et en diffusant des textes électroniques. Le premier document électronique qu'il rendit disponible - n'oublions pas que c'est un américain - fut la Déclaration d'Indépendance des États-Unis. Hart calculait que ce texte serait télédéchargé par tous les américains et qu'il aurait acquitté sa dette lorsqu'il se retrouverait sur 100 millions de postes de travail. Sa "vision" s'est par la suite affinée: il compte distribuer gratuitement 1 trillion (mille milliards ou 1 million de millions) de textes électroniques. Selon Hart, si cent millions de lecteurs vont chercher les 10 mille textes qui seront accessibles en 2001, le but sera atteint. On le devine, ce projet, qu'il s'est lui-même imposé, est colossal. Le projet Gutenberg est véritablement pour lui le levier qui lui permettra d'appliquer dans le domaine littéraire la maxime d'Archimède: "Donnez-moi un point d'appui et je soulèverai le monde".

D'ailleurs, le texte que l'on retrouve en exergue sur sa page personnelle
[ http://promo.net/hart/index.html ] définit bien le personnage:

"Si ce que vous avez fait hier
Vous semble encore énorme aujourd'hui
Alors vos objectifs pour demain
Ne sont pas assez grands."

Hart est un original, un utopiste et un visionnaire: il rêve du jour où un habitant d'une tribu isolée de Bornéo pourra se brancher par modem et télécharger un texte. Pour ce faire, il doit viser le plus petit commun dénominateur: avant que la tribu de Bornéo ne soit équipée d'un Pentium II à 400 mhz, ça risque d'être long. Hart n'aime pas et n'utilise que peu ou pas le World Wide Web, un gaspillage de bande passante selon lui. C'est pourquoi tous les textes sont encodés, suivant son expression, en " Plain vanilla ASCII " c'est-à-dire qu'ils sont codés sur 7 bits et ne comportent donc aucun code de formatage, d'italique, ou de caractère gras. Ces emphases typographiques sont plutôt transcrites au moyen de caractères majuscules. Les textes sont stockés sur un serveur FTP et sont donc téléchargeables très facilement, sous toutes les plateformes, même avec un modem à 1200 bps. Toutefois, le codage sur 7 bits ne donne pas des résultats très probants dans notre langue car, comme vous le savez, le français doit avoir, au moins, un codage sur huit bits. C'est ainsi que vous pouvez aller chercher un Cyrano ... sans accents. Voici un extrait de la fameuse tirade, tiré du projet Gutenberg:

Descriptif: 'C'est un roc!... c'est un pic!... c'est un cap!
Que dis-je, c'est un cap?... C'est une peninsule!'
Curieux: 'De quoi sert cette oblongue capsule?
D'ecritoire, monsieur, ou de boite a ciseaux?'
Gracieux: 'Aimez-vous a ce point les oiseaux
Que paternellement vous vous preoccupates
De tendre ce perchoir a leur petites pattes?'
Truculent: 'Ca, monsieur, lorsque vous petunez,
La vapeur du tabac vous sort-elle du nez
Sans qu'un voisin ne crie au feu de cheminee?'

Même si votre cerveau a replacé les accents absents, avouez que ça enlève presque de la truculence à Cyrano. Par contre, ça permet à l'étudiant de faire son travail, même s'il a oublié sa copie du texte à l'école; ça permet à tous d'accéder à la culture en tous temps, à toutes heures et en tous lieux.

Récemment, toujours dans le projet Gutenberg, on a fait exception à la règle de Hart: des textes français ont été codés sur 8 bits. Les résultats ont été désastreux. Le premier de ces (onze) textes français a été "La Duchesse de Palliano" de Stendhal. Au début du fichier, on nous demande d'être indulgents, que des améliorations sont encore possibles et on fait appel aux volontaires. Il y aurait effectivement un gros travail de révision à faire et si vous avez l'âme missionnaire de Hart (et du temps), n'hésitez pas. Je crois qu'on a utilisé pour la saisie en français une page de codes de caractères américains ou encore un MAC. Toujours est-il que lorsqu'on affiche ces textes sous Windows 95, qui utilise une page de codes compatibles avec ISO-Latin, les accents ne sont pas à la bonne place: c'est pratiquement illisible. "Le rouge et le noir" a subi le même sort... son incursion dans le 8 bits n'est pas concluante.

Par contre, on retrouve dans le projet Gutenberg des textes en anglais très utiles et intéressants comme le CIA World Facts Book, son best-seller (si je peux m'exprimer ainsi ... c'est gratuit), des dictionnaires, les aventures de Tarzan, Shakespeare, Alice aux pays des merveilles, etc.


Comment fait-il?

Hart compte sur une armée de volontaires: par exemple, un groupe de 50 universitaires russes se sont tapés, à la main, les 45 millions de caractères que compte le Webster's Unabridged Dictionary. De plus, des sociétés lui fournissent à l'occasion des équipements gratuits, comme un scanner et des logiciels de reconnaissance optique de caractères, des modems, des ordinateurs, etc. Enfin, il est étonnant de constater que, comme à l'époque des scriptoriums, la diffusion des connaissances continue d'être soutenue par des moines!!! Ces derniers ont offert à Hart un poste de "professeur de textes électroniques" dans une petite université bénédictine de Lisle, Illinois, avec un maigre salaire de 12 000 $ par année.

Dix mille fichiers sont télédéchargés à chaque mois du site principal mais c'est un infime portrait de la réalité car le projet Gutenberg est disponible sur plusieurs sites miroirs à travers le monde et sur cédérom. De plus, il faut souligner que Hart ne voit pas l'intérêt de compiler des statistiques sur ce qui est lu et par qui; il ne lui importe que de diffuser les textes. Le moins qu'on puisse dire c'est que ce n'est pas un "gars de marketing"!

Hart est également à l'origine du bulletin d'information "Ask Dr. Internet"
[ http://promo.net/drnet/ ] qui diffuse ses opinions (assez tranchées) sur l'évolution du réseau. Lorsqu'il signe ses chroniques, Hart nous informe qu'il est "l'usager numéro 100 d'Internet (approximativement)" et j'aurais tendance à le croire puisqu'Internet a commencé en 1969 et que le projet Gutenberg débutait deux ans plus tard, à une époque où il fréquentait déjà la grande Toile.

Un dernier mot pour mentionner que Hart est un personnage contesté sur quelques listes de discussions. L'appellation "Dr. Internet" semble irriter plusieurs spécialistes du domaine. J'ai déjà lu également des critiques sur lui dans certaines listes de discussion SGML où on trouvait pour le moins dommageable cette idée de se contenter du ASCII sans balises. Et effectivement, Hart semble oublier que nous avons, depuis l'invention de Gutenberg, acquis 550 ans de pratiques typographiques pour améliorer la présentation des textes. Les partisans du SGML disent qu'il faut séparer le texte de son formatage mais ils ne préconisent pas la disparition du formatage! J'avais donc un préjugé défavorable envers lui. Maintenant, je dois avouer que j'ai été assez impressionné par ses réalisations et son noble objectif de "briser les chaînes de l'ignorance" par la diffusion de textes et ce, à un coût minime, si on compare le projet Gutenberg à des projets de textes électroniques récents. Hart n'est pas bibliothécaire dans la vie mais il l'est sûrement dans l'âme: il mériterait de l'être à titre honorifique.


Et en français?

Le projet Gutenberg a été précurseur de nombreux autres projets visant à rendre accessibles des textes électroniques. Je m'en voudrais de ne pas diriger le lecteur vers des projets similaires en français (toujours pour vos lectures d'été!)

ABU: la Bibliothèque Universelle comportait 202 textes de 66 auteurs, soient 13 500 pages en janvier 1998 [ http://cedric.cnam.fr/ABU/ ]. Chez ABU vous pourrez lire du Stendhal avec des accents à la bonne place (voir, par exemple, "Armance" ). Les textes sont présentés en HTML.

Athena, en Suisse, diffuse des textes français en format RTF et HTML (voir, par exemple, "Germinal" à http://un2sg4.unige.ch/athena/html/francaut.html ). Athena nous offre une liste très complète et très utile des textes disponibles en format image ou en format texte sur différents sites (dont le site de Gallica)
[ http://un2sg4.unige.ch/athena/html/fran_fr.html ]

Je suis également souvent agréablement étonné par les découvertes que nous permet de faire la bibliothèque électronique de Lisieux. Ah si toutes les bibliothèques municipales étaient aussi dynamiques! Voyez par vous-mêmes
[ http://www.bmlisieux.com/ ]

Enfin Alexandrie semble disparue et ne répond plus à son URL
[ http://www.alexandrie.com ] Dommage! Si un lecteur a des informations là-dessus, prière de m'en informer.

Sur ce, je vous souhaite de bonnes lectures estivales et de bonnes vacances!


POUR EN SAVOIR PLUS:

Hamilton, Denise "Hart of the Gutenberg Galaxy". Wired, 5.02
[ http://www.wired.com/wired/5.03/esgutenberg.html ] où on apprend, entre autres choses, que Michael Hart carbure au sucre même avec sa pizza (ouache!).

Pour revenir au sommaire du numéro douze...