La Lettre du bibliothécaire québécois
Numéro 15 - Décembre-Janvier 1999


 

Retour au sommaire du numéro 15 


Retour à la page d'accueil de la LBQ 


Ecrivez à la LBQ 
 
 


L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois 

 

4. DOSSIERS

 
 
LE PROJET "NOTRE MÉMOIRE EN LIGNE"

par Guy Teasdale [ guy.teasdale@bibl.ulaval.ca ]

S'il est un site Web incontournable pour ce numéro spécial "Canada" de la LBQ, c'est bien celui de "Notre mémoire en ligne / Canadiana online" que nous avions brièvement évoqué dans un article précédent (voir: Bibliothèques électroniques: la documentation patrimoniale, LBQ no 7, déc. 1997 à [ http://www.sciencepresse.qc.ca/lbq/lbq7.3.html ])

"Notre mémoire en ligne" a pour but de numériser des collections de documents anciens du Canada ou portant sur le Canada. Ces documents sont actuellement disponibles dans plusieurs bibliothèques de recherche sous la forme de microfiches produites par l'Institut canadien de microreproductions historiques (ICMH). L'ICMH s'est donné pour mission, il y a déjà plus de vingt ans, de reproduire les documents anciens du Canada afin d'en assurer la conservation et la diffusion. Jusqu'à tout récemment, le moyen choisi était la microreproduction. Le Web et les nouvelles technologies de l'information ont provoqué la diffusion de ces contenus sous forme électronique, en format image, par la numérisation des microfiches.

Le projet de numérisation est une réalisation conjointe de l'ICMH, de la Bibliothèque de l'Université Laval, de la Bibliothèque de l'Université de Toronto et de la Bibliothèque nationale du Canada. La Bibliothèque nationale du Québec est également membre associée. "Notre mémoire en ligne" a bénéficié d'une subvention de 700 000 $ de la fondation Andrew Mellon de New York et de l'apport de plus de 321 000 $ provenant de diverses fondations et sociétés canadiennes.

 

Contenu ­ en avant-première pour la LBQ

Le projet est actuellement en phase de production: il comportait, au début janvier 1999, près de mille documents en ligne (sur un total prévu de 3200). À terme, 600 000 pages auront été numérisées.

L'URL ne devait pas être publicisé pendant cette phase de test pour ne pas risquer de surcharger le moteur de recherche et pour permettre de bien tester le serveur. Toutefois, Karen Turko, directrice du projet, a accepté que nous diffusions l'adresse pour le bénéfice des lecteurs de la LBQ [ http://www.canadiana.org ].

C'est avec fierté que nous invitons nos lecteurs à consulter, en avant-première, "Notre mémoire en ligne". Deux bémols, cependant: d'abord, même si le site contient des documents en français, vous constaterez que l'interface française du moteur de recherche n'est pas encore implantée (question de jours). Ensuite, il est possible que l'accès en soit éventuellement limité aux membres de l'Université Laval et de l'Université de Toronto, pour une période d'analyse. Nous vous conseillons donc de ne pas tarder à expérimenter ce nouveau site.

À terme, "Notre mémoire en ligne" comportera 3200 documents couvrant les périodes du 16e au début du 20e siècle, répartis dans cinq collections:

· Histoire des femmes canadiennes;

· Littérature canadienne anglaise;

· Explorations et voyages;

· Histoire du Canada français;

· Études autochtones.

Le choix des 3 200 documents à numériser a été effectué par des spécialistes de chacune des disciplines qui ont puisé dans le corpus de plus de 80 000 titres de l'ICMH disponibles sur microfiches.

Au départ, le projet "Notre mémoire en ligne" comportait un volet "littérature canadienne-française". L'association avec la Bibliothèque nationale du Québec (BNQ) a permis un partage d'expertise et empêché les duplications. Compte tenu des coûts énormes de la numérisation, le volet littérature canadienne-française a été remplacé par un volet "histoire du Canada français" afin de maintenir la proportion de contenus francophones initialement prévus. Le volet "littérature canadienne-française" a été, lui, assumé par la BNQ.

Le projet de la BNQ regroupe des uvres signalées dans le tome 1 du Dictionnaire des uvres littéraires du Québec, de même que des partitions musicales. La BNQ a numérisé 360 000 pages d'ouvrages québécois ou relatifs au Québec (dont la littérature) et publiés en langue française (1500 documents).

Bien que la Bibliothèque nationale du Québec soit partenaire associée à "Notre mémoire en ligne", son projet diffère quand au choix technologique: les images TIFF sont encapsulées dans des fichiers PDF. Pour plus de détails sur les particularités du projet de la BNQ, on consultera l'article d'Yvon-André Lacroix paru dans "À rayons ouverts", avril-juin 1998. [ http://www2.biblinat.gouv.qc.ca/texte/t0402.htm#C ].

 

Comment parcourir notre mémoire?

Le moteur de recherche de "Notre mémoire en ligne" est celui de MultiText [ http://multitext.uwaterloo.ca/ ], développé par deux chercheurs de l'Université de Waterloo. L'interface actuelle permet une recherche dans le texte intégral, en plus des accès par auteur, titre, sujet ou éditeur, qui étaient déjà possibles avec les notices de catalogage des microfiches de l'ICMH. L'autre mode de consultation offert permet la recherche par ordre alphabétique de titre ou d'auteur.

S'il est possible de faire une recherche dans les pages images, c'est qu'elles ont subi une reconnaissance optique des caractères (ROC). Les textes résultant de cette opération ne sont pas parfaits, c'est pourquoi vous ne les verrez pas; le système vous présente seulement une image de la page. S'ils ne sont pas parfaits, ils sont de qualité suffisante pour l'indexation dans un moteur de recherche.

Tous les documents sont encodés en format SGML en utilisant une version réduite de la DTD Teilite. L'encodage SGML nous permet d'inclure les informations de catalogage du document de même qu'une structure constituée de pages. À chaque page, dans le fichier SGML, il y a le texte ASCII qui a été reconnu par ROC et un lien hypertexte vers l'image correspondante. Ce n'est que le lien vers l'image qui vous est présenté.

Lorsque vous effectuez une recherche, vous obtenez comme résultat les notices abrégées des documents correspondant à votre requête, de même que les numéros des pages-images où apparaissent les termes recherchés. Vous avez ainsi une indication visuelle du nombre de fois qu'apparaît votre terme dans chacun des documents repérés par Multitext, ce qui vous permet de choisir les plus pertinents. De plus, comme chaque numéro de page est relié par lien hypertexte avec son image, vous pouvez passer directement à la page désirée. Ainsi, si vous cherchez un terme qui apparaît aux pages 4-5-6 et 7 d'un document, vous pouvez afficher la page 4 directement et ensuite, feuilleter le livre, tout comme on le ferait avec un ouvrage sur papier, en passant à la page suivante, la page précédente, la première page ou la dernière page. La seule différence, c'est qu'au lieu de votre doigt, vous utilisez des icônes de navigation et vous patientez quelques dizièmes de secondes de plus pour voir apparaître la page.

À ce propos, il est intéressant de noter que cette page-image que vous lirez, n'existait pas la seconde d'avant: elle est virtuelle dans le plein sens du terme, comme l'arbre est virtuellement présent dans la graine! Il s'agit d'une image en format GIF, qui apparaît par défaut en résolution moyenne et qui a été générée automatiquement, à partir de la page-image d'archivage, qui elle seule est stockée sur les ordinateurs du projet, à Toronto. La page d'archivage est en format TIFF et a été scannée à très haute résolution (400 à 600 points par pouce). Notez également que vous pouvez choisir d'augmenter ou de réduire la grosseur de la page affichée au moyen d'icônes apparaissant en haut et en bas de l'image de la page. Le système vous propose cinq choix de grandeurs possibles qui sont toutes générées automatiquement, à la demande.

Ainsi, pour les besoins de cet article, nous avons examiné une même page-image dans trois formats d'affichage: petit, moyen et grand. Sur un écran de bas de gamme, affichant 72 points par pouce, la même image avait les caractéristiques suivantes :

Petit: 3,8 X 6 pouces (9,6 X 15 cm) 12Ko (115Ko décompressée).

Moyen : 7,5 X 12 pouces (19 X 30 cm) 34Ko (455Ko décompressée).

Grand : 19 X 30 pouces (48 X 75 cm) 115Ko (2.8Mo décompressée).

Évidemment, le temps de chargement de la page augmente avec la taille du fichier généré. Si vous avez un écran de 12 pouces (30 cm), il ne sera pas très pratique d'afficher une page de 19 par 30 pouces, elle débordera largement de votre écran. Toutefois, les différents choix proposés permettent à tous une lecture très confortable. Sur un écran de 21 pouces, vous constaterez même que les formats plus grands vous permettent une meilleure lecture que dans le document original sur papier!

 

Volet recherche

"Notre mémoire en ligne" comporte aussi un important volet de recherche. Le professeur Bruce Kingma, économiste spécialisé dans les aspects économiques des sciences de l'information, créera un modèle pour examiner les coûts, pour les bibliothèques et pour les usagers, associés à l'usage, la production, le stockage, la diffusion etc. des documents originaux, sur microfiche ou en ligne. D'autre part, une étude des différents usages de ces documents sera effectuée par les professeurs Joan Cherry et Wendy Duff de la "Faculty of Information Studies" de l'Université de Toronto. Ces dernières tenteront également de connaître qui consultent ces documents (historiens, généalogistes, curieux, étudiants, etc.). Toutes ces recherches devraient donner lieu à des publications dans le courant de l'année et permettront de mesurer plus adéquatement les coûts et bénéfices des documents virtuels. Nul doute que ces travaux pourront profiter à d'autres projets à venir ailleurs au Canada ou dans le monde.

En conclusion, rappelons que les deux projets mentionnés dans ce texte vous permettront d'accéder à un million de pages de textes en quelques clics.

Redécouvrez différents pans de notre mémoire collective, et bonne lecture!
 

Pour revenir au sommaire du numéro quinze...