Retour au sommaire du numéro 8 Retour à la page d'accueil de la LBQ
|
Tel que promis dans notre dernier texte de la LBQ, nous commençons, ce mois-ci, l'examen des différents choix technologiques qui se présentent à nous lors de projets de bibliothèques virtuelles d'une certaine envergure. Compte tenu de l'espace qui nous est imparti, la chronique de ce mois-ci sera consacrée à l'examen d'un seul de ces choix technologiques, le format PDF. Nous reviendrons aux autres choix dans les chroniques à venir... Vous ne vous en doutiez pas mais vous avez entrepris la lecture d'un feuilleton! Il ne s'agit pas ici d'entamer une guerre de religion entre SGML, PDF ou toute autre solution mais bien d'examiner ces choix avec un regard de bibliothécaire, c'est-à-dire sous l'angle de la pérennité de l'information et des possibilités de diffusion, recherche et de traitement des métadonnées. PDF est partout sur Internet, les milieux d'affaires l'adoptent massivement; pourquoi les bibliothèques n'en feraient pas autant? En fait, PDF a déjà été choisi comme format de livraison par plusieurs grands projets - dont le projet Gallica -, la plupart des projets de thèses électroniques actuels et plusieurs projets commerciaux de numérisation. Gallica [ http://gallica.bnf.fr/ ] est un projet de numérisation de textes et images du XIXe siècle francophone de la Bibliothèque nationale de France qui présente des textes sous forme d'images en format TIFF. Ces images sont insérées à l'intérieur d'une "enveloppe" PDF et on se sert d'Acrobat Reader pour les afficher et les imprimer. Nous utiliserons l'exemple du projet Gallica pour illustrer l'importance et les impacts à long terme des choix technologiques initiaux. Nous prétendons que le choix de PDF a eu un impact négatif sur Gallica. En effet, ce projet ne visait-il pas à favoriser l'accès aux contenus ? Or, du moins de ce côté-ci de l'Atlantique, l'accès à ces livres numérisés est très problématique (pour employer un euphémisme). Un seul exemple me permettra d'illustrer ces difficultés : j'ai essayé de télédécharger L'Assommoir de Zola. On doit, sur Gallica, faire venir une page à la fois pour la visualiser mais on peut également télédécharger plusieurs pages en une seule opération pour les consulter hors ligne. J'ai demandé les cent premières pages de l'Assommoir. Le système m'a informé que le fichier TIFF "pesait" 3,172,594 octets (en format compression (sic!) CCITT groupe 4) et le fichier PDF 3,203,978 octets. Une petite règle de trois et on se rend compte que le livre complet de 568 pages comporte plus de 181 méga octets! Le moins qu'on puisse dire, c'est que ce roman porte bien son nom (désolé je ne pouvais pas la rater, celle-là!). J'espère que les lecteurs français de la LBQ pourront me contredire et que l'accès est plus facile de leur côté de l'océan mais j'en doute. La simple idée de diffuser, en un temps raisonnable, des livres de 500 pages, page par page, à raison de 30 kilo octets par page, représente un défi technologique important. Les pragmatiques me diront que ce n'est qu'une question de temps avant que les possibilités du réseau ne rendent secondaires ces questions de grosseur de fichier. Soit, Internet sera plus rapide mais il y aura également en parallèle une augmentation considérable de la demande. Peut-être que la solution DVD abordée par M. Le Borgne dans la LBQ numéro 7 représenterait une voie d'amélioration de la diffusion (hors ligne)? De toute façon, la conclusion qui s'impose est qu'il vaut mieux optimiser la livraison des documents électroniques dès le début d'un projet. Il est dommage que les choix technologiques de Gallica ne rendent pas justice à ce travail colossal qui a été fait au niveau de la sélection, de la numérisation et de la présentation de cette impressionnante quantité d'ouvrages. Pourtant j'ai vague souvenance de certaines interventions de Jean-Claude Guédon (professeur à l'Université de Montréal, auteur de "La planète cyber : Internet et cyberespace" chez Gallimard en 1996 et intervenant bien connu sur les questions touchant Internet) sur la liste de discussion Biblio-fr, il y a quelques années, qui critiquait déjà le choix du format image pour ce projet. Les lecteurs de la LBQ peuvent toujours consulter Gallica par eux-mêmes. Cet exemple a été choisi parmi d'autres, parce qu'il s'agit d'un projet majeur, intéressant les bibliothécaires. Nous croyons que, dans ce cas précis, PDF est un mauvais choix qui ne devrait pas faire école. De toute façon, Gallica n'utilise qu'une infime partie des possibilités de PDF comme nous le verrons plus loin. Essayons donc de voir plus en détail ce qu'il y a derrière cette technologie et ce sigle si répandu sur Internet. PDF signifie "Portable Document Format". PDF n'est pas un logiciel, c'est un FORMAT de documents. Pour produire un fichier dans le format PDF, nous avons besoin de logiciels et c'est ici qu'entrent en jeu la suite de logiciels Acrobat, produits par la société Adobe. Le site français d'Adobe [ http://www.adobe.fr ] n'a pas jugé utile de traduire le sigle PDF, mais les services de traduction du gouvernement du Canada utilisent l'expression "format de documents transférables" (voir: Savage, Chris et Gary Cleveland. Adobe Acrobat et son utilisation pour la livraison de documents. Flash Réseau, no 38. http://www.nlc-bnc.ca/pubs/netnotes/fnotes28.htm ). Le format PDF est à Internet ce que le format PostScript est aux imprimantes ou aux logiciels d'éditique : il permet de reproduire des documents contenant des détails très riches sur une grande quantité de plates-formes logicielles et matérielles (imprimantes, photocomposeuses). Pas étonnant que le format PDF soit issu des créateurs du format PostScript : la compagnie Adobe. Comme le PostScript, PDF est un format de publication, un langage de description de page et n'est pas conçu pour être édité facilement. Par exemple, on ne peut ajouter un long paragraphe dans un fichier PDF et voir notre document se repaginer comme dans un traitement de texte. Tout au plus est-il possible de faire des retouches très mineures en PDF. L'outil principal, Acrobat 3.0, comprend, dans un seul coffret, les principaux logiciels nécessaires pour produire du PDF: Acrobat PDF Writer, Acrobat Distiller, Acrobat Capture, Acrobat Catalog, Acrobat Search et Acrobat Exchange. Adobe vend également séparément le module Acrobat Capture. Étant donné son importance dans les projets de conversion rétrospective de documents papier, nous y reviendrons plus loin. Voyons donc rapidement ce que comprend la famille Acrobat. Acrobat Reader Cette partie de la suite logicielle, distribuée gratuitement par la compagnie Adobe, permet l'affichage des fichiers en format PDF sur les principales plates-formes. Cette stratégie de marketing s'est avérée très rentable pour Adobe car PDF est en train de devenir une norme de facto d'échange de documents sur le Web. Au mois d'août 1997, Adobe annonçait que plus de 20 millions de copies de ce logiciel avaient été distribuées (soit plus de 50 000 par jour!) et que plus de 250 000 sites Web servaient des documents en PDF car ces serveurs avaient des liens hypertextes vers le site d'Adobe. Donc, si on recherche seulement l'accessibilité, le logiciel PDF pourrait représenter une bonne solution (pour des petits documents). Les lecteurs de la LBQ ont probablement tous, un jour, installé l'une ou l'autre des versions d'Acrobat Reader. Il faut savoir toutefois que pour profiter des toutes dernières fonctionnalités du logiciel comme la fonction copier-coller et la fonction recherche dans le texte en PDF, vous avez besoin de la version 3.01 (disponible en français depuis juin 1997).
Comment produire un document en PDF?
Il y a trois méthodes pour ce faire: utiliser Acrobat Writer, Acrobat Distiller ou Acrobat Capture. Voyons rapidement quelles en sont les différences. Acrobat Writer Cette méthode représente la façon la plus simple de produire du PDF. Il s'agit en fait d'un pilote d'imprimante. Après avoir créé un document électronique dans l'application de notre choix, il suffit de choisir "d'imprimer dans un fichier" au moyen de ce pilote; le fichier résultant est en format PDF. Toutefois, pour les mises en page plus complexes et les fichiers contenant des images détaillées, il est recommandé d'utiliser un logiciel plus puissant, le Distiller. Acrobat Distiller Avec le Distiller, nous créons un document dans notre logiciel préféré. Par la suite nous devons choisir, toujours dans la boîte de dialogue d'impression, d'imprimer dans un fichier, mais cette fois en format PostScript. Le Distiller utilise ensuite en entrée le fichier PostScript et produit en sortie un document PDF. Acrobat Capture Acrobat Capture permet, en association avec un scanner, de convertir très simplement un document papier en format PDF. Capture est aussi un logiciel de reconnaissance optique de caractères (ROC). Le fichier résultant est un fichier PDF contenant une fonte semblable à celle du document source. Les portions de texte non reconnues par le logiciel de ROC sont quand même intégrées dans le fil du texte en format image (bitmap). Donc, même si des mots sont non traduits par ROC, ils demeurent lisibles par un humain. C'est un avantage considérable par rapport aux logiciels de ROC traditionnels qui ne se préoccupent pas de la fonte du document source et qui insèrent des caractères de remplissage à la place des caractères illisibles. Le résultat final de Capture demeure donc lisible par l'humain et est donc publiable tel quel. Une fois qu'un document a été "capturé" et a subi la "ROC", il devient possible d'y faire des recherches en texte intégral. Remarquons qu'il est par la suite possible d'éditer les sections du texte comportant des "images des caractères" pour les remplacer par du texte qui deviendra alors aussi recherchable. Capture est disponible en deux formats: un format "léger" intégré dans Acrobat 3.0 et un format "robuste" pour la production massive qui est vendu séparément. Les prix peuvent alors grimper rapidement (pour convertir 20 000 pages, il en coûterait 900 $ U.S. ; pour 1 million de pages, 15 000 $ U.S.) Adobe offre également une autre méthode de création de PDF : il s'agit de macros Word et Excel qui permettent d'ajouter une option "créer PDF" dans le menu. Enfin, de nombreux autres outils et logiciels développés par d'autres compagnies facilitent les travaux de conversion sur une grande échelle. Acrobat Exchange Acrobat Exchange permet beaucoup de raffinements dans la présentation du document PDF à l'écran. En effet, avec Exchange, il est possible d'insérer des liens de navigation dans le texte et au moyen de tables des matières, des annotations, des imagettes ("thumbnails") qui permettent de pré-visualiser le texte et ainsi de repérer facilement des graphiques ou tableaux. Exchange comprend enfin des options de sécurité. Exchange est également nécessaire pour l'optimisation de nos fichiers PDF (qui sera abordée plus bas). Acrobat Catalog et Acrobat Search Quelques mots à propos d'Acrobat Catalog. Grâce à ce logiciel, il est possible de créer des moteurs de recherche non seulement à l'intérieur d'un document mais également à l'intérieur d'une collection de documents PDF. Ce moteur de recherche peut résider sur un serveur Web ou même être publié sur cédérom. Notons toutefois que d'autres outils permettent d'indexer aussi des documents PDF (Open Text, Fulcrum, Excalibur et Personal Library Systems). Acrobat Search est intégré dans la version 3.01 de Acrobat Reader et permet la recherche à l'intérieur d'un texte PDF (pourvu, il va sans dire, que ce texte ne soit pas une image ou que, si tel le cas, qu'il ait fait l'objet d'une ROC). Avantages de PDF Acrobat et la suite de produits sont disponibles en français. Pour des documents de bureautique, des formules d'affaires, Acrobat se révèle très simple d'utilisation (même si l'implantation de la chaîne de traitement peut être complexe). Ces documents deviennent indexables, recherchables, et le personnel n'a pas besoin d'apprendre le fonctionnement de nombreux logiciels avant de réussir à diffuser l'information sur un Intranet ou sur Internet. Les lecteurs de PDF sont gratuits, s'intègrent bien avec les navigateurs du Web comme Netscape ou Internet Explorer et sont disponibles pour toutes les plates-formes informatiques. Enfin, on est assuré d'obtenir la même apparence pour tous nos documents. Acrobat a souvent été critiqué pour la grosseur des fichiers. Avec la version 3 d'Acrobat, il est maintenant possible d'optimiser la livraison des documents au moyen de différentes techniques. Le "rendu progressif" permet d'afficher le texte en premier puis, progressivement, les liens hypertextes, les images et enfin les polices de caractères (un peu comme le format entrelacé des fichiers gif qui affichent l'image progressivement). Ainsi, on a moins l'impression d'attendre et on peut commencer à lire plus tôt. Les "pages à la demande" ("byteserving") constituent une technique différente de celle employée dans le projet Gallica. Jusqu'à maintenant, les fichiers PDF contenaient des informations essentielles à la fin du fichier; tout devait donc être télédéchargé avant de pouvoir lire la première page. Gallica a contourné ce problème en mettant chaque page dans un fichier séparé pour réduire les temps de transfert. Avec les modifications de la version 3.0, un fichier source en PDF peut contenir plusieurs pages et ces pages pourront être affichées à la demande sans qu'il soit nécessaire de télédécharger tout le fichier. Ainsi, on peut commencer à lire pendant que le fichier continue d'être télédéchargé en arrière-plan. Cette technique est rendue possible par une extension au protocole HTTP (HTTP 1.1) et doit être supportée au niveau du logiciel de serveur web (plusieurs serveurs Web la supportent déjà). De plus, avant que le "byteserving" ne fonctionne, tous les fichiers PDF antérieurs doivent être optimisés au moyen d'une procédure d'Acrobat Exchange qui insère des "marques" à chaque page PDF. Enfin il est également possible d'optimiser un fichier PDF en empêchant que des éléments répétitifs (comme des images en arrière-plan par exemple) soient retransmis à chaque page. Compte tenu de tous ces avantages, PDF peut être une solution intéressante pour des documents publicitaires, de courts textes d'information, etc. Dans des applications de bibliothèques virtuelles, toutefois, PDF présente encore des inconvénients. Inconvénients de PDF On vient de le voir dans ce rapide survol, Acrobat peut faire beaucoup de choses. Il s'agit d'une technologie très intéressante et très puissante qui permet de créer des documents électroniques "designs" et fonctionnels mais on oublie souvent un détail dans la publicité. On insiste sur la facilité d'utilisation et sur les multiples possibilités de recherche et on ajoute continuellement des options séduisantes. L'implantation de ces options requiert toutefois du temps et des ressources humaines tout aussi considérables que pour des projets utilisant des technologies réputées moins simples (comme le SGML). Dans le cas particulier des projets de numérisation de livres, d'autres problèmes surgissent. La ROC n'est pas de la magie. Le taux de reconnaissance optique pour des documents de bureautique est peut-être très bon mais il en est tout autrement des livres anciens ayant des fontes moins courantes ; imprimés sur du papier jauni et abîmé. Quand le texte n'est pas reconnu, il faut alors, soit le corriger manuellement à un coût prohibitif, soit se résoudre à mettre de côté l'option ROC, comme dans le projet Gallica. Ne pas utiliser cette option implique que les textes demeurent des images. Tout ce qu'on peut faire avec ce texte à notre bout de la lorgnette, c'est d'attendre (!) le chargement de l'image sur notre poste; il n'est pas possible d'effectuer des recherches en texte intégral pas plus qu'il n'est possible d'effectuer de "couper-coller". Il est tout de même possible d'ajouter des métadonnées qui pointent vers ces images. Il est effectivement bien utile de pouvoir rechercher par auteur, titre et sujet mais un peu décevant, compte tenu de ce qu'Acrobat peut faire. On doit alors se contenter des moyens que notre organisation peut mettre en uvre pour raffiner les résultats. De toute façon, les champs de métadonnées qu'on peut insérer dans les fichiers Acrobat n'ont, pour l'instant du moins, rien à voir avec les métadonnées du "Dublin Core" (le Dublin Core est une norme de catalogage des fichiers informatiques actuellement en développement). Encore ici, on demeure prisonnier d'un format propriétaire défini par une société. Le format propriétaire représente un autre des désavantages du PDF. Malgré sa prévalence actuelle, PDF n'est pas une norme internationale. C'est un format ouvert pouvant être exploité par d'autres sociétés qu'Adobe : mais qui peut nous garantir que dans 10 ans les fichiers PDF seront encore lisibles? Ou que les lecteurs seront toujours gratuits? Remarquons que dans le cas du projet Gallica, on a simplement inséré des fichiers images TIFF à l'intérieur d'une enveloppe PDF. Le fichier TIFF demeure le fichier d'archivage et a été numérisé avec une résolution assez grande. Advenant l'émergence d'une technologie plus performante, on pourrait donc repartir de ce fichier TIFF car le format TIFF n'est pas un format propriétaire et est largement implanté dans la plupart des logiciels graphiques. Il est, de plus, considéré comme étant une norme de l'industrie de l'imagerie (malgré que le format TIFF possède plusieurs variantes). Toutefois, les coûts d'une éventuelle conversion massive de tous ces fichiers TIFF vers un autre format seraient considérables. Dans tout projet de bibliothèque virtuelle faisant appel à l'imagerie, nous sommes placés devant des choix multiples et difficiles: choix de plates-formes, choix d'équipements et de logiciels, choix de réseaux, choix d'affichage, choix de format, etc. Tous ces choix sont inter reliés ; le défi est d'apparier la technologie utilisée avec les usages qu'on compte en faire. Il faut également savoir que la viabilité de notre système sera fonction de sa partie la plus faible. PDF est une technologie puissante, encore faut-il l'implanter dans toutes ses fonctionnalités et de bien évaluer les coûts d'une implantation complète vis-à-vis des autres technologies. PDF est facile à utiliser pour publier quelques petits textes rapidement; il n'en est pas de même pour implanter tout un système documentaire basé sur cette technologie. Dans notre prochaine chronique nous examinerons, comme autre choix technologique, le SGML et nous utiliserons, pour illustrer notre propos, ce qui se fait au projet Making of America.
|