La Lettre du bibliothécaire québécois
Numéro 11 - Avril / Mai 1998


Retour au sommaire du numéro 11


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois


5. DOSSIER

MÉTACHRONIQUE XML

par Guy Teasdale, le 15 mai 1998 < guy.teasdale@bibl.ulaval.ca >

 

Avez-vous remarqué combien tout est "méta" sur Internet par les temps qui courent?

Une recherche bête du préfixe "meta" dans Hotbot génère 654 000 occurrences! On peut trouver du MetaHTML, des metaFAQ, des méta-listes, des méta-sites et en creusant un peu sûrement des métatarses! On l'emploi aussi lorsqu'on parle des métamoteurs de recherche (moteurs de recherche qui retransmettent nos requêtes vers une série de moteurs de recherche). Bientôt vos ados vont sûrement vous répondre "c'est méta" pour signifier ce qu'ils expriment présentement avec l'expression "c'est hot". Et justement, ma chronique de ce mois-ci traite d'un sujet de plus en plus "hot" en bibliothéconomie : les métadonnées. (Le mot metadata génère 83151 occurrences... il nous faudrait des métadonnées pour filtrer tout ça, ne croyez-vous pas? Mais commençons par le commencement).

Meta signifie "après". On croit à tort que Meta signifie "au-delà de" en pensant, sans doute, à La Métaphysique d'Aristote, ce qui confère une petite aura savante aux mots qui font usage de ce préfixe et à leur vogue actuelle. Or, d'après Universalis, il semble que le célèbre traité d'Aristote n'ait été nommé ainsi que parce qu'il venait après La Physique dans l'édition d'Andronicos de Rhodes. Je me suis donc permis d'intituler cette chronique métachronique XML, non pas qu'elle soit "savante" mais bien parce qu'elle fait tout simplement suite à ma chronique XML du mois passé. Si plusieurs articles traitant de XML insistent sur son importance dans le commerce électronique, je suis persuadé que XML est également un développement très important au niveau bibliothéconomique et c'est pourquoi la LBQ y revient à nouveau. Mais, quel est alors le lien entre XML et les métadonnées?

XML sera le support de transport. Pour utiliser un langage bibliothéconomique, on pourrait résumer en disant que le format MARC définit la syntaxe de transport et que les RCAA sont les règles qui régissent l'énumération des métadonnées; que les RCAA sont utilisées pour définir ce qui va dans MARC. Voyons donc d'abord comment seront transportées ces métadonnées avant de voir ce que sont les métadonnées.

Le Consortium W3C est un regroupement de compagnies qui préside au développement du World Wide Web, et se trouve sous la direction de Tim Berners-Lee, co-créateur du World Wide Web. Ils sont donc assez bien placés pour voir l'avenir du Web. Or, dans la boule de cristal du W3C, on peut voir que le "cadre" (framework) qu'ils destinent à recevoir les métadonnées des documents numérisés présents sur le Web est le "Resource Description Framework" (RDF) et que le RDF repose sur une structure XML. D'où son importance bibliothéconomique.

Le RDF est donc un ensemble de conventions qui supportera l'interopérabilité entre des applications qui échangeront des métadonnées. La syntaxe sera exprimée en langage XML mais la sémantique sera définie par les besoins des usagers. RDF est un cadre; il peut recevoir les métadonnées comme Dublin Core, toutes les autres normes de métadonnées et également les métadonnées qui seront définies dans quelques années pour répondre à d'autres besoins de recherche documentaire; le cadre sera déjà là pour les recevoir. La sémantique de toutes ces métadonnées s'exprimera donc dans une syntaxe normalisée, en XML et dans un cadre RDF. En ayant une sémantique normalisée, il deviendra possible de traiter ces données par machine: on aura des zones d'information précises où chercher. Le Web deviendra non seulement lisible par machine mais également intelligible par machine!

Comme toute cette structure repose sur XML, rappelons qu'aucun caractère binaire propriétaire, ou si vous préférez, aucun caractère non affichable sur un écran n'est toléré à l'intérieur d'un fichier XML (ou SGML). Dans 20 ans ces fichiers seront donc toujours lisibles par l'humain (au moyen de n'importe quel éditeur de texte simple). Ils seront d'autant plus lisibles que les balises utilisées pour les métadonnées sont généralement très descriptives (DC.author ou DC.title par exemple).

Dernière précision à propos de RDF: il sera possible dans l'en-tête du fichier d'intégrer et d'emboîter (principe des poupées russes) plusieurs normes de métadonnées. Nous n'aurons qu'à indiquer, au début du fichier XML, l'adresse URL de la localisation de la norme que nous utilisons et notre logiciel de recherche saura, par exemple, que DC:title réfère au Dublin Core ou que DDC:025.316 réfère à la classification Dewey ou à tout autre système de description ou de classification des ressources.

C'est bien beau tout cela, mais qu'est-ce au juste que des métadonnées?

Les métadonnées sont simplement des "données structurées à propos des données", une description du document, parfois un substitut ("document surrogate"). Un bibliothécaire parlerait de catalogage. La petite fiche de carton 3 par 5 de nos catalogues de bibliothèques d'antan contenait donc des métadonnées! Heureusement qu'elle l'ignorait: elle aurait bien enflé jusqu'à faire du 5 par 7 ;-) Ces petites fiches permettaient trois (3) accès aux documents : auteur, titre, sujet. Les métadonnées des documents électroniques auront de multiples autres usages.

Nous avons absolument besoin de métadonnées car il est illusoire de penser cataloguer une masse aussi imposante qu'Internet selon les normes traditionnelles des bibliothèques (même si il y a eu quelques tentatives en ce sens et que le format MARC et les RCAA2 peuvent effectivement être utilisés pour décrire les ressources d'Internet). C'est trop long: il faut bien se rendre compte qu'après 25 ans d'efforts conjoints de milliers de bibliothèques, le catalogue d'OCLC ne comporte que 40 millions de notices (on parle ici de documents traditionnels) tandis que 5 ans après l'apparition du premier baladeur graphique du Web, on compte plus de 320 millions de pages Web (revue Science, 1998). D'après Stuart Weibel, chercheur chez OCLC, on peut estimer à 70 $ le coût moyen de catalogage. Alors donnez-moi la bagatelle de $ 22 400 000 000 et je vous catalogue Internet demain. Remarquez que, vu d'un autre angle, ça pourrait représenter une solution au chômage. Si on prend pour hypothèse qu'un catalogueur peut faire un traitement complet (original et dérivé) en format MARC de 10 documents par jour et qu'il y a environ 250 jours ouvrables dans une année, ce même catalogueur aura traité 2 500 documents au bout d'une année. Donc, pour traiter Internet en 1 an, j'aurai besoin de (320 millions divisé par 2500) 128 000 catalogueurs! Le problème est qu'on estime (toujours dans Science) que le nombre de pages dans Internet va subir une augmentation de 1000 % de son contenu d'ici quelques années : nous sommes donc devant une version moderne du mythe de Sisyphe.

Les métadonnées représentent un espoir réel de traitement de cette masse sans cesse mouvante et sont donc un développement particulièrement important, entre autres pour l'édition savante en réseau, ne serait-ce que pour éviter que des requêtes de recherche, aussi simples soient-elles, ne génèrent 654 000 occurrences comme la requête mentionnée ci-haut.

Quels seront les usages des métadonnées?

- Recherche d'information. Les moteurs de recherche vont avoir de meilleures performances si on leur donne une structure où naviguer (des zones, des champs comme dans une base de données).

- Les" agents intelligents" pourront travailler également sur des structures plus stables et surtout plus précises que HTML.

- On pourra mieux décrire le contenu et les relations entre les différents fichiers d'un site Web

- Possibilité de décrire des collections de documents qui représentent un document logique unique.

- Possibilité de classer le contenu suivant un degré de difficulté ou un public cible.

- Possibilité de décrire les droits de propriété intellectuelle ou les droits d'accès à des pages Web.

- Possibilité d'encoder une signature numérique pour valider les textes circulant sur Internet.

Le W3C est en train de normaliser plusieurs applications qui permettront ces contrôles sur les documents électroniques. La tendance lourde, on l'a vu, est de construire ces normes à l'aide du langage de balisage XML. Et quand je parle de tendance lourde je veux dire TRÈS lourde: il est question que la structure interne de la prochaine version du traitement de texte Word soit écrite en XML. L'endossement de Microsoft envers XML est un choix stratégique ferme.

Si le Consortium W3C s'oriente vers une solution XML pour les métadonnées et que les fabricants de moteurs de recherche emboîtent le pas aussi fermement, on peut présumer que d'ici peu, ils développeront des applications compatibles et qu'il sera possible de chercher intelligemment sur Internet grâce aux métadonnées balisées en XML.


Les métadonnées à surveiller

Le Dublin Core (DC) est la norme la plus connue. (Le Dublin Core prévoit l'utilisation de 15 balises pour décrire "bibliographiquement" une ressource électronique sur Internet). Au fait, Dublin Core n'a pas été créé en Irlande. Il s'agit de Dublin, Ohio!

- DC est donc une norme de métadonnées descriptive servant à la description (et donc à la découverte) des ressources sur Internet.

- Tous les éléments sont optionnels.

- Tous les éléments sont répétables.

- DC est extensible. DC est un plus petit dénominateur commun mais permet aussi, si on le désire, d'avoir une description plus riche, au moyen de sous-éléments.

- DC est interdisciplinaire.

- DC est international (10 langues actuellement).

Les 15 éléments de Dublin Core sont décrits en français à
[ http://www-rocq.inria.fr/~vercoust/METADATA/DC-french.html ] et le site du Dublin Core est à [ http://purl.oclc.org/metadata/dublin_core/ ].

DC est extensible grâce à un raffinement possible de sa sémantique sur le modèle des poupées russes. Par exemple, un des éléments de description du Dublin Core est l'élément "Creator". Dublin Core permet de raffiner cet élément en ajoutant des sous-éléments comme "Given Name", "Surname", "Affiliation", "Contact Info", etc. Pour atteindre un consensus international, il fallait s'entendre sur un ensemble de base (le "core" de Dublin Core) mais libre à nous d'ajouter des précisions selon une façon normalisée.

DC est également extensible sur le modèle des blocs LEGO, c'est à dire modulaire. Il est donc possible d'ajouter des éléments pour supporter la description de caractéristiques importantes localement ou des ensembles de métadonnées complémentaires. DC a entrepris le processus de normalisation auprès de NISO (USA) et on pense l'entreprendre aussi auprès de l'ISO (international).

Mais il existe d'autres métadonnées en cours de rédaction ou en usage, par exemple le PICS (qui permettra de classer le niveau du document ou son contenu moral, ou autre), le P3P (qui permettra de coder son niveau de diffusion ou de secret), le TeiHeader de la DTD TEI (le header sert à cataloguer le document électronique), la DTD EAD (qui sert à décrire des documents d'archives) pour n'en mentionner que quelques unes. Après avoir établi que les métadonnées seront en XML, nous reviendrons à ces différents modèles plus en détail dans de prochains numéros de la LBQ.


P.S. Et PDF?

En post-scriptum, un petit commentaire sur PDF. On l'a vu, PDF est un format orienté présentation et, jusqu'à présent, n'est pas conçu pour recevoir des métadonnées. Il est bien possible d'inclure les "propriétés" d'un document PDF à l'intérieur du fichier, mais ces propriétés ne sont pas comparables à des métadonnées normalisées ; ce sont des éléments de description bibliographique, certes, mais qui restent à un niveau propriétaire.

Donc, pour normaliser nos métadonnées en PDF, nous devrions créer un fichier à part du fichier PDF comprenant ces éléments d'information alors qu'en XML, les métadonnées circuleront AVEC le document numérisé de façon normalisée.

 

Sources

Berners-Lee, Tim. W/C Data Formats : W/C Note 29-October-1997.
[ http://www.w3.org/TR/NOTE-rdfarch ]

Lange, Holley R., B. Jean Winkler. "Taming the Internet : Metadata, a Work in Progress" dans Advances in Librarianship, vol. 21. New York, Academic Press, 1997, p. 47-72.

Lawrence, Steve, C. Lee Giles. "Searching the World Wide Web", Science, vol 280, number 5360, p. 98. J'ai tiré les informations du compte-rendu de TechWeb News
[ http://www.techweb.com/wire/story/TWB19980403S0012 ], mais l'article a rapidement été repris par toutes les chaînes de nouvelles.

Weibel , Stuart. "Metadata Landscape : Conventions for Semantics, Syntax and Structure in the Internet Commons", conférence prononcée le 12 mai 1998 au congrès de l'Association Canadienne-Française pour l'Avancement des Sciences (ACFAS), Université Laval (non publiée).


Pour en savoir plus

Le dernier numéro de D-Lib Magazine, publié le 15 mai, comporte un article sur le RDF: "An Introduction to the Resource Description Framework", écrit par Eric Miller, chercheur chez Online Computer Library Center, Inc.(OCLC)
[ http://www.dlib.org/dlib/may98/miller/05miller.html ]

Pour revenir au sommaire du numéro onze...