La Lettre du bibliothécaire québécois
Numéro 17 - Avril-mai 1999


Retour au sommaire du numéro 17


Retour à la page d'accueil de la LBQ


Ecrivez à la LBQ



L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois



9. DICTIONNAIRES EN TOUS GENRES


LEXICAL FREENET: CONNECTED THESAURUS

par Diane Lanteigne [ lanteigned@videotron.ca ]


Aimeriez-vous pouvoir interroger, à l'aide d'une seule interface, un dictionnaire de synonymes, un dictionnaire de rimes, un dictionnaire biographique, une base de données de cooccurrents, et d'un clic lancer une recherche de nouvelles, de citations, de fichiers image ou de fichiers son chez Lycos? C'est ce que permet le Lexical FreeNet
[ http://www.link.cs.cmu.edu/lexfn/ ], une réalisation de Doug Beeferman du Link Group at Carnegie Mellon University.

Si le Lexical FreeNet est le plat principal du menu, on peut également goûter en amuse-gueule, au Language Identifier [ http://www.link.cs.cmu.edu/dougb/ident-doc.html ]; en entrée, au Cinema FreeNet [ http://www.link.cs.cmu.edu/cinfn/ ]; et en guise de dessert, au Semantic Rhyming Dictionary [ http://www.link.cs.cmu.edu/dougb/rhyme-doc.html ], tous de Monsieur Beeferman et tous accessibles à partir de la page principale du Lexical FreeNet.

Nous vous présentons ci-après le menu, les ingrédients et la note.

 

En amuse-gueule: le Language Identifier

Le Language Identifier [ http://www.link.cs.cmu.edu/dougb/ident-doc.html ] vous permet d'entrer un paragraphe, une phrase, une expression ou un mot et vous présente, par ordre de probabilité, la langue à laquelle ces chaînes de caractères peuvent appartenir. Le Language Identifier a été mis à l'épreuve avec les diverses traductions du poème Jabberwocky de Lewis Carroll
[ http://www76.pair.com/keithlim/jabberwocky/translations/index.html ].

Quelques résultats:

Andrea Bocelli = Italien 1, Français 2, Espagnol 3, Anglais 4
Diane Lanteigne = Italien 1, Français 2, Espagnol 3, Anglais 4

Un amuse-gueule amusant, sans plus.

 

En entrée: le Cinema FreeNet

Vous voulez savoir tous les liens qui unissent acteurs, réalisateurs, producteurs et films? Essayez le Cinema Freenet [ http://www.link.cs.cmu.edu/cinfn/ ]. Vous entrez une expression source et une expression cible et on vous donne tous les liens (mettant en vedette, réalisé ou produit par) unissant ces deux expressions. Entrez une seule expression et demandez toutes les entrées reliées à celle-ci. Quelles entrées? Celles qui sont contenues dans The Internet Movie Database [ http://www.imdb.com/ ]. Plus de 82 000 liens films-producteurs, 120 000 liens films-réalisateurs et 1 100 000 liens films-vedettes.

Un exemple:

Source: Keaton, Buster
Cible: Chaplin, Charles

Si vous ne le saviez déjà, vous apprendrez que Buster et Charles ne sont apparus ensemble que dans un seul film: Limelight. Que Buster Keaton a joué dans Allez oop qui mettait aussi en vedette Harry Myers qui, lui, a joué dans City Lights où jouait également, il va sans dire, Chaplin, etc. Cliquez sur n'importe quel élément des ces chaînes de liens et vous aurez toutes les entrées reliées à cet élément chez Internet Movie Database.

Une entrée consistante. Dommage que, bien qu'elle en exploite les données, elle ne soit pas liée directement à l'Internet Movie Database.

 

Comme plat principal: le Lexical FreeNet

Sept types de requêtes sont possibles:

Avec deux expressions:

"Connection"
Intersection
"Rhyme coercion"

Avec une expression:

"Show related"
"Show reachable"
"Spell check"
"Substring"

Optionnellement, on peut choisir quels types de liens seront recherchés:

Sémantiques: cooccurents, synonymes, antonymes, genre-espèce, tout-partie
Phonétiques: rimes, consonnances
Biographiques : occupation, nationalité, année de naissance, année de décès, alias
Anagrammes

 

Relations entre deux expressions: "connection"

Connection: trouve les connexions entre deux mots

Alcohol et violence donne

Alcohol cooccurre avec abuse qui cooccure avec violence
Alcohol
est synonyme de drink qui est un générique de kill qui cooccurre avec violence???
Alcohol cooccurre avec firearms qui cooccurre avec gun qui cooccurre avec violence

Drink est un générique de kill ????

Le lexical FreeNet a les défauts de ses sources. Aussi, pour les relations genre-espèce, se fie-t-il sur WordNet. Or, dans cette base de données lexicales, on trouve, sous la rubrique Drink, sens 10 :

toss off, bolt down, belt down, pour down, down, drink down, kill -- (drink down entirely; "He downed three martinis before dinner"; "She killed a bottle of brandy that night")

Ce sont là les chemins les plus courts (shortest paths). Vous en voulez plus : cliquez sur more paths, une fois, deux fois, trois fois et vous verrez les liens entre:

Alcohol drugs kids violence
Alcohol drugs gang violence
Alcohol drug crime violence
Alcohol abuse children violence
Alcohol abuse battered violence
Alcohol abuse domestic violence
Alcohol abuse victim violence
Alcohol weaver shot violence
Alcohol enforcement police violence
Alcohol enforcement crimes violence
Alcohol driving stop violence
Alcohol fraternity society violence
Alcohol perry force violence

Je m'arrête là, mais ce n'est pas tout. Je peux cliquer sur n'importe quelle icône indiquant une relation et j'obtiens aussitôt les résultats d'une recherche chez Lycos d'une relation de proximité entre les deux termes reliés. Je clique sur n'importe quel terme et je vois les termes reliés.

Je peux aussi demander d'inverser l'ordre de la requête. J'obtiens alors (tous en relation de cooccurrence):

Violence abuse alcohol
Violence guns firearms alcohol
Violence gun waco alcohol

Puis (more paths):

Violence killed David Korech alcohol
Violence streets drugs alcohol
Violence kill drink alcohol (ici kill spécifique de drink et drink synonyme de alcohol)

 

Relations entre deux expressions: intersection

Intersection : montre les mots "atteignables" conjointement par les deux mots à l'intérieur de X liens

Résultat: 50 mots "atteignables" conjointement par les deux mots à l'intérieur de 2 liens

 

Relations entre deux expressions: "rhyme coercion"

Rhyme coercion : trouve des rimes ou des consonnances pour unir les mots

3 couplets:

alcohol raid
violence rage

alcohol sobriety
violence society

alcohol booze
violence abuse

 

Requête avec une seule expression: "show related"

Show related : trouve les mots reliés au premier mot

103 relations avec Alcohol

Je peux aussi, à partir de cet écran demander, le cas échéant, une définition, des citations, des nouvelles, des fichiers image ou son correspondant au mot-clé.

 

Requête avec une seule expression: "show recheable"

Show recheable : trouve les mots "atteignables" en X liens (2 par défaut)

507 mots - si je clique sur l'un des mots, je vois les mots reliés à celui-ci.

 

Requête avec une seule expression: "spell check"

Spell check : mots qui ont un certain nombre de lettres en commun???

En tous cas, 36 mots

 

Requête avec une seule expression: "substring"

Substring : mots ou expressions contenant le premier mot en sous-chaîne

Là aussi, 36 résultats (mais c'est un hasard)

 

Requête avec une seule expression: "superstring"

Superstring : mots contenus dans le premier mot (option disponible uniquement après avoir fait une première requête)

12 résultats (incluant les lettres simples a l c o h)

Tiens, cliquons sur la "chaîne de caractères" a. Résultats:

amp, ampere, angstrom, angstrom unit, antiophtalmic factor, axerophthol, group a, type a, vitamin a, ma, micromicron, milliampere, picometer, picometre, abamp, abampere, micromillimeter, micromillimetre, millimicron, nanometer, nanometre, blood group, blood type, current unit, fat-soluble vitamin, metric linear unit, dehydroretinol, retinol, vitamin a1, vitamin a2

 

Anagrammes

Jouons un peu et demandons les anagrammes de diane :

Adine
Edina
Andie
Nadie

Des quatres mots, lorsque je demande la définition, un seul en a une dans le American Heritage® Dictionary of the English Language, Third Edition chez Lycos. C'est Edina, une ville du Minnesota de 46,070 habitants ;-(

 

Biographies

Bien sûr, demander des informations biographiques sur Diane ne donne rien, mais avec Diana, j'ai la date de naissance, la date de mort, l'occupation (princess) de la dame et les cooccurrents: 1981, accident, automobile, charles, died, edward john spencer, emad mohamed al-fayed, henri paul, henri charles albert david, paris, prince, trevor rees jones, wife, william arthur phillip louis.

 

Enfin, le dessert: The Semantic Rhyming Dictionary

Types de requêtes possibles:

rimes riches
dernière syllable seulement (near rhymes)
consonnances
homophones
"semantic sibling"
synonymes
définition
mots reliés
orthographe (spell check)
images

Options :

Exclure les termes obscurs
"Streamlined results" (présente les résultats de sorte qu'on puisse relancer immédiatement une nouvelle requête sur chacun des mots trouvés)

En réponse à la requête: mots simples et syntagmes présentés par nombre de syllabes.

On vous propose encore une fois la recherche de citations, nouvelles, fichiers son ou image chez Lycos ou la consultation de tous les mots reliés (ce qui vous ramène au Lexical Freenet). D'un clic, on peut voir la définition des mots trouvés dans le American Heritage® Dictionary of the English Language, Third Edition chez Lycos.

 

Les ingrédients: sources exploitées par le Lexical Freenet

WordNet 1.6 [ http://www.cogsci.princeton.edu/~wn/ ] base de données lexicales développée par the Cognitive Science Laboratory at Princeton University pour les relations sémantiques et qui comprend:

250 000 relations de synonymie.
260 000 relations genre-espèce
24 000 relations tout-partie
19 000 relations d'antonymie

TTK 1.0 [ http://www.cs.cmu.edu/~aberger/software.html ] The Trigger Toolkit qui recense pas moins de 321 000 cooccurrents.

Vous voulez en savoir plus sur le fonctionnement du Trigger Toolkit et la recherche de cooccurents via le Web : [ http://bobo.link.cs.cmu.edu/wordsets/ ]. Très intéressant.

 

The CMU Pronouncing Dictionary v. 06i2 [ http://www.speech.cs.cmu.edu/cgi-bin/cmudict ] de The Carnegie Mellon University pour les rimes

4 millions de rimes
1 million de consonances.

 

The Biographical Dictionary [ http://www.s9.com/biography/index.html ] de S9.com. Plus de 27 000 biographies.

 

La note, taxes et service compris

Il n'en coûte rien pour essayer le Lexical FreeNet et vous y trouverez sûrement plus de plaisir qu'à lire cet article. L'interface est très bien faite, facile à comprendre, facile à utiliser; les temps de réponse, très courts.

En tout temps, on peut restreindre la recherche aux mots courants, et/ou aux noms, et/ou adjectifs, et/ou verbes, et/ou adverbes

Ce n'est sûrement pas un thésaurus au sens bibliothéconomique du terme mais une source inépuisable d'inspiration pour l'écrivain, le curieux, le sociologue, le sémanticien, l'amoureux des mots et le cinéphile.

 

Y a-il un équivalent en français?

Non. Ce qui s'en approche le plus, et encore, est le dictionnaire des synonymes [ http://elsap1.unicaen.fr/dicosyn.html ] de l'E.L.S.A.P. (Étude Linguistique de la Signification à travers l'Ambiguïté de la Phrase !!!).

De 7 dictionnaires classiques, on a extrait 410 000 relations synonymiques regroupées sous quelque 54 000 entrées.

"Le traitement informatique est simple dans son principe : on construit d'abord le graphe de la relation de synonymie entre les synonymes du mot-vedette, puis on recherche les sous-graphes complets de ce graphe ; ceux-ci (appelés "cliques" dans la théorie des graphes) nous donnent les sens élémentaires dont nous avons parlé. S'il n'y a qu'une seule clique dans le graphe (qui est par conséquent complet), on dit alors que le mot-vedette est monosémique. De plus, si nous calculons la fermeture transitive du graphe (si A est synonyme de B et B synonyme de C, alors A est synonyme de C), nous obtenons un nouveau graphe dont le nombre de cliques nous permet de dire si le mot-vedette est polysémique (une seule clique) ou homonymique (plusieurs cliques)."

Simple? À vous de juger.

Et bon appétit.

 

Pour revenir au sommaire du numéro dix-sept...