Avez-vous remarqué que l’on vous demande souvent votre avis sur la qualité d’un service reçu? Prenez l’exemple d’un appel téléphonique via Skype. Autant il est facile de quantifier les réponses si le consommateur doit cocher une case, autant l’analyse de la réponse est complexe s’il s’agit d’une phrase telle que « Au début, ça allait, mais ça a coupé et j’ai dû recommencer :( ».

Convertir un texte court en un indice de satisfaction quantifiable et constituer un lexique affectif en français étaient les défis qu’a relevés Alexander Pak dans le cadre de son doctorat au laboratoire LIMSI-CNRS de l’Université de Paris-Sud. Ses résultats ont été présentés au récent congrès TALN – Traitement Automatique du Langage Naturel — à Montréal.

Pour ce faire, l’étudiant a constitué une base de données composée de 500 000 messages Twitter, comportant des émoticônes positives telles que :), :-) ou :-D ou des négatives comme :( ou :-(. Partant du principe que les émoticônes sont représentatives de l’humeur globale de l’émetteur du message, il a séparé ce corpus de textes en deux catégories, les messages positifs et les messages négatifs et analysé la fréquence d’apparition des 8000 mots les plus utilisés, verbes, adjectifs et noms compris.

En associant à chaque mot une valeur émotionnelle, il a démontré qu’il est possible de discriminer de manière automatique les messages positifs et les messages négatifs sur la base des émoticônes et de constituer, à partir d’une grande quantité de messages courts de type Twitter, un lexique affectif, quelle que soit la langue utilisée. C’est ce qu’il a d’ailleurs expérimenté en créant un lexique émotionnel en chinois sans parler ni lire un mot de chinois! L’intérêt d’un tel lexique est de pouvoir analyser de manière automatique les opinions, sentiments et émotions exprimés par les internautes dans la langue de leur choix.

Encore faut-il que les messages soient courts et explicites! Les messages sarcastiques tels que « hum, efficace votre serveur vocal :( », ou l’usage de la politesse « Je suis dans l’obligation de vous faire part de ma déception concernant l’efficacité de votre serveur vocal. Bonne journée ;) » brouillent les pistes et soulignent les limites de la catégorisation de l’expression humaine. Espérons que la communication homme-machine ne déteigne pas sur la communication interpersonnelle!