ChatGPT.jpg

La performance de ChatGPT a-t-elle reculé entre 2022 et 2023? C’est l’hypothèse qui circulait l’été dernier lorsque des programmeurs comparaient les versions 3.5 et 4. Une recherche récente tend à confirmer l’intuition de certains de ces experts: le robot « performe » moins bien sur les tâches qui diffèrent de celles pour lesquelles ses concepteurs l’ont entraîné. 

Autrement dit, il serait très bon pour refaire ce qu’on lui a déjà fait faire, mais moins bon quand il lui faut improviser. Or, dès le moment où un tel agent conversationnel est rendu accessible au public, il se retrouve inévitablement en train d’improviser.

Une recherche publiée le 26 décembre sur le serveur de prépublication ArXiv appelle ça de la « contamination des tâches »: pour le commun des mortels, la capacité de ChatGPT à fournir un texte en une fraction de seconde semble inégalée. Mais cette capacité serait « contaminée » par les tâches sur lesquelles ses concepteurs l’ont déjà entraîné, ou sur lesquelles ils ne l'ont pas entraîné. Il serait un peu, compare l’auteure d’un guide sur les usages de l’IA dans l’enseignement de l’écriture, comme un étudiant qui a une bonne note seulement lorsqu’il a « déjà étudié les réponses de plusieurs tests ». 

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

Une personne normale, commente sur Twitter l’entrepreneur en « intelligence machine » Chomba Bupe, s’améliore au fur et à mesure qu’elle solutionne des problèmes. Alors qu’en comparaison, ces « grands modèles de langage » (large language models, ou LLM) ne deviennent pas automatiquement meilleurs et ce, « parce qu’ils sont figés dans le temps ». 

L’été dernier, les experts citaient parmi les exemples de mauvaises performances dans la version 4 (par rapport à la version 3.5) une augmentation du nombre de réponses erronées, une « logique affaiblie », des informations perdues et des difficultés à suivre les instructions. 

Faut-il vraiment y voir une « dégradation » de ses capacités, ou simplement un « glissement » dans le « comportement » de ChatGPT? Le débat se poursuit, mais dans les deux cas, cela pose un problème : le manque de transparence de la part des développeurs a pour conséquence qu’il peut s’avérer risqué de construire des applications qui s'appuient sur un système comme ChatGPT, aussi longtemps qu’on ignorera de quelle façon les « performances » vont évoluer dans le futur.

Je donne