La tendance des agents comme ChatGPT à donner de fausses réponses ne s’améliore pas, et on ne sait pas pourquoi. Il y a même un débat parmi les experts quant à savoir si sa performance stagne, ou si elle empire.
À de mêmes problèmes mathématiques, ChatGPT a donné des réponses complètement différentes, note une équipe de l’Université Stanford, en Californie, qui a comparé, en mars et juin de cette année, GPT 3.5 et GPT 4. Ces chercheurs ont testé ces différentes versions du « robot » de la compagnie OpenAI: résolution de problèmes mathématiques, réponses à des questions « sensibles », ou « raisonnement visuel ».
Les résultats, résume le magazine de vulgarisation New Scientist, étaient « inconsistents ». En mathématiques, ChatGPT 4 a moins bien répondu en juin qu’en mars, tandis que la performance de la version 3.5 s’est, elle, améliorée. Et ce, avec des écarts qui ne semblent pas logiques: 98% de bonnes réponses pour la version 4 en mars contre… 2,4% en juin. Et un bond de 7,4% à 87% pour l’autre version.
Abonnez-vous à notre infolettre!
Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!
La tache consistait à demander au robot si un chiffre était un nombre premier (un nombre qui ne peut être divisé que par 1 et par lui-même). Deux chercheurs de l’Université Princeton qui ont commenté ces résultats —pré-publiés le 18 juillet— écrivent toutefois que ceux qui en concluent à une dégradation de la performance dans le temps confondent la « capacité » (à accomplir un travail) et le « comportement ».
« Un modèle qui a la capacité peut ou ne peut pas montrer cette capacité en réponse à une demande spécifique. »
Leur interprétation est que ChatGPT ne « vérifiait » pas s’il s’agissait d’un nombre premier, au sens où un humain l’aurait fait: autrement dit, il ne faisait pas de calcul. Ils ont pour leur part demandé au robot d’identifier des nombres composés: tout nombre qui n’est pas un nombre premier, à l’exception de 0 et 1. Cette fois, la performance a été nettement supérieure.
Il n’empêche, reconnaissent-ils, que l’article de Lingjiao Chen et ses collègues de Stanford « a touché une corde sensible ». Ce n’est pas la première fois que, depuis ce printemps, des experts allèguent que le robot voit sa performance empirer dans le temps. Et que ces experts aient raison ou non, la question des « mises à jour » du robot pour corriger les erreurs ou procéder à toutes sortes « d’ajustements », sera un lourd fardeau économique pour toute future compagnie, à plus forte raison une compagnie émergente comme OpenAI.
Témoignant de ces difficultés qui pointent à l’horizon, OpenAI annonçait discrètement, le 20 juillet, qu’elle mettait fin au développement de son « outil de détection d’IA ». Cette application avait été présentée en janvier comme la réponse aux craintes de plusieurs, incluant des enseignants: un outil théoriquement capable de distinguer un contenu généré par une IA comme ChatGPT, d’un contenu généré par un humain. La compagnie justifie la fin des essais par le faible taux de réussite de l’outil.