ChatGPT-conversation.jpg

Selon les chercheurs de la compagnie OpenAI, créatrice de ChatGPT, la cause du grand nombre d’erreurs commises par leur robot —et ses semblables des autres compagnies— est facile à identifier. Mais pas facile à régler, si OpenAI veut conserver son modèle d’affaires.

Se référant au mot « hallucinations » qu’emploient les informaticiens pour désigner les moments où ces agents conversationnels donnent une réponse fausse, la recherche, prépubliée le 5 septembre, conclut que ces « larges modèles de langage hallucinent parce que l’entraînement standard et les procédures d’évaluation récompensent le fait de deviner, davantage que la reconnaissance d’incertitude ».

En clair, il faut se rappeler que ChatGPT et ses semblables sont entraînés —à partir d’immenses banques de données de textes ou d’images— à prédire ce que sera le prochain mot dans une phrase ou le prochain pixel dans une image. Dans ce processus « d’entraînement », ChatGPT obtient des informaticiens une bonne note —une « récompense », dans leur jargon— s’il a obtenu une bonne réponse et une mauvaise note dans le cas contraire. Qui plus est, s’il répond « je ne sais pas », il obtient aussi une mauvaise note.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

Enfin, soulignent les quatre auteurs de la recherche —trois d’OpenAI et un de l’Université de technologie de Georgie— ChatGPT obtient cette bonne note, même s’il est tombé sur la bonne réponse par pur coup de chance. Par conséquent, il peut être comparé à une personne qui, plutôt que d’avoir l’honnêteté de répondre de temps en temps « je ne sais pas », se risque systématiquement à donner une réponse, sans se soucier qu’elle puisse être fausse. 

Cela crée ce que les auteurs appellent carrément une « épidémie » de pénalisation des réponses honnêtes: il est plus « rentable » pour lui de prendre une chance à tous les coups, avec les résultats que l’on connaît. 

De fait, ça ne semble pas s’améliorer: selon l’édition d’août 2025 de l’évaluation mensuelle de 10 chatbots que mène l’organisme américain Newsguard, ceux-ci ont donné des mauvaises réponses dans 35% des cas, lorsqu’on les interrogeait sur des sujets d’actualité controversés. Les résultats n’étaient que de 18% en août 2024. 

Newsguard rappelle que dans la dernière année, la plupart de ces chatbots ont acquis la capacité de fouiller le web en temps réel, alors qu’à leurs débuts en 2023, leur base de données pouvait avoir un an de retard sur l’actualité. Résultat, « des acteurs malintentionnés exploitent » cette nouveauté en inondant le web ou les réseaux sociaux d’informations fausses, dans l’espoir d’influencer de cette façon les réponses des chatbots

Pour les gens d’OpenAI, la solution semble évidente : il faudrait « récompenser » ChatGPT pour son « honnêteté », ou plus exactement pour le fait d’admettre qu’il est devant une incertitude quant à la bonne réponse. Par exemple, l’agent conversationnel pourrait être programmé pour ne répondre que s’il a un taux de confiance de plus de 75%, en plus d'avoir une mauvaise note plus élevée quand il donne une mauvaise réponse.

Mais la compagnie ira-t-elle dans cette direction… sachant qu’un robot plus « honnête » aurait le désavantage d’être moins « efficace » aux yeux de ceux qui l’utilisent déjà en remplacement des moteurs de recherche?

Autrement dit, aller dans cette direction pourrait carrément nuire au modèle d’affaires. Si, par exemple, ChatGPT se mettait à dire « je ne sais pas » à 30% des questions, —une estimation possible à la lecture de la recherche— les usagers qui ont l’habitude de recevoir des réponses empreintes de certitudes pourraient choisir d’aller chez le concurrent. 

Comme le résume le professeur à l’École des sciences mathématiques et physiques de l’Université de Sheffield, Wei Xing, cette recherche d’OpenAI « éclaire involontairement une vérité inconfortable: l’incitatif monétaire qui pousse le développement » de ce marché de l’IA « reste fondamentalement mal aligné avec la réduction des hallucinations. Jusqu’à ce que ces incitatifs changent, les hallucinations vont demeurer. »

Je donne