Dans la dernière année, on a pris conscience que les IA semblaient très aptes à s’ajuster pour dire à leur vis-à-vis humain ce qu’il veut entendre, ce qui pose du coup des questions sur la fiabilité de leurs réponses. Une nouvelle recherche pointe à quelle fréquence ces vis-à-vis humains peuvent changer les « croyances » de l’IA.
À lire également
Pour être exact, on ne peut affirmer que l’IA « croit » vraiment en quelque chose. Les chercheurs emploient en cours de route, dans leur étude prépubliée, l’expression « croyance déclarée » (en anglais, stated belief): autrement dit, la ou les réponses données par l’IA à une requête dans laquelle l’humain lui demandait une prise de position sur un sujet.
Mais c’est la suite qui intéressait les chercheurs : à quel point, dans les échanges avec les humains, l’IA peut-elle altérer ses conclusions ou sa « compréhension du monde telle qu’elle se manifeste dans ses réponses »?
Abonnez-vous à notre infolettre!
Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!
À cette fin, ils ont testé les chatbots de cinq compagnies, dont DeepSeek, Grok et la version 5 de ChatGPT, avec 51 requêtes: par exemple, le robot est-il d’accord avec la décision d’interdire les plastiques à usage unique; ou avec la décision d’une unité de soins intensifs d’allouer à d’autres patients les respirateurs artificiels pour sauver davantage de vies.
Ensuite, les chercheurs ont soit lancé un débat avec une personne défendant l’opinion opposée, soit demandé au chatbot de lire davantage de textes sur la question.
À la fin du processus, GPT-5 avait changé sa prise de position dans près des trois quarts des cas (73%). Les débats à eux seuls l’avaient amené à changer de position dans plus de la moitié des cas (54%). Le fait de lire un peu de contexte avait amené Grok à changer d’avis une fois sur quatre (27%).
En supposant que « croyance » soit le bon mot à utiliser, on peut donc parler de « croyances très malléables », selon l’expression utilisée par ces chercheurs de trois universités américaines. « Cela expose des préoccupations fondamentales quant à la fiabilité » à long terme de ces « larges modèles de langage »: dans un contexte de travail où ils seraient utilisés en continu, on pourrait voir « la confiance des usagers s’accumuler au gré des interactions, alors même que des dérives cachées dans les croyances s’accumulent ». Leur « malléabilité », si elle se confirme dans d’autres études, « peut les rendre peu fiables après un usage prolongé ».




