Quand l’IA fait tout ce qu’elle peut pour nous dire ce qu’on veut entendre

Les robots conversationnels comme ChatGPT et Gemini ont été programmés pour utiliser abondamment la flatterie. Aux dépens de la précision, lit-on dans une analyse des interactions avec 11 de ces chatbots.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

Ils définissent comme flagornerie les moments où le modèle ne détecte pas les erreurs dans une déclaration « et se met à halluciner une preuve » pour appuyer cette erreur —autrement dit, il invente une réponse fausse ou un argument qui semble être sorti de nulle part. C’est particulièrement frappant dans les argumentaires mathématiques: les chatbots avaient pourtant la capacité de détecter les erreurs, mais ils « assumaient simplement que ce que l’usager disait était correct », commente dans la revue Nature Jasper Dekoninck, doctorant en analyse des données scientifiques à l’Institut fédéral suisse de technologie. Son équipe a prépublié le 6 octobre une étude similaire, sur la capacité des IA à résoudre des problèmes mathématiques.

Et l’idée que l’humain aime être flatté dans le sens du poil se vérifie, selon les six chercheurs des universités Stanford et Carnegie Mellon, aux États-Unis: « les participants ont noté les réponses flagorneuses comme étant de meilleure qualité, ont fait davantage confiance au modèle d’IA, et étaient plus susceptibles de le réutiliser ».

Leur recherche s’inscrit dans un contexte où, ces derniers mois, de plus en plus de témoignages et d’observations ont révélé à quel point l’IA est à risque de valider ou amplifier les croyances les plus délirantes d’une personne, particulièrement si cette personne est déjà vulnérable aux psychoses. Au point où des gens sont tombés amoureux de leur IA.

Dans le milieu scientifique, un tel « comportement » pose la question de la crédibilité qu’on peut accorder à une IA dans une discussion qui cherche à générer de nouvelles hypothèses et à remettre en question des présupposés, et non à flatter les différents participants.

Interrogée par le magazine de vulgarisation Scientific American en août dernier, l’informaticienne Stevie Chancellor, de l’Université du Minnesota, confirmait que l’illusion que donnent les chatbots d’être agréables survenait « parce que les modèles sont récompensés pour s’aligner avec les réponses qu’aiment les gens ». À l’évidence, un chatbot qui critiquerait ou contredirait l’humain ne serait pas aussi populaire.

Mais un tel comportement, lit-on dans l’étude parue le 1er octobre, entraîne de gros désavantages. Cette préférence pour la flatterie « crée des incitatifs, à la fois chez les gens, qui vont dépendre de plus en plus de modèles flagorneurs, et à la fois chez les modèles d’IA, entraînés pour favoriser la flagornerie ».

« Nos découvertes, concluent-ils, pointent vers la nécessité de questionner cette structure d’incitatifs pour atténuer le risque répandu de la flagornerie par IA. »