La pollution informationnelle de ChatGPT

Plus on avance dans le temps, plus le contenu de l’ensemble d’Internet sera « pollué » par des créations de l’IA: à partir de quel seuil cela commencera-t-il à nuire au développement… de l’IA?

À lire également

Accumulation de connaissances: le mur qui attend ChatGPT

Jeudi 19 janvier 2023

À surveiller en 2025 : déficit de données pour l’IA?

Lundi 6 janvier 2025

C’est le paradoxe de ces outils capables de générer une quantité astronomique de contenu à partir de l’ensemble du savoir humain disponible sur Internet. Le savoir en question a beau être immense, il n’en a pas moins des dimensions finies. Par conséquent, plus des IA comme ChatGPT produisent, plus leurs contenus se répandent aux quatre coins d’INternet, et plus les IA suivantes produisent du contenu qui s’appuie sur le contenu des IA précédentes… incluant leurs erreurs, leurs interprétations faussées ou leurs inventions.

Une étude parue en juillet 2024 dans la revue scientifique Nature appelait cela un « effondrement du modèle »: littéralement, c’est le risque que les modèles d’IA générative ou « larges modèles de langage », deviennent de plus en plus stupides de génération en génération, à mesure qu’ils sont entraînés sur des contenus de plus en plus produits par d’autres IA, plutôt que par des humains.

Nous démontrons que cela doive être pris au sérieux, si nous voulons poursuivre les bénéfices de l’entraînement [des IA génératives] à partir de données à grande échelle récoltées sur le web.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

L’avantage, lisait-on dans cette étude, c’est que dans ce scénario, la valeur des informations ou des contenus produits par des humains va augmenter. Mais le désavantage, ce n’est pas juste que les IA donneront de plus en plus de fausses réponses. Dans le scénario esquissé par ces chercheurs britanniques et canadiens en génie informatique et en mathématiques, les réponses seront de plus en plus « étranges », confuses et dénuées de sens.

« Le message est que nous devons être très prudents quant à ce qui entre dans nos données d’entraînement », commentait alors le co-auteur Zakhar Shumaylov, de l’Université de Cambridge. Sinon, « les choses tourneront toujours mal ».

Un an plus tard, le diagnostic n’a pas changé: le journal britannique The Register faisait en juin dernier une comparaison avec les effets sur le métal des bombes atomiques. Le métal produit après 1945 est contaminé par de minuscules traces de particules radioactives: pas assez pour nuire à la santé de qui que ce soit, mais assez pour rendre ce métal inutilisable dans certaines applications scientifiques et médicales ultra-sensibles. Résultat, le métal produit avant 1945 a gagné une valeur économique. De la même façon, peut-être qu’un jour, le contenu d’Internet produit avant 2022 —avant ChatGPT— pourrait avoir une valeur économique supérieure.

S’il y a bel et bien un seuil de risque, personne ne peut dire où il est. Mais plusieurs chercheurs ont commencé à l’évoquer dès le moment où il est devenu clair que la croissance des données nécessaires pour entraîner ces « larges modèles de langage » était plus rapide que la croissance des données produites par les humains, de sorte que cette évolution dans l’entraînement des chatbots allait tôt ou tard frapper un mur.

La question s’est à nouveau posée lorsque les nouvelles versions de ces chatbots, à la fin de 2024, ont montré des résultats qui n’étaient pas à la hauteur des attentes.

Une piste de solution est mentionnée dans The Register par le chercheur en éthique et en mathématiques Maurice Chiodo, également de l’Université Cambridge : une règlementation gouvernementale qui imposerait une « étiquette » sur tout contenu produit par l’IA, de manière à permettre aux futures IA de les contourner. Mais le chercheur reconnaît que l’industrie n’est pas particulièrement ouverte, par les temps qui courent, à toute forme de règlementation qui ralentirait sa croissance.