Par Evan Gorelick – Le 6 août 2024 – Bloomberg
Dans certains secteurs de l’industrie technologique, on croit fermement que l’entraînement des systèmes d’intelligence artificielle sur de plus grandes quantités de données en ligne permettra à ces outils de s’améliorer au fil du temps, au point de surpasser les humains dans l’exécution de certaines tâches.
Mais un nouvel article de recherche jette un doute sur cette approche et tire la sonnette d’alarme sur ce qui pourrait être une faille fatale dans la manière dont les systèmes d’intelligence artificielle sont développés. Dans cet article, publié par la revue Nature en juillet, les chercheurs constatent que lorsque les modèles d’IA sont entraînés sur des données comprenant du contenu généré par l’IA – ce qui sera probablement de plus en plus fréquent – ils finissent par voir leurs performances se dégrader, un phénomène appelé “effondrement du modèle“.
Ces conclusions s’ajoutent au scepticisme croissant quant à la trajectoire à long terme de l’IA et interviennent à un moment où Wall Street se demande déjà si les investissements massifs des grandes entreprises technologiques dans le développement de l’IA finiront par porter leurs fruits.
Les chatbots d’IA tels que ChatGPT sont alimentés par de grands modèles de langage formés sur une quantité presque inconcevable de données (des milliers de milliards de mots, dans certains cas) tirées de pages web, d’articles, de sections de commentaires et plus encore. Grâce à ces vastes ensembles de données, les entreprises spécialisées dans l’IA ont pu créer des produits capables de fournir des réponses étonnamment pertinentes aux requêtes des utilisateurs.
Toutefois, certains observateurs de l’IA craignent que ces modèles finissent par perdre en précision et par s’effondrer s’ils sont entraînés sur des contenus générés par l’IA plutôt que par des êtres humains. Un article publié en 2023 sur l’effondrement des modèles a montré que les images d’humains produites par l’IA se déformaient de plus en plus après que le modèle ait été entraîné à nouveau sur “même de petites quantités de leur propre création“. Les chercheurs ont comparé ce phénomène à un système d’IA “empoisonné” par son propre travail.
Dans le nouvel article de Nature, des chercheurs d’Oxford, de Cambridge et d’autres universités ont constaté que les modèles d’IA formés à partir de contenus générés par l’IA produisent des résultats non désirés et potentiellement absurdes. Comme l’expliquent les chercheurs, les erreurs d’un modèle sont exacerbées par le modèle suivant, ce qui éloigne l’IA de la réalité jusqu’à ce que les résultats deviennent essentiellement du charabia.
Dans un exemple, les auteurs ont montré qu’une recherche sur l’architecture historique britannique se transformait en une discussion incompréhensible sur les lièvres lorsqu’elle était introduite dans un grand modèle de langage qui avait été entraîné plusieurs fois avec du contenu généré par l’IA.
“Nous démontrons que [l’effondrement du modèle] doit être pris au sérieux si nous voulons conserver les avantages de la formation à partir de données à grande échelle extraites du web“, écrivent les chercheurs dans l’étude.
Bien que l’effondrement des modèles reste largement une préoccupation théorique, l’article de Nature note que les futurs modèles d’IA “s’entraîneront inévitablement à partir de données produites par leurs prédécesseurs“, à mesure que les écrits et les images générés par l’IA se répandent sur le web et s’infiltrent dans les ensembles de données en ligne.
Des entreprises technologiques, dont Meta, Google et Anthropic, ont également expérimenté l’entraînement de modèles sur des données dites “synthétiques“, qu’elles créent à l’aide de l’IA générative. En théorie, l’option synthétique permet aux entreprises d’IA de répondre à leur besoin incessant de données tout en évitant les problèmes juridiques, éthiques et de protection de la vie privée liés à la collecte d’informations sur divers sites web. Mais la perspective de l’effondrement du modèle pourrait mettre à mal ces projets.
Les conclusions de l’article ne font que renforcer l’urgence pour les entreprises d’IA d’obtenir l’accès à des données de haute qualité générées par des êtres humains, mais cela peut s’avérer coûteux. OpenAI, le fabricant de ChatGPT, a dépensé des millions de dollars pour conclure des partenariats avec des éditeurs tels que News Corp. et Axel Springer SE afin d’obtenir la licence de leur contenu pour entraîner ses modèles. Il n’est pas certain non plus que ces données suffisent à répondre aux besoins des entreprises technologiques.
Selon les chercheurs, il est vital pour les développeurs d’IA de préserver l’accès à des données d’entraînement originales qui n’ont pas été polluées par du contenu d’IA. Mais il n’existe pas de moyen facile de suivre le contenu généré par l’IA à grande échelle. À cette fin, les chercheurs suggèrent que ceux qui élaborent des modèles d’IA travaillent à une “coordination à l’échelle de la communauté” afin de comprendre la provenance des données qu’ils explorent en ligne.
Evan Gorelick
Traduit par Wayan, relu par Hervé, pour le Saker Francophone.
Source: Lire l'article complet de Le Saker Francophone