Les défauts de ChatGPT sous la loupe des scientifiques

Vie des labos. Il n’y a pas que les médias, les étudiants ou les artistes qui se passionnent pour ChatGPT, l’agent conversationnel de l’entreprise américaine OpenAI, qui a réveillé l’intérêt pour l’intelligence artificielle. Les scientifiques eux-mêmes se sont penchés sur le nouveau venu, pour l’étudier sous toutes les coutures. Près de 1 400 prépublications (preprints) ont été déposées sur le principal site, Arxiv.org, depuis le 30 novembre 2022 et la mise en ligne de ChatGPT. La première dès le 12 décembre (sur l’analyse des premiers tweets sur le sujet)…

Selon Scopus, l’une des principales bases de données, 927 articles ont déjà été publiés. L’un des plus cités porte sur les réponses du programme à des tests pour étudiant en médecine (ChatGPT passerait en quatrième année).

Une revue de cette imposante littérature, réalisée par un groupe de 18 chercheurs aux Etats-Unis et en Chine, est parue en août, portant sur seulement 194 de ces preprints, jusqu’en avril. Pendant les cinq premiers mois, les soumissions ont doublé tous les mois. Le rythme s’est depuis ralenti avec une dizaine de publications quotidiennes. Une autre revue, prépubliée en juin, par une équipe internationale analysant 533 publications dans les journaux scientifiques montrait la domination des Etats-Unis, de la Chine et de l’Inde sur ce sujet.

Le travail sino-américain est précieux, car il découpe les études en neuf catégories sur lesquelles ChatGPT a été évalué : la capacité à répondre à des questions, à classer des textes (par tonalité, sentiment), à générer des textes, du code informatique, à faire des déductions, à extraire de l’information, à assister les humains, à s’intégrer à d’autres logiciels et enfin à servir pour des applications médicales. Tous ces résultats font retomber un peu le soufflé (avec le bémol que beaucoup des travaux portent sur la version 3.5 du programme et non la 4, sortie en mars).

Pas mal d’erreurs

Selon plusieurs études, ChatGPT n’est pas très fort en maths, et se débrouille en physique (en mécanique plus précisément), faisant un peu mieux que la moyenne des étudiants de licence. Mais, défaut connu du programme, il a la propension à faire pas mal d’erreurs et n’est pas capable de générer de nouveaux concepts (une équipe a testé sa créativité en théorie des cordes sans succès). Il imite assez bien les cardiologues humains, résumant les résultats d’un électrocardiogramme, mais son niveau baisse avec la complexité du diagnostic.

Lire aussi : Les concurrents de ChatGPT se multiplient

Une vaste étude, parue dans Information Fusion et menée en Pologne, a quantifié ces désillusions en soumettant ChatGPT à 25 tests difficiles : identification d’émotions, classification de textes (haineux ou non), raisonnement, etc. Systématiquement l’agent conversationnel est moins bon que d’autres programmes entraînés spécifiquement à ces tâches. En moyenne, l’écart est de 17 points (quand un programme trouve 80 % de bonnes réponses, ChatGPT n’en trouve que 63 %). Ses meilleures performances sont sur la grammaire ou sur la classification de textes drôles ou pas.

Il vous reste 30.39% de cet article à lire. La suite est réservée aux abonnés.

Source link