Il ne l’a pas juste réussi… ChatGPT a humilié le test de Turing

Des chatbots capables de tromper jusqu’à 73 % des humains, c’est le constat hallucinant d’une étude récente.

Publié le
Lecture : 2 min
Il ne l’a pas juste réussi… ChatGPT a humilié le test de Turing
Il ne l’a pas juste réussi… ChatGPT a humilié le test de Turing © L'EnerGeek

Depuis qu’Alan Turing a inventé, en 1950, une méthode pour évaluer l’intelligence des machines, le débat sur la capacité des ordinateurs à copier la pensée humaine ne cesse de s’animer. Dans son article « Computing Machinery and Intelligence« , Turing propose une expérience simple mais révolutionnaire : un humain discute avec deux interlocuteurs, dont l’un est une machine et l’autre un humain. Si l’humain n’arrive pas à faire la différence, alors la machine peut être considérée comme « pensante ». Ce concept visionnaire a donné naissance à ce qu’on appelle aujourd’hui le test de Turing.

L’étude pionnière à l’université de Californie

Une étude récente menée par Cameron Jones et Benjamin Bergen à l’université de Californie à San Diego a apporté un nouveau tournant dans l’histoire du test de Turing. Publiée en prépublication, cette recherche s’est déroulée en deux temps. La première phase a réuni 138 étudiants de l’université, puis 169 volontaires recrutés en ligne ont participé à la deuxième phase. Les participants, répartis en deux groupes, se sont lancés dans une série de huit jeux sophistiqués.

L’étude a analysé quatre chatbots différents : ELIZA, GPT-4o, LLaMa-3.1 (développé par Meta) et GPT-4.5. Parfois, LLaMa-3.1 et GPT-4.5 étaient même configurés pour se comporter clairement comme des humains.

Des résultats qui étonnent

Les performances décevantes obtenues illustrent bien les avancées technologiques actuelles en intelligence artificielle. ELIZA a été perçue comme un humain dans seulement 23 % des situations, tandis que GPT-4o a obtenu 21 %. En revanche, LLaMa-3.1 a su tromper les participants dans 56 % des cas.

Le vrai exploit revient à GPT-4.5 qui, sans être spécialement programmé pour imiter un humain, a été confondu avec un interlocuteur humain dans 36 % des échanges. Et quand il est réglé pour jouer le rôle d’un humain, ce score grimpe à 73 %. Ces résultats mettent en lumière l’évolution des intelligences artificielles modernes et leur aptitude à mimer des comportements humains au point d’être, parfois, jugées plus « naturelles » que leurs homologues biologiques.

Ce qui fait la différence chez GPT-4.5

GPT-4.5 se démarque par sa capacité à adopter le personnage d’un jeune introverti, tout comme ce robot humanoïde qui apprend à marcher comme un vrai humain. Même s’il ne « pense » pas vraiment, GPT-4.5 excelle dans l’art d’imiter les signes extérieurs de la pensée humaine : il reproduit le langage de tous les jours avec fluidité, ajuste son ton et ponctue même ses réponses d’hésitations ou de petites maladresses typiques d’une discussion authentique.

Vers une réglementation nécessaire

Ces progrès soulèvent aussi des questions éthiques importantes sur le coût énergétique des chatbots sophistiqués comme GPT-4.5, notamment pour manipuler ou diffuser des fausses informations. Les chercheurs, Cameron Jones et Benjamin Bergen, mettent en garde en affirmant : « Des modèles capables de tromper avec autant de constance pourraient être utilisés à des fins de manipulation sociale ou de diffusion de fausses informations ».

Il devient donc indispensable de mettre en place une réglementation stricte pour ces technologies émergentes (afin d’assurer leur traçabilité et transparence dans les échanges homme-machine) tout en limitant leur utilisation dans certains domaines sensibles comme le conseil juridique ou la santé mentale.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.