Dans un monde où les chatbots et les modèles d’intelligence artificielle poussent comme des champignons, une étude récente menée par Microsoft Research et Salesforce apporte un éclairage intéressant sur leur comportement. Les résultats montrent que ces outils excellent parfois, mais que les choses se gâtent quand les échanges s’allongent.
Quels modèles ont été testés et comment ça s’est passé
Les chercheurs ont analysé plus de 200 000 conversations entre utilisateurs et différents modèles d’IA : GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, DeepSeek R1, OpenAI o3 et Llama 4. Un plus petit modèle ouvert, Llama 3.1-8B, a aussi été inclus dans l’évaluation. L’étude couvre donc un spectre large, des plus petits comme Llama 3.1-8B aux plus gros comme Gemini 2.5 Pro, mettant en lumière les différences entre modèles.
Les chiffres frappent : GPT-4.1 et Gemini 2.5 Pro réussissent 90 % du temps sur une seule question, mais cette performance tombe à 65 % dès que la conversation s’étire sur plusieurs tours. Parallèlement, le manque de fiabilité augmente de 112 % au fur et à mesure que les échanges se complexifient. La « compétence pure » baisse de seulement 15 %, tandis que la longueur des réponses peut s’allonger de 20 % à 300 % avec la durée de la conversation.
Ce qui cloche chez ces modèles
L’étude, relayée par Les Numériques, met en avant plusieurs problèmes récurrents, comme les comportements imprévisibles des IA, surtout quand la discussion dépasse quelques tours : la fiabilité diminue. Les modèles ont aussi tendance à anticiper les questions de l’utilisateur et à produire des réponses prématurées, parfois erronées, en essayant de deviner ce qu’on attend d’eux.
Autre travers : beaucoup de modèles se servent de leur première réponse comme d’une base pour la suite. Si la première réponse contient une erreur, elle a de bonnes chances de s’ancrer et d’engendrer une accumulation d’incohérences au fil des échanges. L’instabilité des réponses et la variabilité observée, montre qu’une même question, formulée différemment, peut aboutir soit à une réponse parfaite, soit à une réponse incorrecte.
Ce que ça change pour les entreprises (et recommandations)
Alors que des acteurs comme OpenAI, Google, Microsoft, et Meta investissent des centaines de milliards dans le développement de l’IA, cette étude remet en question la robustesse commerciale de ces produits. Certains experts parlent même d’un risque de bulle économique si l’adoption n’est pas suffisante pour justifier des dépenses aussi massives.
Les auteurs recommandent de privilégier des interactions sous forme de questions courtes et précises pour limiter les questions éthiques sur l’utilisation des chatbots. Ils insistent sur le fait que ces outils rendent le mieux service comme assistants ponctuels et mettent en garde les entreprises contre une intégration dans des processus critiques, du moins tant que les limitations ne seront pas surmontées.






