Dans un monde où l’intelligence artificielle se réinvente en permanence, on se demande souvent si ces technologies peuvent vraiment remplacer les salariés. Des chercheurs de l’université Carnegie Mellon ont réalisé une expérience originale pour tester les capacités des agents d’IA dans un environnement professionnel simulé. L’étude, publiée en prépublication sur Arxiv, explore comment ces IA se débrouillent à gérer une boîte fictive appelée TheAgentCompany, conçue pour ressembler à une PME du secteur technologique.
Une expérience pas comme les autres
L’idée était d’imaginer une entreprise numérique entière prise en main par des IA génératives. Les chercheurs ont ainsi assigné à ces intelligences divers postes, du chef de projet à l’ingénieur logiciel. Au menu, plusieurs agents d’IA, dont Claude d’Anthropic, GPT-4o d’OpenAI, Google Gemini, Amazon Nova, Meta Llama et Qwen d’Alibaba.
Les rôles variaient : on comptait parmi eux un analyste financier, un chef de projet et un ingénieur logiciel. Chaque agent devait réaliser des missions précises, comme :
- chercher dans des fichiers pour analyser une base de données,
- faire des visites virtuelles pour sélectionner de nouveaux locaux,
- organiser un sprint,
- remplir un formulaire financier ou
- dialoguer avec un collègue des RH.
Pour rendre le test le plus réaliste possible, les chercheurs ont mis en place un environnement de travail complet, avec intranet, messagerie interne, gestion de projets et même des collègues simulés. Un système de points a aussi été instauré afin de mesurer la réussite des missions confiées aux IA.
Bilan mitigé mais riche en enseignements
Les résultats montrent que les robots humanoïdes rencontrent encore pas mal de difficultés pour mener à bien des tâches professionnelles. Par exemple, Claude 3.5 Sonnet a complété 24 % des missions, avec un score total qui monte à 34,4 % une fois les tâches partiellement réalisées prises en compte. De son côté, Gemini 2.0 Flash n’a terminé que 11,4 % des missions, et aucun autre agent n’a réussi à franchir les 10 % de réussite.
Côté frais, le coût énergétique de Claude 3.5 Sonnet s’élève à 6,34 dollars, alors que celui de Gemini 2.0 Flash n’est que de 0,79 dollar.
Pendant l’expérience, plusieurs problèmes ont été relevés. Les agents peinaient à comprendre certaines instructions implicites et avaient souvent du mal lors des interactions sociales avec des collègues simulés. La navigation sur Internet était également compliquée à cause des popups et autres éléments perturbateurs.




