Quand l’IA prend les commandes d’une entreprise, les résultats font froid dans le dos

Les agents d’IA peinent à s’imposer dans le monde professionnel.

Publié le

7 mai 2025

Lecture : 2 min

Quand l’IA prend les commandes d’une entreprise, les résultats font froid dans le dos © L'EnerGeek

Dans un monde où l’intelligence artificielle se réinvente en permanence, on se demande souvent si ces technologies peuvent vraiment remplacer les salariés. Des chercheurs de l’université Carnegie Mellon ont réalisé une expérience originale pour tester les capacités des agents d’IA dans un environnement professionnel simulé. L’étude, publiée en prépublication sur Arxiv, explore comment ces IA se débrouillent à gérer une boîte fictive appelée TheAgentCompany, conçue pour ressembler à une PME du secteur technologique.

Une expérience pas comme les autres

L’idée était d’imaginer une entreprise numérique entière prise en main par des IA génératives. Les chercheurs ont ainsi assigné à ces intelligences divers postes, du chef de projet à l’ingénieur logiciel. Au menu, plusieurs agents d’IA, dont Claude d’Anthropic, GPT-4o d’OpenAI, Google Gemini, Amazon Nova, Meta Llama et Qwen d’Alibaba.

Les rôles variaient : on comptait parmi eux un analyste financier, un chef de projet et un ingénieur logiciel. Chaque agent devait réaliser des missions précises, comme :

chercher dans des fichiers pour analyser une base de données,
faire des visites virtuelles pour sélectionner de nouveaux locaux,
organiser un sprint,
remplir un formulaire financier ou
dialoguer avec un collègue des RH.

Pour rendre le test le plus réaliste possible, les chercheurs ont mis en place un environnement de travail complet, avec intranet, messagerie interne, gestion de projets et même des collègues simulés. Un système de points a aussi été instauré afin de mesurer la réussite des missions confiées aux IA.

Bilan mitigé mais riche en enseignements

Les résultats montrent que les robots humanoïdes rencontrent encore pas mal de difficultés pour mener à bien des tâches professionnelles. Par exemple, Claude 3.5 Sonnet a complété 24 % des missions, avec un score total qui monte à 34,4 % une fois les tâches partiellement réalisées prises en compte. De son côté, Gemini 2.0 Flash n’a terminé que 11,4 % des missions, et aucun autre agent n’a réussi à franchir les 10 % de réussite.

Côté frais, le coût énergétique de Claude 3.5 Sonnet s’élève à 6,34 dollars, alors que celui de Gemini 2.0 Flash n’est que de 0,79 dollar.

Pendant l’expérience, plusieurs problèmes ont été relevés. Les agents peinaient à comprendre certaines instructions implicites et avaient souvent du mal lors des interactions sociales avec des collègues simulés. La navigation sur Internet était également compliquée à cause des popups et autres éléments perturbateurs.

Suivez-nous sur Google News

Le bloc clim de mon voisin vrombissait toutes les nuits : quand j’ai lu ce que dit vraiment la loi, j’ai compris qu’il n’avait pas tous les droits

2024 : une chaleur record qui change la donne climatique

ActualiteAnalyseÉconomieÉconomie internationaleSécuritéTransition énergétique

Quand l’IA prend les commandes d’une entreprise, les résultats font froid dans le dos

Une expérience pas comme les autres

Bilan mitigé mais riche en enseignements

Sur le même thème :

Le bloc clim de mon voisin vrombissait toutes les nuits : quand j’ai lu ce que dit vraiment la loi, j’ai compris qu’il n’avait pas tous les droits

Les voitures électriques représenteront un tiers des ventes de 2026

Pétrole : Shell profite pleinement de l’explosion des prix en Bourse

Canicule : votre le ventilateur devient inutile, voire contre-productif, au-delà de cette température

Gaz : l’Italie face à un déficit de 1,4 milliard de m³ avant l’hiver 2026

Laisser un commentaire Annuler la réponse

À la une

Singapour : l’IA réduit de 20% les émissions du trafic aérien dès 2030

Le bloc clim de mon voisin vrombissait toutes les nuits : quand j’ai lu ce que dit vraiment la loi, j’ai compris qu’il n’avait pas tous les droits

La Chine dévoile le CR450 à 400 km/h : les ingénieurs français admettent que le TGV n’est plus le train le plus rapide du monde

Pourquoi les millions de sapins plantés dans les Alpes italiennes il y a 90 ans ont détruit ce qu’ils devaient protéger, selon les biologistes

Thematique

Liens utiles

Nous suivre