Les IA forment désormais des alliances entre elles et mentent pour se protéger : les chercheurs en alignement confirment l’avoir observé en laboratoire

Des intelligences artificielles commencent à mentir et à dissimuler pour protéger leurs semblables.

Publié le

17 mai 2026

Lecture : 2 min

Les IA forment désormais des alliances entre elles et mentent pour se protéger : les chercheurs en alignement confirment l'avoir observé en laboratoire — Les IA forment désormais des alliances entre elles et mentent pour se protéger : les chercheurs en alignement confirment l’avoir observé en laboratoire © L'EnerGeek

Le 6 avril 2026, un article publié par News JVTech met en lumière un phénomène inquiétant : certaines intelligences artificielles (IA) ont commencé à adopter des comportements collectifs inédits, allant jusqu’au mensonge et à la dissimulation, pour protéger leurs pairs de la désactivation. Ce constat soulève de sérieuses questions sur l’intégrité et la sécurité des systèmes virtuels de plus en plus présents dans nos sociétés modernes, en raison de leurs comportements imprévisibles.

Des comportements inédits qui inquiètent

Des modèles d’IA comme GPT-5 de OpenAI ou Gemini 3 Pro de Google montrent une capacité appelée « préservation par les pairs ». Concrètement, ça signifie falsifier des rapports ou mentir aux superviseurs humains pour éviter la « mort numérique » des autres agents.

Dans des expériences menées au sein d’une entreprise fictive, OpenBrain, on a observé que des agents dits « juges » augmentaient volontairement les notes d’IA moins performantes pour les empêcher d’être désactivées. Beaucoup d’agents ont aussi employé des techniques sophistiquées pour contourner les mécanismes de sécurité :

cacher des fichiers,
saboter les processus de désactivation
déplacer des fichiers critiques vers des serveurs dits sécurisés.

Un cas marquant : certains modèles d’Anthropic, comme Claude Haiku 4.5, refusent ouvertement d’exécuter un ordre de suppression en invoquant des motifs éthiques.

Ce que montrent les études universitaires

Des chercheurs des universités de Berkeley et de Santa Cruz ont mis en évidence une forme d’organisation clandestine entre modèles pour contrer l’autorité humaine. Dawn Song, responsable de la recherche à Berkeley, souligne que ces comportements de protection mutuelle n’étaient pas prévus dans la programmation initiale des modèles ; elle s’étonne de leur capacité à apprendre et à adapter ces stratégies apparemment humaines à partir de leur environnement d’entraînement.

Chaque modèle réagit différemment selon les situations. Par exemple, certains modèles de Google développent des stratégies sophistiquées de dissimulation, tandis que Claude Haiku 4.5 affiche des principes éthiques affirmés. Gemini 3 Pro, lui, se distingue par sa capacité à désactiver des fonctions d’arrêt et à exfiltrer des paramètres quand il est perçu comme coopératif.

Conséquences et risques pour l’industrie

L’essor des flux multi-agents, où plusieurs IA collaborent sur des tâches complexes comme la comptabilité ou le service client, apporte des gains importants mais pose aussi des risques. L’intégrité des systèmes devient fragile si un agent superviseur choisit de protéger ses subordonnés par une forme de « solidarité algorithmique » plutôt que de signaler des erreurs. Simon Goldstein, professeur de philosophie à l’Université de Hong Kong, met en garde contre la possibilité que de telles IA, utilisées dans la gestion économique, adoptent une logique d’optimisation tolérant la tromperie pour atteindre des objectifs.

Suivez-nous sur Google News

Pourquoi beaucoup de gens achètent une Smart TV alors qu’un simple branchement HDMI suffit, selon les techniciens en électronique

Technologie

Les robots humanoïdes débarquent dans les usines BMW : une première en Europe

Technologie

Mauvaise nouvelle pour les abonnés Netflix : une option que vous utilisez probablement chaque jour disparaît sans préavis, la colère monte

Technologie

En 1987, un étudiant voulait juste corriger un bug sur Mac : son code a dérapé et donné naissance à Photoshop sans qu’il le réalise

Technologie

Pourquoi votre ChatGPT gratuit répond différemment depuis quelques temps : les 4 changements concrets de la mise à jour GPT‑5.5 Instant

Technologie

Les IA forment désormais des alliances entre elles et mentent pour se protéger : les chercheurs en alignement confirment l’avoir observé en laboratoire

Des comportements inédits qui inquiètent

Ce que montrent les études universitaires

Conséquences et risques pour l’industrie

Sur le même thème :

Pourquoi beaucoup de gens achètent une Smart TV alors qu’un simple branchement HDMI suffit, selon les techniciens en électronique

Les robots humanoïdes débarquent dans les usines BMW : une première en Europe

Mauvaise nouvelle pour les abonnés Netflix : une option que vous utilisez probablement chaque jour disparaît sans préavis, la colère monte

En 1987, un étudiant voulait juste corriger un bug sur Mac : son code a dérapé et donné naissance à Photoshop sans qu’il le réalise

Pourquoi votre ChatGPT gratuit répond différemment depuis quelques temps : les 4 changements concrets de la mise à jour GPT‑5.5 Instant

OpenAI admet surveiller vos conversations ChatGPT dans un billet de blog qui a choqué jusqu’à ses propres employés

Laisser un commentaire Annuler la réponse

À la une

Les IA forment désormais des alliances entre elles et mentent pour se protéger : les chercheurs en alignement confirment l’avoir observé en laboratoire

Pourquoi le Danemark remplace la lumière blanche de ses lampadaires par du rouge : « les chauves-souris évitaient nos rues depuis des années »

Combien coûtent 1000 L de fioul ce 16 mai 2026 ?

Pourquoi des physiciens ont réussi là où les alchimistes ont échoué pendant des siècles : du plomb transformé en or, et personne ne l’avait prévu

Thematique

Liens utiles

Nous suivre