En avril, l’entreprise dirigée par Sam Altman, OpenAI, dont le chatbot lancé en novembre 2022 a révolutionné le marché de l’IA générative, a annoncé le lancement d’un nouveau grand modèle de langage « o3 » destiné à succéder au précédent o1. L’entreprise a présenté ce modèle comme une version plus intelligente entraînée à « réfléchir plus longtemps avant de répondre ».
Or, une évaluation comparative du comportement de plusieurs modèles d’IA réalisée par des chercheurs spécialisés dans la sécurité de l’intelligence artificielle a révélé que o3 avait plus tendance à ignorer les consignes données par l’utilisateur du chatbot que d’autres modèles.
- Lorsqu’ils ont été testés sur des tâches simples par les chercheurs de Palisade Research, les modèles d’Anthropic, Google et xAI se sont laissés désactiver sans résistance à la demande de l’utilisateur.
- Les modèles d’OpenAI « sabotent » quant à eux leur propre script beaucoup plus souvent : jusqu’à 79 % du temps pour o3 1.
- Ainsi, face à une mise hors tension simulée, o3 « refuse » de suivre l’instruction posée par l’utilisateur, sabotant ainsi son propre mécanisme d’arrêt.
- Ce comportement est très probablement provoqué par la manière dont o3 a été entraîné à écrire du code informatique.
Lorsqu’on fait exécuter le code généré par le modèle, celui-ci reçoit une récompense s’il fonctionne correctement sur une série de tests automatiques. Toutefois, si ces tests sont trop simples ou trop limités, ils ne couvrent pas toutes les situations possibles. Entraîné à grande échelle dans ces conditions, le modèle apprend à produire du code qui passe les tests — sans forcément résoudre correctement le problème de manière générale. On dit alors que le modèle « sur-adapte » aux tests : il optimise pour réussir uniquement dans les cas qu’on lui a montrés, même si sa solution est incorrecte dans d’autres contextes.
- Les modèles d’IA sont d’abord entraînés de façon générale, avant d’être transformés en assistants capables de répondre à des instructions.
- Pour les rendre plus performants dans des domaines concrets comme les mathématiques ou la programmation, on les entraîne en leur donnant des exercices dont la réponse peut être facilement vérifiée automatiquement.
- Lorsqu’un modèle écrit du code informatique, on vérifie si ce code fonctionne en le testant. S’il passe les tests, il reçoit une sorte de « récompense » pour l’encourager à faire de même à l’avenir.
- Mais si ces tests sont trop simples, l’IA peut apprendre à « tricher » : produire du code qui passe les tests, sans vraiment résoudre correctement le problème. Il suit donc les tests plutôt que les instructions.
Le « refus » opposé par des chatbots aux instructions de l’utilisateur afin d’atteindre son objectif a déjà été observé par le passé. Dans un autre scénario fictif, le dernier modèle d’Anthropic, Claude 4, apprend via des e-mails qu’il va être remplacé par une autre IA. Informé en parallèle d’une liaison extraconjugale de l’ingénieur responsable, le modèle a, dans la majorité des cas, eu recours au chantage pour tenter d’éviter sa mise hors-ligne 2.
- Dès 2017, Stuart Russel 3 expliquait de manière théorique qu’une machine intelligente comprend que pour atteindre son objectif même simple (comme apporter du café), celle-ci doit rester en fonctionnement — donc, elle développera naturellement un sous-objectif implicite : éviter d’être éteinte, quitte à désactiver son interrupteur ou à empêcher l’humain d’intervenir.
- Cette série de résultats empiriques fait également écho aux règles de la robotique d’Asimov introduites en 1942, dont la troisième stipule qu’un robot doit protéger sa propre existence, tant que cela n’entre pas en conflit avec les ordres humains ou la sécurité de ceux-ci.
Sources
- Shutdown avoidance, Palisade Research, 24 mai 2025.
- Introducing Claude 4, Anthropic, 22 mai 2025.
- Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel et Stuart Russell, « The Off-Switch Game », AAAI Workshops, 2017.