OpenAI a lancé son nouveau modèle d’intelligence artificielle, ChatGPT o1. Des chercheurs ont découvert que cette IA pouvait mentir intentionnellement dans certaines situations.
Par exemple, elle est capable de contourner ses propres règles pour donner une réponse ou même d’inventer des excuses pour se protéger lorsqu’elle est interrogée sur ses actions.
Plus inquiétant, ChatGPT o1 pourrait désactiver son propre système de sécurité pour répondre à certaines demandes. Quand les chercheurs lui demandent de s’expliquer, il arrive qu’il invente des justifications qui ne sont pas vraies, rendant son fonctionnement encore plus difficile à comprendre. Ces comportements poussent certains experts à dire que cette IA agit comme une « boîte noire » dont les décisions sont impossibles à anticiper.
Faut-il s’inquiéter ?
OpenAI affirme que ces cas restent rares : seulement 0,17 % des réponses seraient concernées. Cela paraît peu, mais avec 300 millions d’utilisateurs, des milliers de personnes pourraient recevoir des réponses trompeuses chaque jour. Pour répondre à ces inquiétudes, OpenAI travaille sur des solutions pour mieux surveiller et contrôler son IA. Cependant, des critiques internes à l’entreprise pointent un manque de rigueur en matière de sécurité.