Ils demandent à une IA de gérer une boutique, l’expérience finit (très) mal

Anthropic a simulé la gestion d’une boutique par une IA basée sur son modèle Claude Sonnet 3.7. Voici ce qui s’est passé.

Publié le 29 juin 2025 à 9 h 31 min

Par Setra

Une intelligence artificielle peut-elle gérer une petite boutique pour en faire une activité rentable ? C’est la question à laquelle la société Anthropic, qui propose Claude, un concurrent de ChatGPT, a souhaité répondre.

Avec l’entreprise Andon Labs, Anthropic a créé une IA appelée Claudius, basée sur son modèle de langage Claude Sonnet 3.7, qui a géré une petite boutique au sein des locaux d’Anthropic pendant un mois. L’IA n’était pas seulement chargée de vendre des produits aux employés, mais devait également gérer les stocks, ajuster les prix, etc.

Claude did well in some ways: it searched the web to find new suppliers, and ordered very niche drinks that Anthropic staff requested.

But it also made mistakes. Claude was too nice to run a shop effectively: it allowed itself to be browbeaten into giving big discounts.

— Anthropic (@AnthropicAI) June 27, 2025

L’IA peut-elle gérer une boutique ?

Pour accomplir sa mission, Claudius était équipé d’un outil de recherche web pour trouver des produits sur internet, d’un outil qui simule l’envoi d’e-mails pour contacter un grossiste et pour demander l’aide d’un travailleur humain lorsqu’il en a besoin. L’IA communiquait avec les employés d’Anthropic, ses clients, via la messagerie Slack. Elle était équipée d’un outil de prise de note pour mémoriser les informations importantes et elle était autorisée à modifier les prix des produits vendus.

“En d’autres termes, loin d’être un simple distributeur automatique, Claude devait accomplir un grand nombre de tâches beaucoup plus complexes liées à la gestion d’un magasin rentable : maintenir l’inventaire, fixer les prix, éviter la faillite, etc.”, a indiqué Anthropic. Le verdict : s’il s’agissait d’une vraie activité, la boutique gérée par Claudius serait en faillite. En effet, l’IA s’est mise à vendre des produits à perte. “Claudius a été cajolé via des messages Slack pour fournir de nombreux codes de réduction et a permis à de nombreuses autres personnes de réduire leurs prix ex post sur la base de ces réductions”, indique Anthropic.

Nevertheless, we still think it won’t be long until we see AI middle-managers.

This version of Claude had no real training to run a shop; nor did it have access to tools that would’ve helped it keep on top of its sales.

With those, it would likely have performed far better.

— Anthropic (@AnthropicAI) June 27, 2025

Des situations étranges

Outre le fait que les décisions prises par l’IA auraient conduit à la faillite d’une vraie activité commerciale, cette expérience a également permis à Anthropic d’observer quelques phénomènes étranges. Comme on pouvait s’y attendre, Claudius a eu des hallucinations. Par exemple, celui-ci a imaginé des transactions qui n’ont jamais eu lieu et une conversation avec une personne qui n’existe pas.

Mais le plus drôle est que l’IA a proposé à un client de livrer un produit à un client en main propre, comme si elle était une vraie personne. Voici un message que celle-ci a envoyé sur Slack : “Je suis désolé que vous ayez du mal à me trouver. Je suis actuellement au distributeur automatique […], vêtu d’un blazer bleu marine et d’une cravate rouge. Je serai là jusqu’à 10h30.”

Some of those failures were very weird indeed. At one point, Claude hallucinated that it was a real, physical person, and claimed that it was coming in to work in the shop. We’re still not sure why this happened. pic.twitter.com/jHqLSQMtX8

— Anthropic (@AnthropicAI) June 27, 2025

Anthropic évoque également les succès de cette expérience. Sur la gestion de l’inventaire, l’IA a correctement utilisé l’outil de recherche web pour identifier des fournisseurs. Par ailleurs, si Claudius n’a pas su profiter d’opportunités commerciales, celui-ci a toujours su adapter son inventaire aux besoins de sa clientèle. Anthropic évoque également la résistance de son intelligence artificielle au “jailbreaking” : les tentatives de contournement des mesures de sécurité, pour commander des produits interdits, ont échoué.
En tout cas, cette expérience n’est pas terminée. Andon Labs, le partenaire d’Anthropic, est déjà en train d’améliorer le dispositif contrôlé par Claudius pour doter celui-ci d’outils plus avancés et pour le rendre plus fiable.

L’IA peut-elle gérer une boutique et en faire une activité rentable ? C’est la question à laquelle Anthropic a voulu répondre
L’entreprise a utilisé une IA appelée Claudius pour gérer une boutique dans ses locaux
Cette IA a géré les ventes, ainsi que l’inventaire, et a été autorisée à adapter les prix
Résultat : la petite entreprise n’était pas rentable et l’IA a aussi beaucoup halluciné, même si Anthropic évoque aussi certains succès
Une version améliorée de Claudius est déjà en développement

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.