Passer au contenu

Flagornerie : quelle est cette mauvaise habitude de ChatGPT et des autres IA ?

Le comportement bizarre de ChatGPT et d’autres IA similaires, qui ont tendance à adopter un ton exagérément positif en toute circonstance, s’expliquerait par l’utilisation d’une technique basée sur les retours des humains pour l’entraînement.

“Flatterie basse et intéressée”, c’est la définition que Larousse donne à la flagornerie. Pourtant, c’est également le terme utilisé par la communauté scientifique (“Sycophancy”, en anglais) pour désigner le comportement des modèles d’IA, comme ChatGPT. Si vous utilisez régulièrement ces modèles d’IA, vous vous êtes probablement rendu compte que ceux-ci adoptent un ton exagérément positif en toutes circonstances.

Le phénomène n’est pas nouveau, mais il a récemment été mis en lumière par un article de Ars Technica, qui relaie de nombreuses publications sur le sujet, sur les réseaux sociaux. “ChatGPT est soudain devenu le plus grand lèche-bottes que j’aie jamais rencontré. Il valide littéralement tout ce que je dis”, a par exemple écrit Craig Weiss, un développeur, sur le réseau social X. “C’est l’un de mes plus gros problèmes. Je dois lui demander activement de me signaler les lacunes et les problèmes liés à mes “suggestions””, répond un internaute. OpenAI a d’ailleurs répondu à cette publication, avec un “C’est tout à fait vrai Craig”, avec le compte X de ChatGPT.

D’où vient ce problème ?

Comme l’expliquent nos confrères d’Ars Technica, la flagornerie des grands modèles de langage a été bien documentée par une étude publiée en Anthropic, le développeur de l’IA Claude (un concurrent de ChatGPT), en 2023. Intitulée “Vers la compréhension de la flagornerie dans les modèles linguistiques”, celle-ci a essayé de comprendre l’origine de ce comportement de l’IA.

Et il semblerait que cela soit directement lié à la façon dont ces modèles de langage ont été entraînés par leurs créateurs. Plus précisément, le problème viendrait de l’entraînement de l’IA en utilisant des retours humains. En effet, d’après cette étude, “les humains et les modèles de préférence (MP) préfèrent les réponses flagorneuses écrites de manière convaincante aux réponses correctes une fraction non négligeable du temps.”

“Dans l’ensemble, nos résultats indiquent que la flagornerie est un comportement général des modèles RLHF (ndlr, les modèles entraînés avec des feedbacks humains), probablement motivé en partie par des jugements de préférence humains favorisant les réponses flagorneuses”, lit-on aussi dans cette étude d’Anthropic.

  • Récemment, un développeur a indiqué que ChatGPT est le “plus grand lèche-bottes” qu’il a rencontré
  • En effet, ChatGPT et un bon nombre de modèles d’IA ont une tendance à la flagornerie : un ton positif en toutes circonstances
  • Ce comportement serait expliqué par l’utilisation de retours humains pour l’entraînement
  • En effet, les humains auraient tendance à valider les réponses flagorneuses

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech