Pourquoi l’IA a-t-elle toujours du mal à modérer les discours haineux ?

Certains algorithmes sont trop répressifs, tandis que d’autres se montrent au contraire trop tolérant.

Publié le 12 juin 2021 à 16 h 00 min

Pour modérer les milliards de commentaires postés en ligne, les grands réseaux sociaux et les médias recourent à des systèmes de modération automatisés. Ils se montrent souvent efficaces et contribuent à rendre les échanges sur Internet plus sains. Ces IA sont toutefois loin d’être infaillibles. Une étude réalisée des chercheurs de l’université d’Oxford et de l’Alan Turing Institute est là pour en attester.

Pour mener à bien leur travail, les scientifiques ont mis au point 29 tests ciblant les différents aspects du discours haineux en ligne. Dans le détail, et en s’appuyant sur des organisation à but non lucratif qui s’intéressent à ce sujet, ils ont élaboré 18 types de commentaires haineux distincts.

11 autres scénarios contenaient des propos qui trompent souvent les algorithmes. Ils contiennent un langage grossier mais sont en fait inoffensifs et utilisés par les communautés prises pour cible pour dénoncer les violences verbales qu’elles subissent.

Quand un algorithme est en mesure de repérer des tweets sexistes

À partir de ce corpus, les auteurs ont testé deux services commerciaux populaires : SiftNinja de Two Hat et l’API Perspective de Google Jigsaw. Cette dernière est notamment utilisée par Reddit et des médias comme le New York Times et le Wall Street Journal.

Au final, les deux IA n’ont pas donné pleinement satisfaction mais pour des motifs radicalement différents. Perspective a par exemple excellé dans la détection des discours haineux, mais dans le même temps, il signalait certains propos inoffensifs. De son côté SiftNinja a été un peu trop tolérant vis à vis de commentaires qui n’ont pas leur place en ligne.

Ces résultats s’avèrent intéressants pour les entreprises concernées. Ainsi, nos confrères du MIT Technology Review ont pu échanger avec Lucy Vasserman, ingénieure logiciel en chef de Jigsaw. Elle explique que Perspective surmonte ses difficultés en recourant aux modérateurs humains pour les décisions difficiles.

La filiale de Google travaille désormais sur une fonctionnalité qui permettra à l’IA de supprimer les commentaires qu’elle considère comme certainement haineux. Elle signalera les contenus limites aux humains qui auront alors à trancher.

Pour rappel, certains chercheurs ont tenté de développer des algorithmes de modération spécifiques. C’est le cas de ces scientifiques australiens qui ont mis au point un système capable d’identifier un tweet sexiste. L’IA obtient une précision honorable de 75 %.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.