Un nouvel algorithme devine votre sexe en analysant vos Tweets !

L’anonymat sur Internet vient va en prendre un coup du côté de Twitter à cause d’un nouvel algorithme. Des chercheurs, en analysant le contenu d’un grand nombre de Tweets; ont trouvé un moyen efficace de déterminer votre sexe depuis ce que vous partagez sur le réseau social.

L’anonymat sur Internet vient va en prendre un coup du côté de Twitter à cause d’un nouvel algorithme. Des chercheurs, en analysant le contenu d’un grand nombre de Tweets, ont trouvé un moyen efficace de déterminer votre sexe depuis ce que vous partagez sur le réseau social.

Ce sont des chercheur de la Mitre corporation qui ont mis au point l’agorithme pour déterminer avec une certitude assez satisfaisante le sexe d’un utiilisateur grâce à un de ses Tweet, de sa description ou de toute sa timeline. Twitter ne demande pas le sexe sur les profils, ce qui a expliqué le choix de ce réseau pour tester l’algorithme. Une première équipe a collecté la localisation, le nom du profil (le @JBPresse pour moi par exemple) le vrai nom de tous, puis le sexe de 184,000 compte (de manière externe à l’algorithme). Ainsi, tous les Tweets de ces 184,000 personnes ont été analysés et les chercheurs ont essayé de voir les caractéristiques inhérentes aux comptes féminins et masculins qui permettraient de les discriminer.

Une première phase de test a été de déterminer si l’algorithme pouvait retrouver le sexe grâce au nom du profil, ce qui était possible dans 89% des cas ! Plus dur maintenant, en analysant le contenu d’un simple Tweet prit au hasard, l’algorithme retrouve dans 66% des cas le sexe de l’utilisateur, ce qui n’est pas très précis mais assez impressionnant sur si peu d’information. En analysant tous les Tweets sur une timeline, la précision augmente à 75% d’identité et 77% en analysant simplement la description. En prenant en compte les Tweets, le nom et la description en même temps, la précision de l’algorithme monte à 92% !

La ponctuation s’est souvent avéré être un très bon indicateur du sexe. L’usage du smiley souriant ou une utilisation abusive des points s’exclamation semble être typiquement corrélé avec des utilisateurs féminins (ne vous offusquez pas, c’est de la science !). Le vocabulaire est aussi un bon discriminant des mots comme « amour », « mignon », « heureux », « maman », « dormir », « école », « bébé », « lit », « chocolat » ont tendance à indiquer également un profil féminin alors que les mots discriminants masculins trouvés par l’algorithme sont seulement « http » et « google » (ainsi que la non-utilisation des mots pour les filles) ! Ça peut paraître bizarre et/ou stéréotypé … mais apparemment ça marche !

Il est certain que ce genre d’algorithme risque d’intéresser Twitter puisque grâce à une analyse rapide du sexe probable de l’utilisateur, la plate-forme de micro-blogging pourra affiner ses publicités ciblées, une fonctionnalité très recherchée par les annonceurs. En attendant ne croyez plus à votre anonymat de genre sur Twitter, vous vous trahissez à chaque Tweet ! 😉


Nos dernières vidéos

32 commentaires

  1. Oui enfin y a rien de révolutionnaire je pense, c’est comme si on analysait des tweets d’enfants (en imaginant que ca existe, c’est histoire d’illustrer ;p) en selectionnant sur « barbie, copine, corde à sauter » et « superman, copain, bagarre » :]

  2. Pingback: Un nouvel algorithme devine votre sexe en analysant vos Tweets ! | Stratégie So Me | Scoop.it

  3. Je peux me tromper, mais il me semble que la proportion d’hommes sur twitter est de plus de 70%
    Comme ils n’ont qu’une chance sur deux de se tromper, tout n’est plus qu’affaire de statistiques.
    Ca me semble fumeux cette histoire, après on peut effectivement analyser les tweets, mais comme un homme finira forcément par faire une blague sexiste, ou sortir un truc de type « je ne suis pas homme à… »
    Ca me semble à la portée de n’importe qui.

    • Jean-Baptiste

      @TechMeOut : Non tu te trompes, la proportion sur Twitter contrairement aux attentes est estimée à 55% de femmes ! (voir l’étude ici) donc au niveau stats ça devient nettement plus compliqué 🙂

  4. Pingback: Un nouvel algorithme devine votre sexe en analysant vos Tweets ! | Les scoop à CZERO | Scoop.it

  5. Disons que s’ils arrivent à deviner votre sexe, ils peuvent également deviner vos centres d’intérêts, vos habitudes de consommation, vos périodes de vacances, vos revenus, vos opinions politiques, etc.

  6. Je trouve ça tout de même violent comme analyse. Même si c’est de la science (je ne démens pas, je vois comment mes prochains et prochaines s’expriment par écrit, globalement), on passe, en tant que femmes pour de fichues hystériques, tout de même.
    Parce que je suis amatrice de NTIC et que je déteste la surponctuation (entre autres), je serais prête à parier que Twitter se tromperait sur mon sexe ! 😉 (petit smiley quand même)

  7. Ce serait intéressant qu’ils créent une appli permettant de pouvoir tester son propre profil Twitter pour savoir s’il est stéréotypé ou non. Pour voir si on fait partir des 8% indécelables…

  8. Juste pour info, google fait cela depuis très longtemps en analysant vos requêtes tapées (d’ailleurs je n’ai plus l’url sous la main mais il est possible d’avoir accès à ces infos). Il liste également les centres d’intérêt.

  9. mouais, si ça les intéressait chez twitter ils demanderaient simplement le sexe de l’utilisateur lors de la création du compte…

  10. Ca ne me parait pas fantastique comme découverte. Du moment, où tu as un échantillon assez grand tu peux facilement mettre au point ce genre d’algorithme et les sociétés qui vendent de la publicité ciblée doivent avoir une armée de mathématiciens qui doivent en développer des beaucoup plus impressionnants.

    • Jean-Baptiste

      @cuisine : Pour travailler dans le domaine au jour le jour, l’analyse de texte humain (natural language processing) ça parait pas très compliqué vu de loin mais en fait arriver à des algo qui discriminent à plus de 90% c’est plutôt très très bien !

  11. Depuis l’arrivé de facebook il n’y a déjà plus d’anonymat sur internet. Il est possible d’avoir des informations sur qui on veut sur le net donc je ne vois pas trop l’interet de ce truc …

  12. Me suis planté d’article donc je réitère.. c pas comme si la langue française regorgeait d’indicateurs concernant le sexe… Un peu sensationnaliste à mon goût :p

  13. Pingback: Twitter : un algorithme pour détermier le sexe des utilisateurs | Geeko

  14. ah c’est bien peut être qu’on pourra bientôt classer les gens, et détecter toute sortes d’anomalies chez les gens suite à leur tweet. Comme ca on fera des groupes de gens en fonction de leur tweet…dsl mais je ne vois pas vraiment l’interet de ce genre de choses.

  15. Pingback: Un nouvel algorithme devine votre sexe en analysant vos Tweets ! | Ma veille TIC | Scoop.it

  16. Ah bah si le principe est de déterminer le bord politique via les tweets, cela va peut être nous permettre de savoir quoi voter pour 2012…

  17. Mouai, mouai…on ne parvient à détecter les hommes que s’ils ne prononcent pas ces stupides mots qui caractérisent les femmes. La gente féminine en prend un coup, mon vieux.

  18. Mouarf,
    je faisais ça du temps des messageries Minitel.
    Ca fait un bail !
    Et je me trompais rarement.
    En revanche, chapeau pour mettre ça en équation.

    db

Répondre