Et si votre voix en disait beaucoup plus sur vous que n'importe-quelle autre donnée ?

C’est une tendance lourde, et cela pourrait bien représenter le nouvel or noir pour toutes les entreprises et organisations spécialisées dans l’analyse et l’exploitation des données personnelles : à une époque où l’audio revient en force, notamment à travers les assistants vocaux, notre voix vaut de l’or.

Elle vaut de l’or car comme le métal précieux, elle est unique et difficile à falsifier. Mais surtout, sans que nous le réalisions réellement, elle contient des informations surprenantes sur notre santé mentale et nos comportements. Comme une sorte de signature infalsifiable.

Les spécialistes de l’analyse des données personnelles le savent, et nombre d’entre eux se sont spécialisés dans le développement de programmes permettant d’établir des traits de profils psychologiques et d’anticiper des comportements à partir de « l’écoute » des voix des personnes auditées.

Montre-moi comment tu parles, je te dirai qui tu es

C’est le cas de Voicesense, par exemple, une société israélienne basée à Tel Aviv qui utilise l’analyse vocale en temps réel pendant des appels pour évaluer si quelqu’un est susceptible d’être en défaut sur un prêt bancaire, d’acheter un produit plus cher, ou d’être le meilleur candidat pour un emploi. Voicesense exploite le pouvoir de la voix, reliant les modèles de parole aux tendances personnelles pour prévoir le comportement individuel. Pour Voicesense, « la voix est partout. L’écoute des interactions vocales révèle les caractéristiques fondamentales d’une personne, bien plus que ce que les mots réels ne peuvent transmettre. »

Mais Voicesense n’est pas la seule à s’intéresser à nos cordes vocales et à ce qu’elles disent de nous. C’est d’ailleurs une analyse à laquelle nous nous livrons naturellement au quotidien : qui n’a pas déjà jugé ou évalué une personne au ton de sa voix ? Il est même étonnant que les recruteurs n’aient pas eu l’idée de demander aux candidats postulant à un poste d’enregistrer un extrait de leur voix en complément des fameuses et souvent obsolètes analyses graphologiques. Au cours des dernières années, de nombreux chercheurs et startups ont pris note de la richesse de l’information que l’on peut extraire de la voix, d’autant plus que la popularité d’assistants vocaux comme Amazon Alexa, Google Home ou Siri a habitué les consommateurs à parler naturellement et sans crainte à leurs appareils.

Selon un rapport de la société d’analyse commerciale IdTechEx mentionné dans cette enquête de nos confrères de The Verge, le marché des technologies vocales est en forte croissance et devrait atteindre 15,5 milliards de dollars d’ici 2029. « Presque tout le monde parle et il y a une pléthore d’appareils qui capturent la voix, qu’il s’agisse de votre téléphone ou d’objets comme Alexa et Google Home », explique Satrajit Ghosh, chercheur au McGovern Center for Brain Research du MIT, qui s’intéresse au développement de l’analyse vocale pour la santé mentale. « La voix est devenue un courant assez omniprésent dans la vie. »

La voix n’est pas seulement omniprésente, elle est également très personnelle, difficile à simuler, et présente dans certains de nos environnements les plus intimes. Les gens parlent à Alexa chez eux. Ce qui évidemment pose question. Car si aujourd’hui, nombreux sont ceux qui savent que leurs publications écrites ou graphiques (photo, vidéo) sur les réseaux sociaux peuvent être surveillées, ils sont moins nombreux à considérer leur voix comme une autre forme de données qui peuvent en dire beaucoup sur eux. Tout cela a donné lieu à des recherches sur la façon dont cette information peut enrichir nos vies, ainsi que sur les préoccupations en matière de protection de la vie privée quant à l’exactitude de ces renseignements et à la façon dont ils seront utilisés.

Contrairement à l’écrit, c’est davantage la forme que le fond qui en dit le plus sur nous. C’est ainsi que la clé de la recherche en analyse de la voix n’est pas ce que quelqu’un dit, mais comment il le dit : les tonalités, la vitesse, les accents, les pauses. Le truc, c’est l’apprentissage machine. Prélevez des échantillons étiquetés de deux groupes ayant prononcé le même texte et transmettez ces données à un algorithme. L’algorithme apprend alors à capter les signes subtils de la parole qui pourraient indiquer si quelqu’un fait partie du groupe A ou du groupe B, et pourra faire la même chose sur de nouveaux échantillons à l’avenir.

Des applications médicales pour détecter les personnes dépressives

Les résultats peuvent parfois être contre-intuitifs, dit Louis-Philippe Morency, un informaticien de l’Université Carnegie Mellon qui a mis sur pied un projet appelé SimSensei qui permet de détecter la dépression par la voix. Dans le cadre de certaines des premières recherches qui ont tenté d’apparier les caractéristiques vocales à la probabilité d’une nouvelle tentative de suicide, l’équipe de Morency a constaté que les personnes étant les plus susceptibles de repasser à l’acte étaient celles qui avaient une voix douce et posée. L’algorithme doit être capable de prendre ces nuances en compte, peut-être mieux qu’un humain ne pourrait le faire.

Mais c’est sans surprise du côté de l’exploitation commerciale des données issues de la voix que la compétition est déjà lancée. Des entreprises et services comme Voicesense, CallMiner, RankMiner et Cogito promettent d’utiliser l’analyse vocale dans un contexte commercial. La plupart du temps, cela signifie améliorer l’engagement du service à la clientèle dans les centres d’appels, mais Voicesense va un peu plus loin. « Aujourd’hui, nous sommes en mesure d’établir un profil de personnalité complet », affirme Yoav Degani, le PDG de la société dont les plans vont bien au-delà de l’apaisement des clients mécontents. Son entreprise s’intéresse à tout, et la liste serait presque inquiétante dans ce qu’elle révèle des possibilités de profilage fondées sur la voix : prévisions de défaut de paiement des prêts, prévisions de réclamations d’assurance, révélation du style d’investissement des clients, évaluation interne des candidats pour les RH, évaluation de la probabilité de départ des employés. « Nous ne sommes pas corrects dans 100 % des cas, mais nous le sommes dans un pourcentage très impressionnant », affirme Yoav Degani. « Nous pouvons fournir des prévisions sur le comportement de santé, le comportement au travail, le divertissement, etc. »

Selon M. Degani, l’algorithme de traitement de la parole Voicesense mesure plus de 200 paramètres par seconde et peut être précis sur de nombreuses langues différentes, y compris les langues tonales comme le mandarin. Le programme en est encore au stade pilote, mais l’entreprise est en contact avec de grandes banques et d’autres investisseurs, dit-il. « Tout le monde est fasciné par le potentiel d’une telle technologie. »

Des dérives à anticiper en encadrant l’utilisation des données vocales

Le service à la clientèle est une chose, mais on peut craindre que certaines des applications que Voicesense envisage soient discriminatoires. Des dérives déjà prévues par certaines protections des consommateurs. La voix est considérée comme une mesure biométrique, et quelques États américains, comme l’Illinois, ont déjà des lois qui garantissent la sécurité biométrique. Calo ajoute que le problème des préjugés liés à des catégories sensibles comme la race ou le sexe est endémique aux techniques d’apprentissage automatique, que ces techniques soient utilisées dans l’analyse de la voix ou dans les CV. Cela étant, bien qu’il existe des lois anti-discriminatoires, bon nombre des questions entourant l’analyse de la voix se heurtent à des questions plus vastes sur le moment où il est acceptable d’utiliser l’information et sur ce qui constitue de la discrimination, qui sont des concepts auxquels nous, en tant que société, n’avons pas suffisamment fait face.

Plus proche de nous, la prise en compte de la voix dans l’exploitation des données personnelles avec le RGPD. Si ce règlement très contraignant et compliqué pour tous les acteurs d’internet prétend protéger les consommateurs de tous les abus en matière d’exploitation de leurs données personnelles, qu’en est-il de la voix ? C’est également prévu, puisque cette dernière est considérée ici aussi comme une empreinte biométrique au même titre que les empreintes digitales, et qu’elle fait également partie de notre identité. Une entreprise – française – comme Snips, par exemple, développe un assistant vocal qui intègre la « privacy by design » requis par le RGPD, puisque les données ne sont pas envoyées sur un serveur mais traitées directement en local sans laisser de traces par l’appareil lui-même.

Vous êtes prévenus, et pensez-y à chaque fois qu’un service vous prévient qu’il va “enregistrer cette conversation afin d’améliorer la qualité de sa prestation”. Et si vous vous méfiez des espions qui peuvent potentiellement enregistrer votre voix à votre insu, qu’il s’agisse d’un assistant vocal, de votre voiture ou de votre montre connectée, dites-vous que ce que vous dites compte peut-être moins que la façon dont vous le dites…

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.