Il y a quelques années, reproduire une voix humaine par ordinateur était un processus long et demandant une somme de données énormes. Aujourd’hui, c’est une opération banale qui ne nécessite que quelques secondes d’enregistrement. Cette évolution éclair, au-delà de ses aspects technologiques, interroge sur les applications de ces outils et de leur transparence : comment identifier facilement un extrait de voix générée artificiellement ?
Cloner une voix à partir d’un échantillon de parole de quelques secondes. En quelques années, la génération de parole, ou deepfakes vocaux, est passé d’un processus long et laborieux à un service facilement accessible et ultra rapide. Et si les voix modifiées ou synthétisées sont de plus en plus courantes et réalistes, il n’est pas toujours facile de les identifier.
Comment produire de la voix à la demande ?
Plusieurs techniques existent pour générer de la parole, suivant le type de données utilisées en entrée (texte ou parole). Dans le premier cas, les modèles permettant de passer d’un texte à un signal vocal : il s’agit de synthèse de parole. Dans le second, l’entrée est le signal acoustique d’un locuteur que l’on veut alors modifier pour qu’il soit perçu comme s’il avait été prononcé par quelqu’un d’autre : c’est la conversion de voix.
De nombreuses applications, mais pas toujours bien intentionnées
La qualité obtenue avec les systèmes actuels est très bonne. Cependant, pour l’instant, on ne peut pas réellement déterminer comme on le souhaite les caractéristiques de la voix, qui dépendent des données utilisées pour entraîner les modèles. D’une part, le modèle ne peut pas inventer ce qu’il n’a pas vu lors de son entraînement, d’autre part, les techniques actuelles ne permettent pas un contrôle fin sur la sortie générée. Ainsi, il manque des leviers pour ajuster des éléments liés à l’identité de la voix comme l’âge perçu, l’accent ou encore l’émotion. Cela fait d’ailleurs l’objet de recherches en cours, comme dans le cadre du projet [EVA].
En quelques années, les technologies de synthèse et de conversion de voix ont fait des progrès fulgurants, posant de ce fait de nouveaux problèmes éthiques et techniques. Désormais, l’enjeu est de permettre des applications variées sans pour autant faciliter l’utilisation trompeuse de voix générées, et donc de clarifier l’origine naturelle ou artificielle des enregistrements sonores. C’est ainsi que nous pourrons éviter un flot de fake news particulièrement réalistes ou même de brouiller la distinction entre humain et intelligence artificielle, comme le dépeint le film Her de Spike Jonze.