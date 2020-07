L’ICML vient de se clôturer. Le plus grand événement mondial sur la recherche en machine learning. L’occasion rêvée pour Facebook de présenter ses derniers travaux en la matière. Le géant des réseaux sociaux a publié 30 travaux de recherche scientifique dont un qui retient tout particulièrement notre attention. Il s’agit d’une intelligence artificielle capable de séparer jusqu’à 5 voix sur un même micro tout en réduisant le bruit de fond.

Le modèle de Facebook peut séparer jusqu’à 5 voix et isoler le bruit de fond

Voilà une innovation qui ouvre de grandes opportunités. Nous pensons notamment aux assistants vocaux qui ont encore parfois du mal à bien nous comprendre. Avec une telle technologie, les échanges entre un humain et un assistant intelligent comme Siri ou Alexa pourrait être beaucoup plus fluide. Ce modèle d’intelligence artificielle pourrait aussi améliorer la qualité audio pour les personnes porteuses d’une aide auditive. Au-delà de séparer les voix, le modèle dévoilé par Facebook sait isoler le bruit de fond. Imaginez toutes les applications possibles d’une telle technologie, notamment pour les enregistrements.

Comme l’expliquent les chercheurs du FAIR (Facebook Artificial Intelligence Research) Israël, le laboratoire d’intelligence artificielle de Facebook, une nouvelle architecture de réseau neuronal fonctionnant directement sur la forme d’onde audio brute a été développée. Pour fonctionner, ce modèle n’a pas forcément besoin de connaître le nombre total de locuteurs. L’IA détecte automatiquement le nombre de personnes différentes et peut séparer jusqu’à 5 voix sur une même piste audio.

Comme nous pouvons le lire sur le site de Facebook AI, cette méthode semble bel et bien révolutionnaire. Les chercheurs ont utilisé les ensembles de données WSJ0-2mix et WSJ0-3mix, pour obtenir une amélioration du SI-SNR ( le rapport signal/bruit, une mesure commune de la qualité de séparation) de plus de 1,5 décibels par rapport meilleur modèles du marché. Pour le moment la technologie présentée par les chercheurs de Facebook fonctionne en studio. La prochaine étape est de tester sa performance dans des conditions réelles.

Le potentiel de l’audio

Grâce à l’intelligence artificielle, l’audio semble avoir un réel potentiel. Il y a quelques mois, Google Duo présentait également un modèle capable d’améliorer la qualité audio des appels. WaveNetEQ est un modèle de machine learning capable de remplacer des sons courts lorsque vos données audio se perdent en cours de route. Pratique quand on sait que 99% des appels subissent une perte de données audio.

Twitter propose depuis quelques semaines une fonctionnalité de messages audio pour les utilisateurs d’iOS. Avec cette nouvelle option, il est enfin possible de partager des commentaires beaucoup plus détaillés puisque les clips audio pourront s’étaler jusqu’à 140 secondes. Une fois ce plafond atteint, un nouveau message pourra même être inséré en dessous de l’original, dans un thread. L’audio prend une place de plus en plus importante à travers les médias et nous le constatons notamment avec le développement des podcasts.