1. Accueil
  2. TTS
  3. Qu'est-ce que Microsoft VALL-E ?
Social Proof

Qu'est-ce que Microsoft VALL-E ?

Speechify est le lecteur audio numéro 1 au monde. Parcourez les livres, documents, articles, PDF, e-mails - tout ce que vous lisez - plus rapidement.

À l'honneur dans

forbes logocbs logotime magazine logonew york times logowall street logo
Écoutez cet article avec Speechify !
Speechify

Microsoft VALL-E représente la dernière avancée technologique capable de produire une synthèse vocale d'une naturalité saisissante. Voici une analyse détaillée de cette technologie.

La technologie de synthèse vocale a fait des progrès considérables, surtout ces dernières années. Grâce aux améliorations de l'intelligence artificielle, les systèmes TTS actuels peuvent offrir des lectures de haute qualité imitant la parole humaine.

VALL-E de Microsoft est la dernière solution technologique qui pourrait rendre la synthèse vocale étonnamment réaliste. C'est un modèle de langage à codec neuronal basé sur l'apprentissage automatique sans échantillon préalable.

Si cette dernière phrase vous semble être du jargon de science-fiction, ne vous inquiétez pas. Nous allons décomposer les concepts complexes derrière VALL-E dans l'article ci-dessous.

Explication de Microsoft VALL-E

Les modèles d'IA gagnent en puissance à un rythme rapide. Tout le monde connaît désormais ChatGPT d'OpenAI, qui pourrait être ce qui se rapproche le plus d'une IA semblant être une véritable personne. Et vous avez probablement vu des œuvres d'art générées par l'IA du moteur DALL-E.

En plus des startups comme OpenAI, des entreprises mondiales comme Microsoft jouent un rôle majeur dans le domaine de l'IA.

Les chercheurs de Microsoft ont récemment travaillé sur des avancées dans la synthèse vocale. VALL-E en est le résultat.

La nouvelle IA pourrait bien révolutionner le paysage de la synthèse vocale car elle peut générer une voix humaine à partir d'un petit échantillon audio. Un extrait acoustique de trois secondes suffit à VALL-E pour capter les particularités du locuteur.

Après avoir reçu l'échantillon du locuteur, l'IA peut imiter la voix humaine et même simuler son ton émotionnel. Tout aussi impressionnant, VALL-E préserve l'environnement acoustique du locuteur non visible.

En termes simples, le modèle VALL-E excelle dans la similitude vocale. Vous pouvez l'entendre en action sur GitHub, où Microsoft a partagé des exemples audio accompagnés d'une explication détaillée de l'IA.

Bien sûr, une telle technologie a de nombreuses utilisations potentielles, comme la création de podcasts et de livres audio. Le potentiel pourrait encore croître à mesure que VALL-E se combine avec des modèles génératifs comme GPT-3.

Mais une technologie comme VALL-E pourrait aussi être utilisée à des fins plus malveillantes.

Étant donné que VALL-E peut sonner effroyablement comme une personne réelle, il est facile de voir comment des acteurs malveillants pourraient utiliser cette technologie pour des escroqueries comme des deepfakes nuisibles et non consensuels. De telles possibilités ont poussé Microsoft à publier une déclaration éthique.

Dans cette déclaration, l'entreprise préconise des modèles d'édition vocale spécifiques qui garantiraient le consentement du locuteur original.

Mais les controverses autour des utilisations potentielles de VALL-E sont une considération pour l'avenir. Pour l'instant, une question plus passionnante se pose :

Comment l'IA parvient-elle à reproduire des schémas complexes avec seulement trois secondes d'audio comme échantillon de base ?

Sans surprise, la réponse est plutôt complexe.

VALL-E a été formé avec des données étendues, comprenant des milliers d'heures de discours en anglais. Cela a préparé l'IA à une simulation fluide de la langue anglaise. Cependant, VALL-E n'est pas un système TTS ordinaire – il est alimenté par une technologie d'apprentissage automatique de pointe.

Nous avons déjà mentionné le nom de la technologie : modèle de langage à codec neuronal sans échantillon préalable. Voyons ce que ces termes signifient en pratique.

Comprendre les modèles de langage à codec neuronal sans échantillon préalable

Commençons par le terme le plus simple, « sans échantillon préalable », qui se réfère à une technologie spécifique pour les moteurs de synthèse vocale. Elle permet de générer une voix à partir de données inconnues. En d'autres termes, l'ordinateur peut lire à haute voix un texte qu'il n'a jamais « vu » auparavant.

Plus impressionnant encore, la technologie sans échantillon préalable permet à la machine de produire des lectures sans formation supplémentaire. Essentiellement, c'est similaire à la façon dont les humains peuvent lire un texte inconnu dans une langue qu'ils connaissent déjà.

Passons à la partie compliquée, le « modèle de langage à codec neuronal » nécessite une explication plus approfondie.

Les moteurs TTS s'appuient sur des codecs audio pour créer des formes d'onde à partir de texte écrit. Le codec aide l'IA à traduire les lettres, mots et phrases écrits en sons correspondants. Un codec neuronal sert le même objectif mais est basé sur un réseau neuronal robuste.

Bien sûr, cela pose une question supplémentaire : Qu'est-ce qu'un réseau neuronal ?

Nous allons l'expliquer ici de manière générale sans entrer dans des détails encore plus profonds. Un réseau neuronal tente de mimer le fonctionnement du cerveau humain. Le réseau est constitué de neurones artificiels appelés nœuds, qui sont connectés et organisés en couches.

La structure complexe permet ce qu'on appelle l'apprentissage profond, rendant la machine plus capable de développer et d'adapter des schémas inconnus.

Le codec neuronal alimente le modèle de langage, l'autre partie de cette équation de synthèse vocale.

Le modèle de langage s'appuie sur un ensemble de données pour comprendre tout texte dans le contexte d'une langue réelle. En d'autres termes, c'est ainsi que la machine "comprend" le texte.

Dans le cas de VALL-E, LibriLight, une bibliothèque audio compilée par Meta de Facebook, a servi de base au modèle de langage de l'IA.

Écoutez la technologie TTS de pointe en action avec Speechify

Bien que VALL-E ne soit pas encore disponible au public, vous pouvez entendre à quoi ressemble un moteur de synthèse vocale avancé avec Speechify. Speechify est un service TTS qui peut lire à haute voix du texte provenant de pratiquement n'importe quelle source.

Que vous lui donniez un texte écrit, un contenu web ou une page scannée, Speechify le lira instantanément. Mieux encore, le moteur propose des voix de narration qui sonnent naturelles. Contrairement aux moteurs TTS typiquement robotiques, Speechify ressemble plus à un humain qu'à une machine.

De plus, vous pouvez ajuster la façon dont Speechify lit. Choisissez votre langue, narrateur et vitesse de lecture préférés, et écoutez n'importe quel texte exactement comme vous le souhaitez.

Si tout cela vous semble excitant, vous pouvez essayer Speechify gratuitement aujourd'hui.

FAQ

Les gens peuvent-ils utiliser Vall-E ?

Il y a de nombreuses préoccupations concernant la manière dont VALL-E pourrait être abusé. Le vol d'identité est une possibilité particulièrement inquiétante. Pour cette raison, Microsoft a choisi de ne pas rendre VALL-E accessible au public.

Qu'est-ce que l'IA de Microsoft ?

L'IA de Microsoft n'est pas un produit particulier. Au lieu de cela, le programme de l'entreprise sert de cadre de développement pour l'IA. Microsoft AI inclut des solutions de science des données, de l'IA conversationnelle, de la robotique, de l'apprentissage automatique et d'autres avancées dans l'industrie.

Qu'est-ce qu'une interface vocale ?

Une interface vocale est exactement ce qu'elle semble être - une interface utilisateur avec laquelle vous interagissez via des commandes vocales. Cette technologie est déjà courante dans les appareils intelligents – pensez à Alexa d'Amazon, Siri d'Apple, Cortana de Microsoft ou l'Assistant de Google.

Qu'est-ce qu'un robot ?

Le terme "robot" désigne toute machine qui fonctionne automatiquement. Ces machines sont conçues pour remplacer le travail humain. Malgré la représentation typique dans les médias populaires, la plupart des robots n'ont pas une apparence humanoïde. En fait, ils peuvent même ne pas avoir de forme physique. Par exemple, les assistants virtuels populaires d'aujourd'hui comptent également comme des robots.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman est un défenseur de la dyslexie et le PDG et fondateur de Speechify, l'application de synthèse vocale numéro 1 au monde, totalisant plus de 100 000 avis 5 étoiles et se classant en première place dans la catégorie Actualités & Magazines de l'App Store. En 2017, Weitzman a été nommé dans la liste Forbes des moins de 30 ans pour son travail visant à rendre Internet plus accessible aux personnes ayant des troubles d'apprentissage. Cliff Weitzman a été présenté dans EdSurge, Inc., PC Mag, Entrepreneur, Mashable, parmi d'autres médias de premier plan.