Min menu

Pages

L'IA de synthèse vocal Facebook.

L'IA de synthèse vocal Facebook

L'IA de synthèse vocale de Facebook génère de la parole en 500 millisecondes.

Facebook a dévoilé récemment un système de synthèse vocale AI (TTS) hautement efficace qui peut être hébergé en temps réel à l'aide de processeurs classiques. Il alimente actuellement Portal , la marque d'écrans intelligents de la société, et il est disponible en tant que service pour d'autres applications, comme la VR, en interne sur Facebook. 

Parallèlement à une nouvelle approche de collecte de données, qui s'appuie sur un modèle de langue pour la conservation, Facebook dit que le système - qui produit une seconde d'audio en 500 millisecondes - lui a permis de créer une voix accentuée britannique en six mois, contre plus d'un an. pour les voix précédentes. 

La plupart des systèmes IA TTS modernes nécessitent des cartes graphiques, des matrices de portes programmables sur site (FPGA) ou des puces IA conçues sur mesure comme les unités de traitement des tenseurs (TPU) de Google pour fonctionner, s'entraîner ou les deux. Par exemple, un système Google IA récemment détaillé a été formé sur 32 TPU en parallèle. La synthèse d'une seule seconde d'audio de type humain peut nécessiter la sortie de jusqu'à 24 000 échantillons - parfois même plus. Et cela peut coûter cher; Les TPU de dernière génération de Google coûtent entre 2,40 $ et 8 $ par heure dans Google Cloud Platform. 

Les systèmes TTS comme la promesse de Facebook de fournir des voix de haute qualité sans avoir besoin de matériel spécialisé. En fait, Facebook dit que son système a atteint une accélération de 160 fois par rapport à une ligne de base, ce qui le rend apte aux appareils soumis à des contraintes de calcul. 

"Le système ... jouera un rôle important dans la création et la mise à l'échelle de nouvelles applications vocales qui semblent plus humaines et expressives", a déclaré la société dans un communiqué. «Nous sommes ravis de fournir un son de meilleure qualité… afin que nous puissions continuer plus efficacement à apporter des interactions vocales à tout le monde dans notre communauté.» 

Composants 

Le système de Facebook comporte quatre parties, chacune se concentrant sur un aspect différent de la parole: un front-end linguistique, un modèle de prosodie, un modèle acoustique et un vocodeur neuronal. 

Le front-end convertit le texte en une séquence de caractéristiques linguistiques, telles que le type de phrase et les phonèmes (unités de son qui distinguent un mot d'un autre dans une langue, comme p , b , d et t dans les mots anglais pad , pat , mauvais , et bat ). Quant au modèle de prosodie, il s'appuie sur les caractéristiques linguistiques, le style, le locuteur et les intégrations linguistiques - c'est-à-dire les représentations numériques que le modèle peut interpréter - pour prédire les rythmes au niveau de la parole des phrases et leurs fréquences fondamentales au niveau du cadre. ("Frame" se réfère à une fenêtre de temps, tandis que "fréquence" se réfère à la mélodie.) 

Les intégrations de style permettent au système de créer de nouvelles voix, notamment «assistant», «doux», «rapide», «projeté» et «formel» en utilisant seulement une petite quantité de données supplémentaires par-dessus un ensemble d'entraînement existant. Seulement 30 à 60 minutes de données sont nécessaires pour chaque style, affirme Facebook - un ordre de grandeur inférieur aux «heures» d'enregistrements qu'un système Amazon TTS similaire prend pour produire de nouveaux styles. 

Le modèle acoustique de Facebook exploite une architecture conditionnelle pour faire des prédictions basées sur des entrées spectrales ou des fonctionnalités spécifiques basées sur la fréquence. Cela lui permet de se concentrer sur les informations regroupées dans des trames voisines et de former un vocodeur plus léger et plus petit, qui se compose de deux composants. Le premier est un sous-modèle qui suréchantillonne (c.-à-d. Étend) les codages des caractéristiques d'entrée de la fréquence d'images (187 prédictions par seconde) à la fréquence d'échantillonnage (24 000 prédictions par seconde). Un deuxième sous-modèle similaire à l'algorithme de synthèse vocale WaveRNN de DeepMind génère un échantillon audio à la fois à un taux de 24 000 échantillons par seconde. 

Amélioration des performances 

La nature autorégressive du vocodeur - c'est-à-dire son exigence de synthèse des échantillons dans un ordre séquentiel - fait de la synthèse vocale en temps réel un défi majeur. Exemple concret: une première version du système TTS prenait 80 secondes pour générer seulement une seconde d'audio. 

Heureusement, la nature des réseaux de neurones au cœur du système a permis une optimisation. Tous les modèles sont constitués de neurones, qui sont des fonctions connectées en couches. Les signaux des données d'entrée se déplacent d'une couche à l'autre et «règlent» lentement la sortie en ajustant la force (poids) de chaque connexion. Les réseaux de neurones n'ingèrent pas d'images, de vidéos, de texte ou d'audio bruts, mais plutôt des incorporations sous la forme de tableaux multidimensionnels comme des scalaires (nombres uniques), des vecteurs (tableaux ordonnés de scalaires) et des matrices (scalaires disposés en une ou plusieurs colonnes) et une ou plusieurs lignes). Un quatrième type d'entité qui encapsule les scalaires, les vecteurs et les matrices - les tenseurs - ajoute des descriptions de transformations (ou relations) linéaires valides.

Commentaires