Auteur

Mots clés

reconnaissance vocale automatique , ASR , modèle de séquences , réseaux de neurones , speech recognition , RNN , seq-to-seq

Résumé en français

La reconnaissance automatique de la parole consiste à trouver un moyen de permettre aux ordinateurs de reconnaître la langue parlée et de la transcrire en texte. Si l'on cherche à transcrire un fichier audio, il faut déjà déterminer quelles parties de ce dernier contiennent des informations pertinentes (ces parties seront ensuite décodées alors que le reste sera ignoré). Si des parties intéressantes sont trouvées dans l'enregistrement, le système doit les étiqueter correctement. En effet, les données de parole sont constituées de trames audio et la transcription consistera à regrouper les trames intéressantes de la séquence d'entrée et à attribuer des étiquettes à ces groupes. Une fois que les groupes de séquences d'entrée sont trouvés et associés à une séquence d'étiquettes, les deux sont considérés comme alignés. Tout ceci soulève une question : Comment établir un alignement de séquence en séquence ? Ce rapport s’appuie sur des méthodes d’apprentissage automatique pour tenter de déterminer ce qui se dit et en particulier sur les réseau de neurones. L'utilisation de méthodes d'apprentissage automatique soulèvera différentes problématiques : Quelle architecture modèle est capable de gérer les motifs complexes trouvés dans les données de parole ? Quels hyper-paramètres faut-il choisir pour un tel modèle ? Comment former un modèle qui généralise bien (le sur-apprentissage est un problème connu des méthodes d'apprentissage automatique) ? Travailler avec des données de parole brutes devrait en principe être possible. Dans la littérature consacrée au traitement de la parole, les chercheurs utilisent souvent des représentations dans le domaine de fréquence des données de parole originales. Ces représentations sont également appelées caractéristiques, ce qui nous amènera à nous poser d'autres questions : quel type de représentation de caractéristique du signal d'entrée devrions nous favoriser ? Comment maximiser l'extraction de l'information "utile" du fichier audio sans trop alourdir les inputs (et ralentir la phase d'apprentissage) ? Ce rapport est une tentative de réponse aux questions ci-dessus, à travers l’étude de la littérature, le codage et l’expérimentation.

Année

2019

Année de soutenance

2019-09-06

Nombre de pages

51

Type de dépôt

Rapport de stage

Langue de publication

Français

Éditeur

Université Angers

Lieu d'édition

Angers

Citation Key

dune11323

URL

http://dune.univ-angers.fr/fichiers/17008614/2019TMMA11323/fichier/11323F.pdf

Libellé de l'étape

M2 Maths Appli / Data sciences & Données Bio & Numériques

Bac+

5

Maître de stage

Michael Trupin

Publication du contenu

Mon, 01/13/2020 - 12:51

Libellé de l'UFR

UFR de Sciences

Libellé du diplôme

Master Mathématiques et Applications

Entreprise

Groupe Santiane

Tuteur

Fabien Panloup

Diffusion du fichier :

Accès refusé : la consultation de ce document est réservée aux membres de l'Université d'Angers. Merci de vous connecter. Membre d'un établissement d'enseignement supérieur public français, contactez votre service du prêt entre bibliothèques.

Reconnaissance vocale automatique de bout-en-bout