Reconnaissance vocale automatique de bout-en-bout
Titre | Reconnaissance vocale automatique de bout-en-bout |
Type | Rapport de stage |
Auteurs | Maghraoui Abdelhakim |
Directeurs | Panloup Fabien |
Année | 2019 |
URL | http://dune.univ-angers.fr/fichiers/17008614/2019TMMA11323/fichier/11323F.pdf |
Mots-clés | ASR, modèle de séquences, reconnaissance vocale automatique, réseaux de neurones, RNN, seq-to-seq, speech recognition |
Résumé | La reconnaissance automatique de la parole consiste à trouver un moyen de permettre aux ordinateurs de reconnaître la langue parlée et de la transcrire en texte. Si l'on cherche à transcrire un fichier audio, il faut déjà déterminer quelles parties de ce dernier contiennent des informations pertinentes (ces parties seront ensuite décodées alors que le reste sera ignoré). Si des parties intéressantes sont trouvées dans l'enregistrement, le système doit les étiqueter correctement. En effet, les données de parole sont constituées de trames audio et la transcription consistera à regrouper les trames intéressantes de la séquence d'entrée et à attribuer des étiquettes à ces groupes. Une fois que les groupes de séquences d'entrée sont trouvés et associés à une séquence d'étiquettes, les deux sont considérés comme alignés. Tout ceci soulève une question : Comment établir un alignement de séquence en séquence ? Ce rapport s’appuie sur des méthodes d’apprentissage automatique pour tenter de déterminer ce qui se dit et en particulier sur les réseau de neurones. L'utilisation de méthodes d'apprentissage automatique soulèvera différentes problématiques : Quelle architecture modèle est capable de gérer les motifs complexes trouvés dans les données de parole ? Quels hyper-paramètres faut-il choisir pour un tel modèle ? Comment former un modèle qui généralise bien (le sur-apprentissage est un problème connu des méthodes d'apprentissage automatique) ? Travailler avec des données de parole brutes devrait en principe être possible. Dans la littérature consacrée au traitement de la parole, les chercheurs utilisent souvent des représentations dans le domaine de fréquence des données de parole originales. Ces représentations sont également appelées caractéristiques, ce qui nous amènera à nous poser d'autres questions : quel type de représentation de caractéristique du signal d'entrée devrions nous favoriser ? Comment maximiser l'extraction de l'information "utile" du fichier audio sans trop alourdir les inputs (et ralentir la phase d'apprentissage) ? Ce rapport est une tentative de réponse aux questions ci-dessus, à travers l’étude de la littérature, le codage et l’expérimentation. |
Langue de rédaction | Français |
Nb pages | 51 |
Diplôme | Master Mathématiques et Applications |
Date de soutenance | 2019-09-06 |
Editeur | Université Angers |
Place Published | Angers |
Entreprise | Groupe Santiane |
Tuteur | Fabien Panloup |
Libellé UFR | UFR de Sciences |