Reconnaissance vocale automatique de bout-en-bout

TitreReconnaissance vocale automatique de bout-en-bout
TypeRapport de stage
AuteursMaghraoui Abdelhakim
DirecteursPanloup Fabien
Année2019
URLhttp://dune.univ-angers.fr/fichiers/17008614/2019TMMA11323/fichier/11323F.pdf
Mots-clésASR, modèle de séquences, reconnaissance vocale automatique, réseaux de neurones, RNN, seq-to-seq, speech recognition
Résumé

La reconnaissance automatique de la parole consiste à trouver un moyen de permettre aux ordinateurs de reconnaître la langue parlée et de la transcrire en texte. Si l'on cherche à transcrire un fichier audio, il faut déjà déterminer quelles parties de ce dernier contiennent des informations pertinentes (ces parties seront ensuite décodées alors que le reste sera ignoré). Si des parties intéressantes sont trouvées dans l'enregistrement, le système doit les étiqueter correctement. En effet, les données de parole sont constituées de trames audio et la transcription consistera à regrouper les trames intéressantes de la séquence d'entrée et à attribuer des étiquettes à ces groupes. Une fois que les groupes de séquences d'entrée sont trouvés et associés à une séquence d'étiquettes, les deux sont considérés comme alignés. Tout ceci soulève une question : Comment établir un alignement de séquence en séquence ? Ce rapport s’appuie sur des méthodes d’apprentissage automatique pour tenter de déterminer ce qui se dit et en particulier sur les réseau de neurones. L'utilisation de méthodes d'apprentissage automatique soulèvera différentes problématiques : Quelle architecture modèle est capable de gérer les motifs complexes trouvés dans les données de parole ? Quels hyper-paramètres faut-il choisir pour un tel modèle ? Comment former un modèle qui généralise bien (le sur-apprentissage est un problème connu des méthodes d'apprentissage automatique) ? Travailler avec des données de parole brutes devrait en principe être possible. Dans la littérature consacrée au traitement de la parole, les chercheurs utilisent souvent des représentations dans le domaine de fréquence des données de parole originales. Ces représentations sont également appelées caractéristiques, ce qui nous amènera à nous poser d'autres questions : quel type de représentation de caractéristique du signal d'entrée devrions nous favoriser ? Comment maximiser l'extraction de l'information "utile" du fichier audio sans trop alourdir les inputs (et ralentir la phase d'apprentissage) ? Ce rapport est une tentative de réponse aux questions ci-dessus, à travers l’étude de la littérature, le codage et l’expérimentation.

Langue de rédactionFrançais
Nb pages51
Diplôme

Master Mathématiques et Applications

Date de soutenance2019-09-06
EditeurUniversité Angers
Place PublishedAngers
Entreprise

Groupe Santiane

Tuteur

Fabien Panloup

Libellé UFR

UFR de Sciences