Skip to main content

Reconnaissance vocale automatique de bout-en-bout

Résumé en français

La reconnaissance automatique de la parole consiste à trouver un moyen de permettre aux ordinateurs de reconnaître la langue parlée et de la transcrire en texte. Si l'on cherche à transcrire un fichier audio, il faut déjà déterminer quelles parties de ce dernier contiennent des informations pertinentes (ces parties seront ensuite décodées alors que le reste sera ignoré). Si des parties intéressantes sont trouvées dans l'enregistrement, le système doit les étiqueter correctement. En effet, les données de parole sont constituées de trames audio et la transcription consistera à regrouper les trames intéressantes de la séquence d'entrée et à attribuer des étiquettes à ces groupes. Une fois que les groupes de séquences d'entrée sont trouvés et associés à une séquence d'étiquettes, les deux sont considérés comme alignés. Tout ceci soulève une question : Comment établir un alignement de séquence en séquence ? Ce rapport s’appuie sur des méthodes d’apprentissage automatique pour tenter de déterminer ce qui se dit et en particulier sur les réseau de neurones. L'utilisation de méthodes d'apprentissage automatique soulèvera différentes problématiques : Quelle architecture modèle est capable de gérer les motifs complexes trouvés dans les données de parole ? Quels hyper-paramètres faut-il choisir pour un tel modèle ? Comment former un modèle qui généralise bien (le sur-apprentissage est un problème connu des méthodes d'apprentissage automatique) ? Travailler avec des données de parole brutes devrait en principe être possible. Dans la littérature consacrée au traitement de la parole, les chercheurs utilisent souvent des représentations dans le domaine de fréquence des données de parole originales. Ces représentations sont également appelées caractéristiques, ce qui nous amènera à nous poser d'autres questions : quel type de représentation de caractéristique du signal d'entrée devrions nous favoriser ? Comment maximiser l'extraction de l'information "utile" du fichier audio sans trop alourdir les inputs (et ralentir la phase d'apprentissage) ? Ce rapport est une tentative de réponse aux questions ci-dessus, à travers l’étude de la littérature, le codage et l’expérimentation.

Année
2019
Nombre de pages
51
Année de soutenance
2019-09-06
Type de dépôt
Rapport de stage
Langue de publication
Français
Éditeur
Université Angers
Lieu d'édition
Angers
Citation Key
dune11323
URL
http://dune.univ-angers.fr/fichiers/17008614/2019TMMA11323/fichier/11323F.pdf
Rapport
Libellé de l'étape
M2 Maths Appli / Data sciences & Données Bio & Numériques
Bac+
5
Maître de stage
Michael Trupin
Publication du contenu
Libellé de l'UFR
UFR de Sciences
Libellé du diplôme
Master Mathématiques et Applications
Entreprise
Groupe Santiane
Tuteur
Fabien Panloup
Diffusion du fichier :