Réseaux de neurones artificiels et apprentissage supervisé

Laboratoire III

Andres Perez-Uribe


 
voice
"La force des connexions synaptiques à l'entrée du neurone peut s'adapter, pour obtenir l'activité requise au niveau de la synapse de sortie. Si deux cellules sont activées en même temps alors la force de la connexion augmente"

D.O. Hebb (1949)

Objectifs

- Mettre en oeuvre un réseau neuromimétique pour résoudre un problème de classification.
- Valider le modèle trouvé par la méthode d'apprentissage supervisé. C'est à dire, évaluer la capacité de généralisation du réseau de neurones entrainé.

1. Introduction

Il s'agit d'utiliser une base de données de vocalisations avec le but d'entraîner un réseau de neurones capable d'identifier si une vocalisation est produite par un homme, par une femme, ou par un enfant.

Le fichier vowels.zip contient les données en format WAV. Ces données proviennent du site web du Prof. Peter Assmann du School of Behavioral and Brain Sciences de l'Université de Texas, Dallas. On y trouve le son des voyelles prononcés par des hommes, des femmes, et des enfants de 3, 5 et 7 ans, ainsi que le son de voyelles synthétisés (lire le fichier 0_README.txt).

2. Extraction de caractéristiques

Pour caractériser un son, on peut calculer la moyenne du timbre, de l'hauteur, de l'intensité, etc. ainsi que la réprésentation fréquentielle du son à l'aide de la Transormée de Fourier Rapide (FFT). Il existe également d'autres paramètres acoustiques comme les MFCC (mel-frequency cepstral coefficients), que d'ailleurs sont les paramètres le plus fréquemment utilisés en reconnaissance de la parole. Le calcul des paramètres MFCC se décompose en trois étapes : transformée de Fourier rapide, logarithme de l'énergie de 24 bandes de filtres Mel, transformée inverse en cosinus discret. Les filtres Mel sont des filtres triangulaires qui utilisent une échelle fréquentielle non linéaire qui tient compte des particularités de l'oreille humaine.

Pour le travail à effectuer, on vous propose de calculer les 13 coefficients MFCC des fichiers son et d'utiliser ces valeurs comme les entrées à associer a une classe donnée (homme, femmme, enfant). Vous pouvez utiliser le logiciel Jaudio. (Un autre logiciel qui semble assez puissant est praat).

3. Entraînement d'un réseau de neurones

Pour entrainer un réseau de neurones on va utiliser le logiciel FENNIX, développé par Hector-Fabio SATIZABAL à l'HEIG-VD. Suivre ce lien qui sert de guide rapide d'utilisation du logiciel. Pour vous familiariser avec le logiciel, utilisez la base de données fourni ici pour entraîner un réseau de neurones que fait la classification de trois types de vins italiens.

4. Rapport de laboratoire

Ce travail pratique reste assez ovuert dans le sens que vous pouvez vous intéresser à divers aspects. Pour vous donner une idée des expèriences à faire, on vous propose de tester différents topologies (différents nombre de neurones dans la couche cachée), différents valeurs de taux d'apprentissage, de la pondération du momentum, weight decay, etc.
La base de données fournie contient des sons des voyelles prononcées par trois hommes, trois femmes et 9 enfants de diverses ages, ainsi que des sons synthétisés. Pour commencer, créez un modèle en entraînant un réseau de neurones qui classifie les sons produits par des hommes, des femmes et des trois enfants d'une même age. Ceci pour avoir la même quantité des exemples de chaque classe de sons.

Préparer un rapport décrivant les expériences ménées, donner les résultats obtenus et commenter ces résultats. Donner également des figures ("plots", diagrammes à barres, etc) montrant l'évolution de l'apprentissage du réseau pour les différentes expériences. Donner l'erreur de généralisation trouvé.

Rendre le rapport au plus tard le lundi 7 avril à 13:00.

5. Liens interesants

  • SNNS : Stuttgart Neural Network Simulator
  • NNET Package pour R
  • WEKA
  • UCI Machine learning Repository

  • What Makes a Man's/Woman's Voice Sexy?
  • The Rules of Attraction May Turn on Our Voices
  • The Barry White effect
    SBI 2008