| Type | |
|---|---|
| Inventeurs | |
| Date d'invention |

L'introduction de cet article est soit absente, soit non conforme auxconventions de Wikipédia().
Enapprentissage automatique, unauto-encodeur variationnel (ouVAE de l'anglaisvariational auto encoder)[1] est une architecture deréseau de neurones artificiels introduite en 2013 par D. Kingma et M. Welling, appartenant aux familles desmodèles graphiques probabilistes et des méthodes bayésiennes variationnelles.
Le VAE est une évolution desautoencodeurs classiques[2],[3], mais s'en distingue par sa formulation probabiliste et son objectif d'inférence statistique (leur utilisation et leur formulation mathématiques diffèrent). Le VAE permet de transformer (reformuler) un problème d'inférence en un problème d'optimisation statistique (c'est-à-dire trouver les valeurs de paramètres qui minimisent unefonction objectif). Ainsi, pour déduire la valeur d'unevariable aléatoire à partir d'une autre variable aléatoire ; on peut estimer une variable cachée à partir d'une observation[4]. Le modèle associe chaque donnée d'entrée à une distribution latente multivariée, non directement observable, mais déduite à partir d'un modèle mathématique et des données disponibles.
Ce type de modèle a été conçu pour l'apprentissage non supervisé[5], mais son efficacité a été prouvée pour l'apprentissage semi-supervisé[6],[7] et pour l'apprentissage supervisé[8].
Dans un VAE, les données d'entrée sont échantillonnées à partir d'une distribution paramétrée (la distributiona priori, en termes d'inférence bayésienne), et l'encodeur et le décodeur sont entraînés conjointement de sorte que la sortie minimise une erreur de reconstruction dans le sens de ladivergence de Kullback-Leibler entre la distribution paramétrique postérieure et la vraie distributiona posteriori[9],[10].

On note le vecteur contenant l'ensemble des variables observées que l'on souhaite modéliser. Ce vecteur est une variable aléatoire, caractérisé par unedistribution de probabilité inconnue, que l'on souhaite approximer par une distribution paramétrée ayant pour paramètres.
On introduit alors un vecteur aléatoire distribué conjointement avec (c'est-à-dire dont la loi de probabilité n'est pas indépendante de celle de). Ce vecteur représente un encodage latent de, que l'on ne peut observer directement.
On exprime alors la distribution via laloi de probabilité marginale sur, ce qui donne alors :
où représente ladistribution conjointe sous des données observables et de leur représentation latente. Selon laformule des probabilités composées, l'équation peut être réécrite comme
Dans l'auto-encodeur variationnel classique, on fait l'hypothèse que est un vecteur à valeur réelles de dimension finie, et suit uneloi normale. Par conséquent, est un mélange dedistributions gaussiennes.
On peut voir les relations entre les données d'entrée et leur représentation latente comme un problème d'inférence bayésienne avec
Malheureusement, le calcul de est au mieux coûteux et, dans la plupart des cas, impossible. Pour résoudre ce problème, il est nécessaire d'introduire une autre fonction pour approximer la distributiona posteriori :
où est l'ensemble des paramètres de.
Ainsi le problème est formulé pour pouvoir être appliqué dans unearchitecture de réseau de neuronesauto-encodeur, dans lequel la distribution de vraisemblance conditionnelle est représentée par undécodeur probabiliste, tandis que la distributiona posteriori approchée est représentée par uncodeur probabiliste. La mise en œuvre d'un VAE consistera donc à calculer les valeurs optimales des paramètres et par unapprentissage automatique.
Comme dans tout problème d'apprentissage profond, il est nécessaire de définir une fonction de perte différentiable afin de mettre à jour les poids du réseau parrétropropagation lors de l'apprentissage.
Pour les auto-encodeurs variationnels, l'idée est de minimiser conjointement les paramètres du modèle génératif pour réduire l'erreur de reconstruction entre l'entrée et la sortie, et pour avoir, la distribution postérieure approchée, le plus près possible de, la vraie distribution de probabilitéa posteriori.
Comme fonction de coût pour la reconstruction, l'erreur quadratique moyenne et l'entropie croisée sont souvent utilisées.
Pour la fonction de coût de distance entre les deux distributions, la divergence inverse de Kullback – Leibler est un bon choix pour pousser en dessous de[1],[11].

Pour rendre la formulation ELBO adaptée à des fins d'apprentissage, il est nécessaire de modifier légèrement la formulation du problème et la structure du VAE[12].
L'échantillonnage stochastique est l'opération non différentiable par laquelle il est possible d'échantillonner à partir de l'espace latent et d'alimenter le décodeur probabiliste.
L'hypothèse principale sur l'espace latent est qu'il peut être considéré comme un ensemble de distributions gaussiennes multivariées, et peut donc être décrit comme

Étant donné et défini comme le produit élément par élément, l'astuce de reparamétrisation modifie l'équation ci-dessus comme
Grâce à cette transformation (qui peut être étendue à des distributions non gaussiennes), le VAE devient entraînable et le codeur probabiliste doit apprendre à mapper une représentation compressée de l'entrée dans les deux vecteurs latents et, tandis que la stochasticité reste exclue du processus de mise à jour et est injectée dans l'espace latent en tant qu'entrée externe via le vecteur aléatoire.
| Paradigmes | |||||||||
|---|---|---|---|---|---|---|---|---|---|
| Problèmes | |||||||||
| Supervisé |
| ||||||||
| Non supervisé et auto-supervisé |
| ||||||||
| Métaheuristique d'optimisation | |||||||||
| Théorie | |||||||||
| Logiciels | |||||||||