
L'algorithme t-SNE (t-distributed stochastic neighbor embedding) est une technique de réduction de dimension pour lavisualisation de données développée parGeoffrey Hinton et Laurens van der Maaten et publiée en 2008[1].
Il s'agit d'une méthode non linéaire permettant de représenter un ensemble de points d'un espace à grande dimension dans un espace de deux outrois dimensions. Les données peuvent ensuite être visualisées sous la forme d'unnuage de points. L'algorithme t-SNE tente de trouver une configuration optimale selon un critère dethéorie de l'information afin de conserver la proximité entre les points pendant la transformation : deux points qui sont proches (resp. éloignés) dans l'espace d'origine doivent être proches (resp. éloignés) dans l'espace de faible dimension.
L'algorithme t-SNE se base sur une interprétation probabiliste des proximités. Une distribution de probabilité est définie sur les paires de points de l'espace d'origine de telle sorte que des points proches l'un de l'autre ont une forte probabilité d'être choisis tandis que des points éloignés ont une faible probabilité d'être sélectionnés. Une distribution de probabilité est également définie de la même manière pour l'espace de visualisation. L'algorithme t-SNE consiste à faire concorder les deux densités de probabilité, en minimisant ladivergence de Kullback-Leibler entre les deux distributions par rapport à l'emplacement des points sur la carte.
L’algorithme t-SNE est principalement utilisé pour la visualisation de données en haute dimension, et est utilisé notamment dans des tâches lourdes declustering. Il projette les données dans un espace de faible dimension en préservant les relations de voisinage locales, ce qui permet d’observer des regroupements apparents. Contrairement à des méthodes comme l’Analyse en Composantes Principales (PCA), qui conservent la structure globale des données, t-SNE met l’accent sur la préservation des proximités locales. Plusieurs études montrent que t-SNE facilite la séparation et l’identification de sous-groupes dans des ensembles de données complexes, offrant ainsi un outil précieux pour l’exploration et l’analyse de clusters[2],[3].
L'algorithme t-SNE a été utilisée pour de nombreuses applications :analyse musicale[4],[5],recherche sur le cancer[6],bioinformatique[7], le traitement de signaux biomédicaux[8], l'interprétation géologique[9]. Cette méthode est souvent utilisée pour la visualisation de représentations de haut-niveau apprises par unréseau de neurones artificiel[10].