AlexNet : une architecture de réseau neuronal convolutif avec 5 étapes convolutives et 3 couches entièrement connectées pour la classification d'images.
AlexNet a participé le 30 septembre 2012 au concoursImageNet dereconnaissance d'images. Le réseau (nommé initialement « SuperVision ») a fait 10,8 % d'erreurs de moins que le deuxième[3].
L'article original souligne que la profondeur du modèle est essentielle pour obtenir de hautes performances, mais nécessite beaucoup de capacités de calcul. AlexNet s'est démarqué en utilisant desprocesseurs graphiques pour paralléliser les calculs, permettant ainsi d'entraîner un réseau particulièrement profond[2].
AlexNet n'était pas la première implémentation d'un réseau neuronal convolutif utilisant des processeurs graphiques pour en augmenter les performances. Un tel réseau avait déjà été implémenté en 2006 par K. Chellapilla et ses collègues, et était 4 fois plus rapide qu'une implémentation équivalente sur CPU[4]. Un réseau neuronal convolutif profond implémenté en 2011 par Dan Cireșan et ses collègues était déjà 60 fois plus rapide[5], et surpassait ses prédécesseurs en août 2011[6]. Entre le 15 mai 2011 et le 10 septembre 2012, leur CNN a remporté pas moins de quatre concours d'images[7],[8]. Ils ont également considérablement amélioré les meilleures performances de la littérature pour plusieursbases de données d'images[9].
Selon l'article d'AlexNet[2], le réseau antérieur de Cireșan était « quelque peu similaire ». Les deux ont été initialement écrits avecCUDA pour fonctionner avec les cartes graphiquesNvidia. En fait, les deux ne sont que des variantes des réseaux neuronaux convolutifs introduits en 1989 parYann Le Cun et ses collègues[10],[11], qui ont appliqué l'algorithme derétropropagation à une variante de l'architecture originale de réseau neuronal convolutif de Kunihiko Fukushima appelée « néocognitron »[12],[13]. L'architecture a ensuite été modifiée par la méthode de J. Weng appeléemax-pooling[14],[8].
En 2015, AlexNet a été surpassé par letrès profond CNN deMicrosoft Research Asia avec plus de 100 couches, qui a remporté le concours ImageNet 2015[15].
AlexNet contient huit couches : les cinq premières sont des couchesconvolutives, certaines d'entre elles sont suivies par des couches demax-pooling, et les trois dernières sont des couches entièrement connectées. Le réseau, à l'exception de la dernière couche, est divisé en deux copies, chacune fonctionnant sur un processeur graphique. Le réseau utilise lafonction d'activationReLU, qui a affiché de meilleures performances quetanh etsigmoïde[2].
AlexNet est considéré comme l'un des articles scientifiques les plus influents publiés en vision par ordinateur, ayant suscité la publication de nombreux autres articles utilisant des réseaux neuronaux convolutifs et des processeurs graphiques pour accélérer l'apprentissage en profondeur[16]. Début 2023, l'article d'AlexNet avait été cité plus de 120 000 fois selonGoogle Scholar[17].