Pour les articles homonymes, voirBert.
| Développé par | Google Research |
|---|---|
| Première version | |
| Dépôt | github.com/google-research/bert |
| Taille des données | 110M paramètre et 340M paramètre |
| Type | Grand modèle de langage Modèle transformeur Modèle de langage entraîné par masquage(d) |
| Licence | Licence Apache 2.0 |
| Site web | arxiv.org/abs/1810.04805 |
Entraitement automatique du langage naturel,BERT, acronyme anglais deBidirectional Encoder Representations from Transformers, est unmodèle de langage développé parGoogle en 2018. Cette méthode a permis d'améliorer significativement les performances entraitement automatique des langues.
BERT est basé sur letransformeur, n'utilisant que sa partie « encodeur ». BERT consiste en une premièrecouche deplongement lexical pour représenter les mots sous forme de vecteur. Ces plongements sont ensuite donnés en entrée aux blocs de transformeur successifs. Le modèle se termine par une couche désignée comme « tête » (head) qui aligne les vecteurs résultants du dernier bloc de transformeur avec le vocabulaire du modèle, permettant l'obtention d'une distribution de probabilité sur le lexique pour prédire un mot manquant[1].
BERT est appris avec la capacité de recevoir deux phrases en entrée. La suite d'unités lexicales (tokens en anglais) en entrée commence systématiquement par une unité spéciale [CLS] (pour « classify ») et est terminée par l'unité spéciale [SEP] (pour « separate »). Dans le cas où la suite d'unités contient deux phrases, une autre unité [SEP] est insérée entre les deux phrases.
BERT est pré-entrainé pour répondre aux deux tâches suivantes :
Deux versions pré-entrainées de BERT ont été originellement distribuées :
Le, Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (CloudTPU, bibliothèque pourTensorFlow)[2] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres.La firme deMountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelleRankBrain avait été lancé.
La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT[3] et FlauBERT[4]. CamemBERT a été pré-entraîné sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.