Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

BERT (modèle de langage)

Un article de Wikipédia, l'encyclopédie libre.
Page d’aide sur l’homonymie

Pour les articles homonymes, voirBert.

BERT

Informations
Développé parGoogle ResearchVoir et modifier les données sur Wikidata
Première versionVoir et modifier les données sur Wikidata
Dépôtgithub.com/google-research/bertVoir et modifier les données sur Wikidata
Taille des données110M paramètre et 340M paramètreVoir et modifier les données sur Wikidata
TypeGrand modèle de langage
Modèle transformeur
Modèle de langage entraîné par masquage(d)Voir et modifier les données sur Wikidata
LicenceLicence Apache 2.0Voir et modifier les données sur Wikidata
Site webarxiv.org/abs/1810.04805Voir et modifier les données sur Wikidata

modifier -modifier le code -voir Wikidata(aide)

Entraitement automatique du langage naturel,BERT, acronyme anglais deBidirectional Encoder Representations from Transformers, est unmodèle de langage développé parGoogle en 2018. Cette méthode a permis d'améliorer significativement les performances entraitement automatique des langues.

Description du modèle

[modifier |modifier le code]

BERT est basé sur letransformeur, n'utilisant que sa partie « encodeur ». BERT consiste en une premièrecouche deplongement lexical pour représenter les mots sous forme de vecteur. Ces plongements sont ensuite donnés en entrée aux blocs de transformeur successifs. Le modèle se termine par une couche désignée comme « tête » (head) qui aligne les vecteurs résultants du dernier bloc de transformeur avec le vocabulaire du modèle, permettant l'obtention d'une distribution de probabilité sur le lexique pour prédire un mot manquant[1].

BERT est appris avec la capacité de recevoir deux phrases en entrée. La suite d'unités lexicales (tokens en anglais) en entrée commence systématiquement par une unité spéciale [CLS] (pour « classify ») et est terminée par l'unité spéciale [SEP] (pour « separate »). Dans le cas où la suite d'unités contient deux phrases, une autre unité [SEP] est insérée entre les deux phrases.

BERT est pré-entrainé pour répondre aux deux tâches suivantes :

  • Masked Language Modeling : une des unités de la suite est remplacée par l'unité [MASK]. La tâche consiste à prédire l'unité masquée en sortie du modèle (i.e que le modèle maximise la probabilité de prédiction de l'unité masquée).
  • Next Sentence Prediction : la suite en entrée est composé de deux phrases. Le modèle doit prédire (vrai oufaux) si les deux phrases sont successives dans les données d’entraînement ou non.

Deux versions pré-entrainées de BERT ont été originellement distribuées :

  • la version « base » est composée de 12 blocs « encodeurs » de transformeur avec 12têtes d'attention, pour un total de 110 millions de paramètres. Les représentations vectorielles des couches intermédiaires du modèle sont de dimension 768.
  • la version « large » est composée de 24 blocs « encodeurs » avec 16 têtes d'attention, pour un total de 340 millions de paramètres. Les représentations vectorielles intermédiaires sont de dimension 1024.

Usage dans des applications

[modifier |modifier le code]

Le, Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (CloudTPU, bibliothèque pourTensorFlow)[2] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres.La firme deMountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelleRankBrain avait été lancé.

La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT[3] et FlauBERT[4]. CamemBERT a été pré-entraîné sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.

Bibliographie

[modifier |modifier le code]

Voir aussi

[modifier |modifier le code]

Références

[modifier |modifier le code]
  1. HangLe, LoïcVial, JibrilFrej et VincentSegonne, « FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français (FlauBERT : Unsupervised Language Model Pre-training for French) »,Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, ATALA et AFCP,‎,p. 268–278(lire en ligne, consulté le)
  2. (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », surGoogle AI Blog,(consulté le).
  3. (en) Louis Martinet al., « CamemBERT: a Tasty French Language Model »,.
  4. (en) Hang Leet al., « FlauBERT: Unsupervised Language Model Pre-Training for French »,.

Liens externes

[modifier |modifier le code]
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=BERT_(modèle_de_langage)&oldid=230360605 ».
Catégories :
Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp