Movatterモバイル変換

BERT (модель мови)

Матеріал з Вікіпедії — вільної енциклопедії.

BERT (англ.Bidirectional Encoder Representations from Transformers, двоспрямовані кодувальні представлення з трансформерів) — це методикамашинного навчання, що ґрунтується натрансформері, для попереднього тренуванняобробки природної мови (ОПМ), розробленаGoogle.BERT було створено й опубліковано 2018 року Джейкобом Девліним та його колегами з Google.^[1]^[2] Станом на 2019 рік Google застосовувалаBERT, щоби краще розуміти пошуки користувачів.^[3]

Оригінальна англомовна модельBERT постачається у двох наперед натренованих варіантах:^[1] (1) модельBERT_BASE, нейромережна архітектура з 12 шарами, 768 прихованими, 12 головами, 110 мільйонами параметрів, та (2) модельBERT_LARGE, нейромережна архітектура з 24 шарами, 1024 прихованими, 16 головами, 340 мільйонами параметрів; обидві треновано наBooksCorpus^[4] з 800 мільйонами слів, та одній з версійанглійської Вікіпедії з 2 500 мільйонами слів.

Продуктивність

[ред. |ред. код]

КолиBERT було опубліковано, вона досягланайвищого рівня^[en] продуктивності в низці задачрозуміння природної мови:^[1]

Наборі задачGLUE (англ.General Language Understanding Evaluation, загальна оцінка розуміння мови, що складається з 9 задач)
SQuAD (англ.Stanford Question Answering Dataset, Стенфордський питально-відповідальний набір даних) версій 1.1 та 2.0
SWAG (англ.Situations With Adversarial Generations, ситуації зі змагальними породженнями)

Аналіз

[ред. |ред. код]

Причининайвищого рівня^[en] продуктивностіBERT в цих задачахрозуміння природної мови ще не є достатньо зрозумілими.^[5]^[6] Поточні дослідження зосереджено на дослідженні взаємозв'язку у виходіBERT як результату ретельно підібраних послідовностей входу,^[7]^[8] аналізі внутрішніхвекторних представлень за допомогою зондувальних класифікаторів,^[9]^[10] та взаємозв'язках, представлених вагамиуваги.^[5]^[6]

Однак за це доводиться платити: через архітектуру лише кодера, без декодера, BERT не можепідказувати і не може генерувати текст, тоді як двонаправлені моделі загалом не працюють ефективно без правої сторони, тому їх важко підказувати, а генерування навіть короткого тексту вимагає складних обчислювальних технологій, що вимагають великих витрат^[11].

На відміну від нейронних мереж глибокого навчання, які потребують дуже великих обсягів даних, BERT вже пройшов попереднє навчання, що означає, що він вивчив представлення слів і речень, а також основні семантичні зв'язки, з якими вони пов'язані. Потім BERT може бути точно налаштований на менших наборах даних для конкретних завдань, таких як класифікація настроїв. Попередньо навчені моделі обираються відповідно до змісту набору даних, який використовується, а також мети завдання. Наприклад, якщо завдання полягає в класифікації настроїв за фінансовими даними, слід вибрати попередньо навчену модель для аналізу настроїв фінансового тексту. Ваги оригінальних попередньо навчених моделей були опубліковані на Github.^[12]

Історія

[ред. |ред. код]

BERT бере свій початок з попереднього тренування контекстних представлень, включно знапівкерованим навчанням послідовностей,^[13]породжувальним попереднім тренуванням,ELMo^[14] таULMFit.^[15] На відміну від попередніх моделей,BERT є глибинно двоспрямованим, спонтанним представленням мови, попередньо тренованим із застосуванням лише простого корпусу тексту. Контекстно-вільні моделі, такі якword2vec таGloVe, породжують представлення вкладення одного слова для кожного зі слів у словнику, тоді якBERT бере до уваги контекст кожного входження заданого слова. Наприклад, якщо вектор дляангл.«running» матиме однакове векторне представленняword2vec для його входження як в реченніангл.«He is running a company» («Він керує компанією»), так і в реченніангл.«He is running a marathon» («Він біжить марафон»), тоBERT забезпечуватиме контекстоване вкладення, що буде відмінним відповідно до сенсу.

25 жовтня 2019 рокуПошук Google анонсував, що вони почали застосовувати моделіBERT для пошукових запитіванглійською мовою в межахСША.^[16] 9 грудня 2019 року було повідомлено, щоBERT було прийнято Пошуком Google для понад 70 мов.^[17] У жовтні 2020 року майже кожен англомовний запит оброблявся за допомогою BERT-моделі.^[18]

Визнання

[ред. |ред. код]

BERT виграла нагороду за найкращу довгу працю на щорічній конференції Північноамериканського відділенняАсоціації з обчислювальної лінгвістики^[en] (англ.North American Chapter of the Association for Computational Linguistics, NAACL) 2019 року.^[19]

Див. також

[ред. |ред. код]

Примітки

[ред. |ред. код]

↑^а ^б ^вDevlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 жовтня 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv:1810.04805v2 [cs.CL].(англ.)
↑Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.Google AI Blog(англ.). Архіворигіналу за 13 січня 2021. Процитовано 27 листопада 2019.(англ.)
↑Understanding searches better than ever before.Google(англ.). 25 жовтня 2019. Архіворигіналу за 27 січня 2021. Процитовано 27 листопада 2019.(англ.)
↑Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. с. 19—27.arXiv:1506.06724 [cs.CV].(англ.)
↑^а ^бKovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019).Revealing the Dark Secrets of BERT.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)(амер.). с. 4364—4373.doi:10.18653/v1/D19-1445.S2CID 201645145. Архіворигіналу за 20 жовтня 2020. Процитовано 28 жовтня 2020.(англ.)
↑^а ^бClark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019).What Does BERT Look at? An Analysis of BERT's Attention.Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276—286.doi:10.18653/v1/w19-4828.(англ.)
↑Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context.Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284—294.arXiv:1805.04623.Bibcode:2018arXiv180504623K.doi:10.18653/v1/p18-1027.S2CID 21700944.(англ.)
↑Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). Colorless Green Recurrent Networks Dream Hierarchically.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195—1205.arXiv:1803.11138.Bibcode:2018arXiv180311138G.doi:10.18653/v1/n18-1108.S2CID 4460159.(англ.)
↑Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information.Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240—248.arXiv:1808.08079.Bibcode:2018arXiv180808079G.doi:10.18653/v1/w18-5426.S2CID 52090220.(англ.)
↑Zhang, Kelly; Bowman, Samuel (2018).Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis.Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359—361.doi:10.18653/v1/w18-5448.(англ.)
↑Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022).Bidirectional Language Models Are Also Few-shot Learners.ArXiv(англ.). Процитовано 31 березня 2023.
↑BERT.Github. Процитовано 28 березня 2023.
↑Dai, Andrew; Le, Quoc (4 листопада 2015). Semi-supervised Sequence Learning.arXiv:1511.01432 [cs.LG].(англ.)
↑Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 лютого 2018). Deep contextualized word representations.arXiv:1802.05365v2 [cs.CL].(англ.)
↑Howard, Jeremy; Ruder, Sebastian (18 січня 2018). Universal Language Model Fine-tuning for Text Classification.arXiv:1801.06146v5 [cs.CL].(англ.)
↑Nayak, Pandu (25 жовтня 2019).Understanding searches better than ever before.Google Blog. Архіворигіналу за 5 грудня 2019. Процитовано 10 грудня 2019.(англ.)
↑Montti, Roger (10 грудня 2019).Google's BERT Rolls Out Worldwide.Search Engine Journal. Search Engine Journal. Архіворигіналу за 29 листопада 2020. Процитовано 10 грудня 2019.(англ.)
↑Schwartz, Barry (15 жовтня 2020).Google: BERT now used on almost every English query.Search Engine Land(англ.). Процитовано 31 березня 2023.
↑Best Paper Awards.NAACL. 2019.Архів оригіналу за 19 жовтня 2020. Процитовано 28 березня 2020.(англ.)

Посилання

[ред. |ред. код]

Офіційний репозиторійGitHub[Архівовано 13 січня 2021 уWayback Machine.]

п о р Обробка природної мови
Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма,Триграма)
Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]
Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту
Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний
Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови
Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз
Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]
Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача
Програмне забезпечення	Natural Language Toolkit SpaCy

Штучний інтелект

Історія
- хронологія

Поняття

Застосування

Реалізація

Аудіовізуальне	AlexNet WaveNet^[en] Синтез людського образу^[en] HWR OCR Комп'ютерний зір Синтез мовлення^[en] 15.ai^[en] ElevenLabs^[en] Розпізнавання мовлення Whisper Розпізнавання облич AlphaFold Модель перетворення тексту на зображення^[en] Aurora DALL-E Firefly^[en] Flux Ideogram Imagen Midjourney Recraft^[en] Stable Diffusion Моделі генерування відео на основі тексту Dream Machine Runway Gen^[en] Hailuo AI^[en] Kling^[en] Sora Veo^[en] Музика і штучний інтелект^[en] Riffusion Suno AI Udio
Текст	Word2vec Seq2seq^[en] GloVe BERT T5^[en] LLaMA Chinchilla AI^[en] PaLM^[en] GPT 1^[en] 2 3 J^[en] ChatGPT 4 4o o1 o3 4.5 4.1 o4-mini^[en] 5 Claude Gemini чатбот Grok LaMDA BLOOM^[en] DBRX^[en] Project Debater^[en] IBM Watson IBM Watsonx^[en] Granite^[en] PanGu-Σ^[en] DeepSeek Qwen
Рішення	AlphaGo AlphaZero OpenAI Five Безпілотний автомобіль MuZero^[en] Обирання дії AutoGPT^[en] Керування роботами^[en]

Філософія

Люди

Організації

Архітектури

Категорія

Диференційовні обчислення

Загальне

Поняття

Мови програмування

Python
Julia

Застосування

Апаратне забезпечення

Програмні бібліотеки

Втілення

Аудіовізуальні	NateNet AlexNet WaveNet^[en] Синтез людських зображень^[en] Розпізнавання рукописного введення Оптичне розпізнавання символів Синтез мовлення Розпізнавання мовлення Розпізнавання облич AlphaFold DALL-E
Словесні	Word2vec Трансформер BERT Нейронний машинний переклад Project Debater^[en] Watson GPT-2 GPT-3
Вирішувальні	AlphaGo AlphaZero Q-навчання SARSA OpenAI Five Самокерований автомобіль MuZero^[en] Обирання дії Керування роботами^[en]

Люди

Організації

Портали:Програмування • Техніка Категорія

Категорії:Штучні нейронні мережі • Машинне навчання

Отримано зhttps://uk.wikipedia.org/w/index.php?title=BERT_(модель_мови)&oldid=45989958

Категорія:

Великі мовні моделі

Приховані категорії:

[8]ページ先頭