Movatterモバイル変換


[0]ホーム

URL:


Przejdź do zawartości
Wikipediawolna encyklopedia
Szukaj

Llama (model językowy)

Z Wikipedii, wolnej encyklopedii
Llama
AutorMeta AI(inne języki)
Pierwsze wydanie2023-02-2424 lutego 2023(dts)
Aktualnawersja stabilnaLlama 4
RodzajDuży model językowy
LicencjaMeta Llama 3.2 Community License[1]
Strona internetowa

Llama (Large Language Model Meta AI, pierwotnie stylizowany jakoLLaMA) – rodzinadużych modeli językowych (LLM) wydawanych przez Meta AI od lutego 2023[2][3]. Najnowsza wersja to Llama 4, wydana w kwietniu 2025[4].

Modele Llama są trenowane w różnych rozmiarach, mieszczących się w zakresie od 1 do 405 miliardów parametrów[5]. Początkowo były to jedynie modele bazowe (foundation models)[6], jednak począwszy od Llama 2, Meta AI wydaje również wersje dostrojone do wykonywania instrukcji (instruction fine-tuned), udostępniając je równolegle z modelami bazowymi[7].

Wagi dla pierwszej wersji modelu Llama były udostępniane wyłącznie badaczom na zasadzie indywidualnej oceny przypadku, na podstawie licencji niekomercyjnej[8][3]. Nieautoryzowane kopie pierwszego modelu udostępniano za pośrednictwemBitTorrenta[9]. Kolejne wersje Llamy udostępniono poza środowiskiem akademickim i wydano na podstawie licencji zezwalających na pewne zastosowania komercyjne[10][7].

Wraz z premierą modelu Llama 3,Meta wprowadziła funkcje wirtualnego asystenta doFacebooka iWhatsAppa w wybranych regionach, a także dedykowaną stronę internetową. Obie usługi wykorzystują model Llama 3[11].

Tło

[edytuj |edytuj kod]

Po publikacji dużych modeli językowych, takich jak GPT-3, badania skupiły się na skalowaniu modeli, co w niektórych przypadkach wykazało znaczny wzrost możliwości[12]. WydanieChatGPT i jego zaskakujący sukces spowodowały wzrost zainteresowania dużymi modelami językowymi[13].

W porównaniu z innymi odpowiedziami na ChatGPT, główny naukowiec ds.sztucznej inteligencji w Meta,Yann LeCun, stwierdził, że duże modele językowe najlepiej sprawdzają się we wspomaganiu pisania[14][15][16][17].

Badania empiryczne nad serią Llama skupiły się na analizie prawa skalowania. Zaobserwowano, że modele Llama 3 wykazały kontynuację logarytmicznie liniowego wzrostu wydajności nawet po przekroczeniu rozmiaru zbioru danych uznawanego za „optymalny według Chinchilla”. Na przykład dla modelu Llama 3 8B optymalny zbiór danych w ujęciu Chinchilla wynosi 200 mld tokenów, jednak wydajność zachowywała logarytmicznie liniową skalowalność przy 75-krotnie większym zbiorze – 15 bilionów tokenów[18].

Pierwsze wydanie

[edytuj |edytuj kod]

Modele LLaMA zostały zapowiedziane 24 lutego 2023 w poście na blogu oraz dokumencie opisującym szkolenie modelu, jego architekturę oraz możliwości[2][3]. Kod potrzebny do uruchomienia modelu został publicznie udostępniony na licencjiotwarto źródłowej GPLv3[19]. Dostęp do wag modelu przyznawano poprzez proces aplikacji, by ograniczyć nadużycia. Dostęp miał być przyznawany w indywidualnych przypadkach badaczom akademickim, osobom powiązanym z organizacjami rządowymi, instytucjom pozarządowym, środowiskowi akademickiemu oraz laboratoriom badawczym w sektorze przemysłowym na całym świecie[3].

Llama została wytrenowana wyłącznie na podstawie publicznie dostępnych informacji i w różnych rozmiarach, co miało na celu uczynienie jej bardziej dostępnej dla różnego sprzętu. Model ten był wyłącznie modelem bazowym[6]⁣, chociaż w dokumencie opisującym model zawarto przykłady wersji modelu dostrojonego pod kątem instrukcji[2].

Firma Meta AI podała, że wydajność modelu o 13 miliardach parametrów (13B) w większości testówNLP przewyższała wydajność znacznie większego modelu GPT-3 (175 mld parametrów), a największy model o 65 mld parametrów (65B) był konkurencyjny w stosunku do najnowocześniejszych ówcześnie modeli, takich jak PaLM i Chinchilla[2].

Wyciek modelu

[edytuj |edytuj kod]

3 marca 2023 został utworzony torrent zawierający wagi modelu LLaMA, a link do torrenta udostępniono na4chan, a następnie rozpowszechniono go w internetowych społecznościach zajmujących się sztuczną inteligencją[20]. Tego samego dnia zgłoszono prośbę (pull request) w głównym repozytorium LLaMA o dodanie odnośnika do torrenta (magnet link) w oficjalnej dokumentacji projektu[21][22]. 4 marca otwarto kolejną prośbę o dodanie linków do repozytoriów HuggingFace zawierających model[23][21]. 6 marca Meta złożyła wniosek o usunięcie wskazanych repozytoriów HuggingFace, określając je jako „nieautoryzowaną dystrybucję” modelu, platforma spełniła prośbę[24]. 20 marca Meta zgłosiła doGitHuba wniosekDMCA o usunięcie treści z powodu naruszeniapraw autorskich w odniesieniu do repozytorium zawierającego skrypt pobierający LLaMA z serwera lustrzanego. Następnego dnia GitHub zastosował się do wniosku[9].

Reakcje na wyciek były różne. Niektórzy spekulowali, że model może być wykorzystany w złośliwych celach, na przykład do rozsyłania bardziej zaawansowanegospamu. Niektórzy doceniali jednak dostępność modelu oraz fakt, że mniejsze wersje modelu można stosunkowo tanio uruchomić, sugerując, że będzie to sprzyjać rozwojowi nowych badań w tej dziedzinie[20]. Liczni analitycy, w tym Simon Willison, porównali LLaMA do Stable Diffusion, modelu przekształcającego tekst w obraz, który w przeciwieństwie do porównywalnie zaawansowanych modeli poprzedzających go, był otwarcie dostępny, co doprowadziło do szybkiego rozprzestrzenienia się powiązanych z nim narzędzi, technik i oprogramowania[20][25].

LLaMa 2

[edytuj |edytuj kod]

18 lipca 2023 roku firma Meta ogłosiła powstanie LLaMa 2, kolejnej generacji modelu Llama powstałej we współpracy zfirmą Microsoft. Meta wytrenowała i udostępniła Lamę 2 w trzech rozmiarach: 7, 13 i 70 mld parametrów[7]. Architektura modelu pozostała w dużej mierze niezmieniona w stosunku do modeli LLaMA 1, ale do wytrenowania modeli bazowych wykorzystano o 40% więcej danych[26]. W towarzyszącym wydaniu modelu dokumencie[26] wspomniano również o modelu z 34 mld parametrów, który miał zostać udostępniony w przyszłości po spełnieniu celów bezpieczeństwa, jednak nigdy to nie nastąpiło.

LLaMa 2 obejmuje zarówno modele bazowe, jak i modele dostrojone do czatu. Modele, w odróżnieniu od oryginalnej wersji LLaMa, są dostarczane z wagami i mogą być wykorzystywane w wielu zastosowaniach komercyjnych. Jednakże licencja LLaMa wymusza politykę dozwolonego użytku, która zabrania używania Llamy do niektórych celów, dlatego użycie przez Meta terminuopen source do opisania Llamy zostało zakwestionowane przezOpen Source Initiative (odpowiadającą zadefinicję otwartego źródła) i innych[27][28].

Code Llama to doszkolona wersja LLaMa 2 na zestawach danych specyficznych dla generowania kodu. Wersje o rozmiarach 7 mld (7B), 13 mld (13B) i 34 mld (34B) parametrów zostały wydane 24 sierpnia 2023, a wersja z 70 mld parametrów (70B) została udostępniona 29 stycznia 2024[29] Zaczynając od modeli podstawowych z LLaMa 2, Meta AI wytrenowała je na dodatkowych 500 mld tokenów danych zawierających kod, a następnie dodatkowymi 20 mld tokenów danych długiego kontekstu, tworząc w ten sposób bazowe modele Code Llama. Ten model był dalej trenowany na 5 mld tokenów w celu dostrojenia do wykonywania instrukcji. Utworzono inny model bazowy specjalizujący się w kodzie Python, trenując go na 100 mld tokenów kodu wyłącznie w tym języku, a następnie na danych długiego kontekstu[30].

Llama 3

[edytuj |edytuj kod]

18 kwietnia 2024 irma Meta wydała model Llama 3 w dwóch rozmiarach: 8 mld (8B) i 70 mld (70B) parametrów[18]. Modele wstępnie wytrenowano na około 15 bilionach tokenów tekstu zebranych z „publicznie dostępnych źródeł”, a modele dostrojone do instrukcji dopracowano na podstawie „publicznie dostępnych zestawów danych z instrukcjami, a także ponad 10 milionów przykładów z adnotacjami ludzkimi”. Testy Meta AI z kwietnia 2024 wykazały, że Llama 3 70B pokonałaGemini Pro 1.5 i Claude 3 Sonnet w większości testów porównawczych. Firma Meta ogłosiła również plany uczynienia Llamy 3 wielojęzyczną imultimodalną, lepszą w pisaniu kodu, rozumowaniu oraz zwiększenia rozmiaru jej kontekstu[31][32].

W wywiadzie z Dwarkeshem Patelem Mark Zuckerberg powiedział, że wersja z 8 mld parametrów (8B) Lamy 3 zbliża się możliwościami do największego modelu z serii Llama 2. Zuckerberg stwierdził, że w porównaniu z poprzednimi modelami zespół był zaskoczony, jak model z 70 mld parametrów (70B) uczył się nawet pod koniec treningu na zbiorze 15 bilionów tokenów. Podjęto decyzję o zakończeniu szkolenia i skoncentrowaniu mocy GPU gdzie indziej[33].

Wersja Llama 3.1 została wydana 23 lipca 2024 w trzech rozmiarach: 8 mld (8B), 70 mld (70B) i 405 mld (405B) parametrów. Główną różnicą w stosunku do poprzedniej wersji było poszerzenie rozmiaru kontekstu modelu z 8192 do 128 000 tokenów oraz dodanie wsparcia dla dodatkowych kilku języków[5][34].

25 września 2024 roku wprowadzona generacja Llama 3.2 (11 i 90 mld parametrów) zyskała multimodalność i mogła przetwarzać zarówno obrazy, jak i tekst. Jednocześnie udostępniono małe modele przetwarzające tylko tekst z 1 oraz 3 miliardami parametrów, przeznaczone do zastosowań mobilnych i przetwarzania lokalnego[35][36].

6 grudnia 2024 roku została udostępniona Llama 3.3 z 70 mld parametrów (70B). Pomimo będąc znacznie mniejszym i tańszym modelem w porównaniu do największego modelu poprzedniej generacji (Llama 3.1 405B), wyprzedza go w wielu testach porównawczych[37].

Llama 4

[edytuj |edytuj kod]

5 kwietnia 2025 wydano model Llama 4. Architektura została zmieniona namieszankę ekspertów (istnieją dwie wersje, z 16 i 128 ekspertami)[38]. Model jest multimodalny i wspiera 12 języków[39]. Modele są multimodalne (akceptowane wejście to tekst i obraz, wyjście tylko tekst) i wspierają 12 języków. Podobnie jak z poprzednimi wersjami modelu Llama, przedsiębiorstwa i rezydencjiUnii Europejskiej są wykluczeni z korzystania z modeli[40][41].

Opublikowane modele[38]:

  • Scout: 17 mld aktywnych parametrów z 16 ekspertami, 10 mln oknem kontekstowym i łącznie z 109 mld parametrów
  • Maverick: 17 mld aktywnych parametrów z 128 ekspertami, 1 mln oknem kontekstowym i łącznie z 400 mld parametrów

Porównanie modeli

[edytuj |edytuj kod]

W kolumnie „Koszt treningu” podano wyłącznie koszt największego modelu z danej rodziny. Na przykład „21 000” to koszt szkolenia Lamy 2 69B w jednostkach petaFLOP-dzień. Jednostka 1 petaFLOP-dzień = 1 petaFLOP/sek × 1 dzień = 8,64E19 FLOP. W tabeli skróty „T” oznaczają bilion (ang. trillion), a „B” miliard (ang. billion).

NazwaData wydaniaParametryKoszt treningu (petaFLOP-dzień)Długość kontekstu (tokeny)Rozmiar korpusu (tokeny)
LLaMA24 lutego 2023
  • 6.7B
  • 13B
  • 32.5B
  • 65.2B
6,300[42]20481–1.4T
Llama 218 lipca 2023
  • 6.7B
  • 13B
  • 69B
21,000[43]40962T
Code Llama24 sierpnia 2023
  • 6.7B
  • 13B
  • 33.7B
  • 69B
Llama 318 kwietnia 2024
  • 8B
  • 70.6B
100,000[44][45]819215T
Llama 3.123 lipca 2024
  • 8B
  • 70.6B
  • 405B
440,000[34][46]128 000
Llama 3.225 września 2024128 000[49]
Llama 3.37 grudnia 2024
  • 70B
128 000
Llama 45 kwietnia 2025
  • 109B
  • 400B
  • 2T
  • 10M
  • 1M
  • ?
  • 40T
  • 22T
  • ?

Przypisy

[edytuj |edytuj kod]
  1. llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub [online], GitHub [dostęp 2024-10-20] (ang.).
  2. abcdHugoH. Touvron HugoH. i inni,LLaMA: Open and Efficient Foundation Language Models, „arXiv”,2023,DOI10.48550/arXiv.2302.13971,arXiv:2302.13971 [dostęp 2025-02-09] .
  3. abcdIntroducing LLaMA: A foundational, 65-billion-parameter language model [online], ai.meta.com [dostęp 2025-02-09] [zarchiwizowane zadresu 2025-01-30] (ang.).
  4. CarlC. Franzen CarlC.,Meta defends Llama 4 release against ‘reports of mixed quality,’ blames bugs [online], VentureBeat, 7 kwietnia 2025 [dostęp 2025-07-06] (ang.).
  5. abIntroducing Llama 3.1: Our most capable models to date. ai.meta.com, July 23, 2024. [dostęp 2024-07-23]. [zarchiwizowane ztego adresu (2024-07-23)]. (ang.).
  6. abJamesJ. Vincent JamesJ.,Meta has a new machine learning language model to remind you it does AI too [online], The Verge, 24 lutego 2023 [dostęp 2025-02-09] (ang.).
  7. abcMeta and Microsoft Introduce the Next Generation of Llama | Meta [online], web.archive.org, 14 września 2023 [dostęp 2025-02-10] [zarchiwizowane zadresu 2023-09-14] .
  8. Meta heats up Big Tech’s AI arms race with new language model, „Reuters” [dostęp 2025-02-10] [zarchiwizowane zadresu 2023-12-02] (ang.).
  9. abdmca/2023-03-21-meta.md at master · github/dmca · GitHub [online], web.archive.org, 10 kwietnia 2023 [dostęp 2025-02-10] [zarchiwizowane zadresu 2023-04-10] .
  10. Meta’s AI research head wants open source licensing to change – The Verge [online], web.archive.org, 14 września 2024 [dostęp 2025-02-10] [zarchiwizowane zadresu 2024-09-14] .
  11. Meet Your New Assistant: Meta AI, Built With Llama 3 | Meta [online], web.archive.org, 7 października 2024 [dostęp 2025-02-10] [zarchiwizowane zadresu 2024-10-07] .
  12. Examining Emergent Abilities in Large Language Models. hai.stanford.edu, 13 September 2022. (ang.).
  13. The inside story of how ChatGPT was built from the people who made it. MIT Technology Review. [dostęp 2024-10-20]. [zarchiwizowane ztego adresu (2023-03-03)]. (ang.).
  14. Tiernan Ray: ChatGPT is 'not particularly innovative,' and ‘nothing revolutionary’, says Meta’s chief AI scientist. ZDNET, 23 January 2023. [zarchiwizowane ztego adresu (2023-02-17)]. (ang.).
  15. Meta’s Yann LeCun on auto-regressive Large Language Models (LLMs) – Futurist.com | Futurist Speaker [online], web.archive.org, 22 lipca 2024 [dostęp 2025-02-10] [zarchiwizowane zadresu 2024-07-22] .
  16. Yann LeCun on LinkedIn: My unwavering opinion on current (auto-regressive) LLMs. www.linkedin.com. [dostęp 2024-10-20]. [zarchiwizowane ztego adresu (2024-09-17)]. (ang.).
  17. Meta’s Yann LeCun Asks How AIs will Match – and Exceed – Human-level Intelligence. 23 October 2024.
  18. abIntroducing Meta Llama 3: The most capable openly available LLM to date. ai.meta.com, April 18, 2024. [dostęp 2024-04-21]. [zarchiwizowane ztego adresu (2024-05-15)]. (ang.).
  19. GitHub – facebookresearch/llama: Inference code for LLaMA models [online], web.archive.org, 15 marca 2023 [dostęp 2025-02-09] [zarchiwizowane zadresu 2023-03-15] .
  20. abcJamesJ. Vincent JamesJ.,Meta’s powerful AI language model has leaked online – what happens now? [online], The Verge, 8 marca 2023 [dostęp 2025-02-09] (ang.).
  21. abAnirudhA. VK AnirudhA.,Meta’s LLaMA Leaked to the Public, Thanks To 4chan [online], Analytics India Magazine, 6 marca 2023 [dostęp 2025-02-10] (ang.).
  22. Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama · GitHub [online], web.archive.org, 10 kwietnia 2023 [dostęp 2025-02-10] [zarchiwizowane zadresu 2023-04-10] .
  23. Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama · GitHub [online], web.archive.org, 21 marca 2023 [dostęp 2025-02-10] [zarchiwizowane zadresu 2023-03-21] .
  24. JosephJ. Cox JosephJ.,Facebook’s Powerful Large Language Model Leaks Online [online], VICE, 7 marca 2023 [dostęp 2025-02-10] (ang.).
  25. Large language models are having their Stable Diffusion moment [online], simonwillison.net [dostęp 2025-02-09] (ang.).
  26. abHugoH. Touvron HugoH. i inni,Llama 2: Open Foundation and Fine-Tuned Chat Models, „arXiv”,2023,DOI10.48550/arXiv.2307.09288,arXiv:2307.09288 [dostęp 2025-02-10] .
  27. Benj Edwards: Meta launches LLaMA-2, a source-available AI model that allows commercial applications [Updated]. Ars Technica, 2023-07-18. [dostęp 2023-08-08]. [zarchiwizowane ztego adresu (2023-11-07)]. (ang.).
  28. Meta offers Llama AI to US government for national security [online], CIO [dostęp 2025-02-10] (ang.).
  29. Introducing Code Llama, a state-of-the-art large language model for coding. ai.meta.com. [dostęp 2024-10-20]. [zarchiwizowane ztego adresu (2024-09-27)]. (ang.).
  30. BaptisteB. Rozière BaptisteB. i inni,Code Llama: Open Foundation Models for Code, „arXiv”,2024,DOI10.48550/arXiv.2308.12950,arXiv:2308.12950 [dostęp 2025-02-10] .
  31. Meta releases Llama 3, claims it’s among the best open models available | TechCrunch [online], web.archive.org, 18 września 2024 [dostęp 2025-02-10] [zarchiwizowane zadresu 2024-09-18] .
  32. Meta debuts third-generation Llama large language model • The Register [online], web.archive.org, 25 sierpnia 2024 [dostęp 2025-02-10] [zarchiwizowane zadresu 2024-08-25] .
  33. Dwarkesh Patel: Mark Zuckerberg – Llama 3, Open Sourcing $10b Models, & Caesar Augustus. www.dwarkeshpatel.com, 2024-07-24. [dostęp 2024-08-01]. [zarchiwizowane ztego adresu (2024-07-16)]. Cytat: the 8 billion is nearly as powerful as the biggest version of Llama 2 that we released [...] even by the end, it was... still learning right it’s like we probably could have fed it more tokens and it would have gotten somewhat better but i mean at some point you know you’re running a company you need to do these meta reasoning questions of [...] how do I want to spend our GPUs (ang.).
  34. abAaronA. Grattafiori AaronA. i inni,The Llama 3 Herd of Models, „arXiv”,2024,DOI10.48550/arXiv.2407.21783,arXiv:2407.21783 [dostęp 2025-02-10] .
  35. Meta Releases Llama 3.2 with Vision, Voice, and Open Customizable Models [online], InfoQ [dostęp 2025-02-09] (ang.).
  36. Llama 3.2: Revolutionizing edge AI and vision with open, customizable models [online], ai.meta.com [dostęp 2025-02-09] [zarchiwizowane zadresu 2025-02-07] (ang.).
  37. What is Meta Llama 3.3 70B? Features, Use Cases & More [online], www.hyperstack.cloud [dostęp 2025-02-09] (ang.).
  38. abThe Llama 4 herd: The beginning of a new era of natively multimodal AI innovation [online], web.archive.org, 5 kwietnia 2025 [dostęp 2025-04-15] [zarchiwizowane zadresu 2025-04-05] .
  39. meta-llama/Llama-4-Maverick-17B-128E · Hugging Face [online], huggingface.co, 5 kwietnia 2025 [dostęp 2025-04-15] .
  40. Llama 4 Acceptable Use Policy [online], Meta Llama [dostęp 2025-07-16] [zarchiwizowane zadresu 2025-05-13], Cytat: With respect to any multimodal models included in Llama 4, the rights granted under Section 1(a) of the Llama 4 Community License Agreement are not being granted to you if you are an individual domiciled in, or a company with a principal place of business in, the European Union. (ang.).
  41. Merien,European Union excluded from Llama 4 multimodal models [online], IO+, 8 kwietnia 2025 [dostęp 2025-07-16] (ang.).
  42. The Falcon has landed in the Hugging Face ecosystem. huggingface.co. [dostęp 2023-06-20]. [zarchiwizowane ztego adresu (2023-06-20)].
  43. llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. [dostęp 2024-05-28]. [zarchiwizowane ztego adresu (2024-05-28)]. (ang.).
  44. Andrej Karpathy (Apr 18, 2024),The model card has some more interesting info too. [dostęp 2024-10-20]. [zarchiwizowane ztego adresu (2024-08-17)].
  45. llama3/MODEL_CARD.md at main · meta-llama/llama3. GitHub. [dostęp 2024-05-28]. [zarchiwizowane ztego adresu (2024-05-21)]. (ang.).
  46. llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models [online], GitHub [dostęp 2025-02-10] (ang.).
  47. Kylie Robison: Meta releases its first open AI model that can process images. The Verge, 2024-09-25. [dostęp 2024-09-25]. (ang.).
  48. Kyle Wiggers: Meta’s Llama AI models get multimodal. TechCrunch, 2024-09-25. [dostęp 2024-09-25]. [zarchiwizowane ztego adresu (2024-09-25)]. (ang.).
  49. Archived copy. ai.meta.com. [dostęp 2024-09-26]. [zarchiwizowane ztego adresu (2024-09-25)].
  50. meta-llama/Llama-4-Maverick-17B-128E · Hugging Face [online], huggingface.co, 5 kwietnia 2025 [dostęp 2025-04-15] .

Linki zewnętrzne

[edytuj |edytuj kod]
Generatywna sztuczna inteligencja
Pojęcia
Modele
Tekst
Mowa
Obraz
Programowanie
Wideo
Agent AI
Sztuczna inteligencja
Główne cechy
Filozofia
Pojęcia
Zastosowania
Implementacje
Audio-wizualne
Tekstowe
Decyzyjne
Architektury
Źródło: „https://pl.wikipedia.org/w/index.php?title=Llama_(model_językowy)&oldid=77212439
Kategorie:
Ukryta kategoria:

[8]ページ先頭

©2009-2026 Movatter.jp