Movatterモバイル変換

Hizkuntza-eredu handi

Wikipedia, Entziklopedia askea

Hizkuntza-eredu handiak^[1] (HEH edoLLM,ingelesez:Large Language Model) milaka miloi parametro dituztensare neuronaletan (gehienbattransformer [2]-ak) oinarritutakohizkuntza-ereduak dira, oro har, hizkuntza-ulermena eta sormena lortzeko duten gaitasunagatik ezagunak. Gaitasun hauek eskuratzeko, entrenamenduan datu-kopuru erraldoiak etaikasketa-teknika ezberdinak erabiltzen dituzte.

**Hizkuntza eredu handiak** entrenatzeko erabiltzen den konputazio-lanaren gorakada azkarra. HEH itxi onenen entrenamendu-kostuak eredu irekiko onenen entrenamendu-kostuak baino askoz ere handiagoak dirudite. GPT-4 eta antzeko ereduen entrenamendu-kostua ez da publikoki ezagutzen; beraz, estimazio bat baino ez da. DatuakEpoch-enak dira 2023an, eta grafikoaStanfordeko UnibertsitatekoAI index-ekoa da 2024an.^[3]

Hizkuntza-eredu autorregresibo gisa, sarrerako testu bat hartu eta hurrengo token edo hitza zein izan daitekeen aurreikusten dute, behin eta berriz.

Esaldi batean hurrengo hitza iragartzea bezalako zeregin sinpleetan trebatuta egon arren, horrekin batera giza hizkuntzaren sintaxiaren eta semantikaren zati handi bat ikasteko gaitasuna ere lortzen dute. Gainera,hizkuntza-eredu handiek munduari buruzko ezagutza orokorra ere badutela erakusten dute, eta entrenamenduan zehar gertaera ugariri buruz ikasteko gai direla. Hala ere, entrenamendua corpuseko testuaren gainean egiten denez, horrenganako menpekotasun handia dute gero, hau da, corpuseko testuak dituen zehaztasun-ezak eta alborapenak heredatzen dituzte.

Adibide aipagarriak dira OpenAIrenGPT ereduak (adibidez, GPT-3.5 eta GPT-4,ChatGPT txatbotean erabiltzen direnak),Google-ren PaLM (Bard-en erabilia) etaMeta-ren LLaMa, baita BLOOM, Ernie 3.0 Titan etaAnthropic-en Claude 3 ere.

2024koInformatikari Euskaldunen Bilkuraren barruan sei hizkuntza-eredu handi jarri zuten lehian euskarazko elkarrizketetan. HelburuaEHUko Hitz zentroan garatzen denLatxa eredua «sistema komertzial hoberenen kontra» lehian jartzea izan zen, eta horra ondorioetako bat:GPT-4o eredu ezagunaren parean geratu zen ia. Dema horretan ikusi zen euskaraz «hobekien» zekien sistemaClaude Sonnet 3.5 sistema komertziala zela, bigarrenGPT-4o sistema geratu zen, eta haren «ia parean» geratu zenLatxa. Beherago geratu zenGemini Flash 1.5, eta «askoz beherago»Command R+ etaLLama 3.1. Azken hori Latxa eredu berriaren «oinarria» da.^[4]^[5]^[6]

Izena	Argiratze data ^[a]	Gara-tzailea	Parametro kopurua (mila milioika)^[b]	Corpusaren tamaina	Entrena-mendu-kostua (peta FLOP-egun)	Lizentzia ^[c]	Oharrak
GTP-1	2018ko ekaina	OpenAI	117000000 !0.117		1^[16]	MIT^[17]	Lehen GPT modeloa, dekodetzaile hutsezko transformerra. 30 egunez 8 P600GPUtan entrenatua.
BERT	2018ko urria	Google	340000000 !0.340^[18]	3,3 mila milioi hitz^[18]	9 !9^[19]	Apache 2.0^[20]	Hizkuntza-eredu goiztiar eta eragin handikoa.^[21]Kodifikatzailea besterik ez, eta, beraz, ez dago eraikita elkarizketan erabilia edo sortzailea izateko . Entrenamenduak 4 egun iraun zuen 64 TPUv2 txipekin.
T5	2019ko urria	Google	11^[22]	34 mila milioi token^[22]		Apache 2.0^[23]	Googleren proiektu askotarako oinarrizko eredua, esate baterako, Irudia.^[24]
XLNet	2019ko ekaina	Google	340000000 !0.340^[25]	3300000000 !33 mila milioi hitz	330	Apache 2.0^[26]	BERTen alternatiba bat; kodetzaile gisa soilik diseinatua. 512 TPU v3 txipetan entrenatua 5,5 egunetan.
GTP-2	2019ko otsaila	OpenAI	1500000000 !1.5	40 GB (~10000000000 !10 mila milioi mila milioi token)^[27]^[28]	28^[29]	MIT^[30]	32 TPUv3-txipetan entrenatuta astebetez.^[29]
GPT-3	2020ko maiatza	OpenAI	175000000000 !175^[31]	300000000000 !300 mila milioi token^[28]	3640	proprietary	GPT-3 aldaera findu bat, GPT-3.5 izenekoa, publikoaren eskura jarri zen ChatGPT izeneko web interfaze baten bidez 2022an.
GPT-Neo	2021eko martxoa	EleutherAI	2700000000 !2.7^[32]	825 GiB		MIT^[33]	EleutherAIk liberatu zituen doako GPT-3 alternatiben artean lehena. GPT-Neok proba batzuetan tamaina bereko GPT-3 eredu bat gainditu zuen, baina GPT-3 handiena baino nabarmen okerragoa izan zen.
GPT-J	2021eko ekaina	EleutherAI	6000000000 !6^[34]	825 GiB^[34]	200	Apache 2.0	GPT-3 estiloko hizkuntza-eredua
Megatron-Turing NLG	2021eko urria^[35]	Microsoft etaNvidia	530000000000 !530	338600000000 !338.6 mila milioi token	38.000^[36]	Restricted web access	Hiru hilabetez entrenatua A100 motako 2.000 GPU baino gehiagotan NVIDIA Selene Superkonputagailuan, 3 milioi GPU ordu baino gehiagotan.^[36]
Ernie 3.0 Titan	2021eko urria	Baidu	260000000000 !260^[37]	4 Tb		Proprietary	Txinerarako HEHa. Ernie Bot izeneko bot-ak eredu hau du oinarri.
Claude^[38]	2021eko urria	Anthropic	52000000000 !52^[39]	400000000000 !400 mila milioi token^[39]		beta	Elkarrizketetan nahi den portaerarako ongi doitua .
GLaM (hizkuntza-eredu orokorra)	2021eko urria	Google	1200000000000 !1200	1600000000000 !1.6 bilioi token	5.600	Proprietary	Eredu berezia (aditu-konbinazioa), garestiagoa da entrenatzeko, baina merkeagoa inferentzia exekutatzeko, GPT-3rekin alderatuta.
Gopher	2021eko urria	DeepMind	280000000000 !280^[40]	300000000000 !300 mila milioi token^[41]	5.833^[42]	Proprietary	Ondoren, Chinchilla eredurako garatu zen.
LaMDA (Elkarrizketa hizkuntza ereduak)	2022ko urtarrila	Google	137000000000 !137	1.56T hitz,168000000000 !168 mila milioi token^[41]	4.110	Proprietary	Elkarrizketetan erantzunak sortzeko espezializatua.
GPT-NeoX	2022ko otsaila	EleutherAI	20000000000 !20	825 GiB^[34]	740	Apache 2.0	Megatron arkitekturan oinarritua
Chinchilla	2022ko martxoa	DeepMind	70000000000 !70	1400000000000 !1.4 bilioi token^[41]	6.805^[42]	Proprietary	Parametro gutxiko eredua, datu gehiagotan entrenatua. Sparrow botean erabilia. Sarritan aipatua bere eskala neuronalaren legearengatik.
PaLM (Pathways Language Model, Pathways hizkuntza-eredua)	2022ko apirila	Google	540000000000 !540	768000000000 !768 mila milioi token	29250 !29,250^[42]	Proprietary	Entrenatua ~60 egunetan, ~6000 TPU v4 txipetan.^[42] 2024ko urrian, argitaratutako transformer trinko handiena zen
OPT (Open Pretained Transformer)	2022ko Maiatza	Meta	175000000000 !175^[43]	180000000000 !180 mila milioi token^[44]	310	Non-commercial research^[d]	GPT-3 arkitektura, Megatronetik hartutako egokitzapen batzuekin. Modu bakarrean, taldeak idatzitako prestakuntza koadernoa argitaratu zuten.^[45]
YaLM 100B	2022ko ekaina	Yandex	100000000000 !100^[46]	1,7 Tuberkulosia^[46]		Apache 2.0	Eredu anglo-errusiarra, Microsoften Megatron-LMan oinarritua.
Minerva	2022ko ekaina	Google	540000000000 !540	Eduki matematikan iragazitako web orrien eta arXiv aurre-inprimaketa-zerbitzarira bidalitako dokumentuen 38,5B token		Proprietary	"Gai matematiko eta zientifikoak urratsez urratseko arrazoiketa erabiliz" ebazteko.^[47] PaLM ereduetatik abiatua, datu matematiko eta zientifikoekin findua.
BLOOM	2022ko uztaila	Lankidetza handia, Hugging Face buru zela	175000000000 !175^[48]	350000000000 !350 mila milioi token (1.6TB)^[49]		Responsible AI	Funtsean, GPT-3, baina corpus eleanitz batekin entrenatua (% 30 ingelesez, programazio-lengoaiak alde batera utzita)
Galactica	2022ko azaroa	Meta	120000000000 !120	350000000000 !106 mila milioi token^[50]	ezezaguna	CC-BY-NC-4.0	Entrenatua testu zientifikoetarako eta modalitateetarako.
AlexaTM (Irakasle-Ereduak)	2022ko azaroa	Amazon	20000000000 !20^[51]	1300000000000 !1.3 bilioi^[52]		proprietary^[53]	Sekuentziatik-sekuentziara arkitekturakoa baina bi noranzkoetan
Neuro-sama	2022ko abendua	Independ.	Ezezaguna	Ezezaguna		privately-owned	Twitchen zuzenean transmititzeko diseinatutako hizkuntza-eredua.
Llama (Large Language Model Meta AI, Meta AI Hizkuntza Eredu Handia)	2023ko otsaila	Meta AI	65000000000 !65	1400000000000 !1.4 bilioi	6.300^[54]	Non-commercial research^[e]	Corpusak 20 hizkuntza ditu. "Gainentrenatua" (Chinchillako eskalatze-legearekin alderatuta) parametro gutxiagorekin errendimendu hobea lortzeko.
GPT-4	2023ko martxoa	OpenAI	Ezezaguna (Zurrumurruen arabera: 1.760)^[55]	Ezezaguna	Ezezaguna	proprietary	ChatGPT Plus-eko erabiltzaileentzat eskuragarri eta hainbat produktutan erabilia.
Chameleon	2024ko ekaina	Meta AI	34000000000 !34^[56]	4400000000000 !4.4 bilioi
Cerebras-GPT	2023ko martxoa	Cerebras	13000000000 !13^[57]		270	Apache 2.0	Chinchillaren formularekin entrenatua.
Falcon	2023ko martxoa	Technology Innovation Institute	40000000000 !40^[58]	Bilioi bat token, RefineWeb-etik hartuta (corpusetik iragazitako web testua) eta zenbait "corpus ondu".^[59]	2.800^[54]	Apache 2.0^[60]
BloombergGPT	2023ko martxoa	Bloomberg L.P.	50000000000 !50	363 mila milioi token zuen datu multzoa Bloomberg-eko datu-iturrietan oinarrituta, gehi 345 mila milioi token helburu orokorreko datu-multzotatik		Proprietary	Jabedun iturritako finantza-datuetan trebatua, finantza-zereginetarako.
PanGu-Σ	2023ko martxoa	Huawei	1085000000000 !1085	329 mila milioi token		Proprietary
OpenAssistant	2023ko martxoa	LAION	17000000000 !17	1,5 bilioi token		Apache 2.0	Crowdsourcing-eko datu irekietan trebatua
Jurascli-2^[61]	2023ko martxoa	AI21 Labs	Ezezaguna	Ezezaguna		Proprietary	Eleaniztuna^[62]
PALM 2 (Pathways Language Model 2)	2023ko maiatza	Google	340000000000 !340^[63]	3600000000000 !3.6 bilioi token^[63]	85000 !85,000^[54]	Proprietary	Bard chatboten erabili zuten (Gemini).^[64]
Llama 2	2023ko uztaila	Meta AI	70000000000 !70^[65]	2000000000000 !2 bilioi token^[65]	21000 !21,000	Llama 2 license	1,7 milioi A100-ordu.^[66]
Claude 2	2023ko uztaila	Anthropic	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Claude txatborean erabiltzen da.^[67]
Granitoa 13b	2023ko uztaila	IBM	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	IBM Watsonx-en erabilia.^[68]
Mistral 7B	2023ko iraila	Mistral AI	7300000000 !7.3^[69]	Ezezaguna		Apache 2.0
Claude 2.1	2023ko azaroa	Anthropic	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Claude txabotean erabiltzen da. 200.000 tokeneko edo ~500 orrialdeko testuinguru-leihoa du.^[70]
Grok-1^[71]	2023ko azaroa	x.AI	314	Ezezaguna	Ezezaguna	Apache 2.0	Grok txatbotean erabiltzen da. Grok-1ek 8.192 tokeneko testuinguru-luzera du eta X-rako (Twitter) atzipena du.^[72]
Gemini 1.0	2023ko abendua	Google DeepMind	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Eredu multimodala, hiru tamainatan dator. Izen bereko chatbotean erabilia.^[73]
Mixtrala 8x7B	2023ko abendua	Mistral AI	46,7	Ezezaguna	Ezezaguna	Apache 2.0	GPT-3.5 eta Llama 2 70B gainditzen ditu proba askotan.^[74] Aditu-konbinazioa eredua, 12.900 milioi parametro token bidez aktibatuak.^[75]
Phi-2	2023ko abendua	Microsoft	2,7	1.4T token	419^[76]	MIT	"Kalitatezko testuliburuetako" datu erreal eta sintetikoetan trebatua, 14 egunez A100 motako 96 GPU etan.^[76]
Latxa	2024ko urtarrila	HiTZ zentroa	70^[77]	Llama 2-ren 2 mila milioi token + euskarazko 288 milioi hitz^[78]		LLaMA-2 License	Euskararako eredua da. Baliabide urri dituen hizkuntza izanik LLaMA ereduetan oinarritzen da eta euskarazkoEusCrawl corpusa (288 milioi hitz) gehitu da.^[79]^[77]
Mixtral 8x22B	2024ko apirila	Mistral AI	141	Ezezaguna	Ezezaguna	Apache 2.0	^[80]
Gemini 1.5	2024ko otsaila	Google DeepMind	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Eredu multimodala, Aditu-konbinazioko (Mixture of experts, MoE) arkitekturan oinarritua. Milioi bat tokenetik gorako testuinguruaren leihoa .^[81]
Gemini Ultra	2024ko otsaila	Google DeepMind	Ezezaguna	Ezezaguna	Ezezaguna
Gemma	2024ko otsaila	Google DeepMind	7	6T token	Ezezaguna	Gemma Terms of Use^[82]
Claude 3	2024ko martxoa	Anthropic	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Hiru modelo ditu: Haiku, Sonnet eta Opus.^[83]
Nova	2024ko urria	Rubik's AI	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Hiru modelok osatzen dute: Nova-Instant, Nova-Air, eta Nova-Pro.
DBRX	2024ko martxoa	Databricks eta Mosaic ML	13600000000 !136	12T token		Databricks Open Model License	Entrenamenduak 10 milioi dolarreko kostua izan zuen.
Fugaku-HEH	2024ko maiatza	Fujitsu, Tokioko Teknologia Institutua, etab.	1300000000 !13	380 B token			CPUtan bakarrik entrenatutako inoizko eredurik handiena, Fugakun.^[84]
Phi-3	2024ko apirila	Microsoft	14^[85]	4.8T token		MIT	Microsoftek "hizkuntza-eredu txiki" gisa komertzializatzen ditu.^[86]
Granite Code Models	2024ko maiatza	IBM	Ezezaguna	Ezezaguna	Ezezaguna	Apache 2.0
Qwen2	2024ko ekaina	Alibaba Cloud	72^[87]	3T token			Hainbat tamaina, txikiena 0.5 B-koa izanik.
Nemotron-4	2024ko ekaina	Nvidia	34000000000 !340	9T token	200000 !200,000	NVIDIA Open Model License	Epoch baterako entrenatua. H100 motako 6.144 GPUtan entrenatua 2023ko abendutik 2024ko maiatzera.^[88]^[89]
Llama 3.1	2024ko uztaila	Meta AI	405	15.6 T token	440000 !440,000	Llama 3 license	405B bertsioak 31 milioi ordu behar izan zituen H100-80GB makina batean, 3,8E25 FLOPetan.^[90]
Llama-eus-8B	2024ko iraila	Orai NLP Teknologiak		15.6 T + 0.5 T tokenLlama3.1-8B-ko corpusa +ZelaiHandi corpusa^[91]		Llama 3 license	^[92]^[93]
DeepSeek V3	2024ko abendua	DeepSeek	671	14.8T token	44000 !440,000	DeepSeek License	2.788M ordu H800 GPUs makina batean.^[94]
Amazon Nova	2024ko abendua	Amazon	Ezezaguna	Ezezaguna	Ezezaguna	Proprietary	Hiru eredu ditu: Nova Micro, Nova Lite, eta Nova Pro^[95]
DeepSeek R1	2025eko urtarrila	DeepSeek	671	Ezezaguna	Ezezaguna	MIT	Aurre-entrenamendurik gabe. V3-Base oinarriaren gainean.^[96]
Qwen2.5	2025eko urtarrila	Alibaba	72	18T token	Ezezaguna	License	^[97]
MiniMax-Text-01	2025eko urtarrila	Minimax	456	4.7T token	Ezezaguna	Minimax Model license	^[98]

Movatterモバイル変換

Propietateak

Aurre entrenamendu datu multzoak

Eskalatzeko legeak

Gaitasun emergenteak

Aluzinazioak

Arkitektura

Tokenizazioa

Irteera

Entrenamendua

Entrenamendu kostua

Ondorengo zereginetarako aplikazioa (downstream tasks)

Fine-tuning

Ebaluazioa

Perplexitatea

Hizkuntza-eredu handien zerrenda

Erreferentziak

Ikus, gainera

Kanpo estekak