Movatterモバイル変換


[0]ホーム

URL:


Edukira joan
WikipediaEntziklopedia askea
Bilatu

Hizkuntza-eredu handi

Wikipedia, Entziklopedia askea

Hizkuntza-eredu handiak[1] (HEH edoLLM,ingelesez:Large Language Model) milaka miloi parametro dituztensare neuronaletan (gehienbattransformer[2]-ak) oinarritutakohizkuntza-ereduak dira, oro har, hizkuntza-ulermena eta sormena lortzeko duten gaitasunagatik ezagunak. Gaitasun hauek eskuratzeko, entrenamenduan datu-kopuru erraldoiak etaikasketa-teknika ezberdinak erabiltzen dituzte.

Hizkuntza eredu handiak entrenatzeko erabiltzen den konputazio-lanaren gorakada azkarra. HEH itxi onenen entrenamendu-kostuak eredu irekiko onenen entrenamendu-kostuak baino askoz ere handiagoak dirudite. GPT-4 eta antzeko ereduen entrenamendu-kostua ez da publikoki ezagutzen; beraz, estimazio bat baino ez da. DatuakEpoch-enak dira 2023an, eta grafikoaStanfordeko UnibertsitatekoAI index-ekoa da 2024an.[3]

Hizkuntza-eredu autorregresibo gisa, sarrerako testu bat hartu eta hurrengo token edo hitza zein izan daitekeen aurreikusten dute, behin eta berriz.

Esaldi batean hurrengo hitza iragartzea bezalako zeregin sinpleetan trebatuta egon arren, horrekin batera giza hizkuntzaren sintaxiaren eta semantikaren zati handi bat ikasteko gaitasuna ere lortzen dute. Gainera,hizkuntza-eredu handiek munduari buruzko ezagutza orokorra ere badutela erakusten dute, eta entrenamenduan zehar gertaera ugariri buruz ikasteko gai direla. Hala ere, entrenamendua corpuseko testuaren gainean egiten denez, horrenganako menpekotasun handia dute gero, hau da, corpuseko testuak dituen zehaztasun-ezak eta alborapenak heredatzen dituzte.

Adibide aipagarriak dira OpenAIrenGPT ereduak (adibidez, GPT-3.5 eta GPT-4,ChatGPT txatbotean erabiltzen direnak),Google-ren PaLM (Bard-en erabilia) etaMeta-renLLaMa, baita BLOOM, Ernie 3.0 Titan etaAnthropic-enClaude 3 ere.

2024koInformatikari Euskaldunen Bilkuraren barruan sei hizkuntza-eredu handi jarri zuten lehian euskarazko elkarrizketetan. HelburuaEHUkoHitz zentroan garatzen denLatxa eredua «sistema komertzial hoberenen kontra» lehian jartzea izan zen, eta horra ondorioetako bat:GPT-4o eredu ezagunaren parean geratu zen ia. Dema horretan ikusi zen euskaraz «hobekien» zekien sistemaClaude Sonnet 3.5 sistema komertziala zela, bigarrenGPT-4o sistema geratu zen, eta haren «ia parean» geratu zenLatxa. Beherago geratu zenGemini Flash 1.5, eta «askoz beherago»Command R+ etaLLama 3.1. Azken hori Latxa eredu berriaren «oinarria» da.[4][5][6]

Propietateak

[aldatu |aldatu iturburu kodea]

Aurre entrenamendu datu multzoak

[aldatu |aldatu iturburu kodea]

HEHak testu-datu multzo handietan aldez aurretik trebatzen dira. Gehien erabiltzen diren testu-datu multzo batzukCommon Crawl,The Pile,MassiveText,​Wikipedia etaGitHub dira. Datu multzoek 15.000.000 milioi hitz arteko tamaina heldu ziren 2024an. Baliabide urri dituen hizkuntza izanik, euskarazko testu-corpus handienen tamaina milaka aldiz txikiago izaten da; esate baterakoEusCrawl corpusa (288 milioi hitz). Hala ere bada berri on bat, euskarazko corpus ·txiki horiek" ingelesezko corpus itzel batekin batera entrenatuz gero, lortzen den eredua gauza da euskaraz modu duinean egiteko eta gauza da ingelesezko corpus handiaren ezagutza orokorra euskaraz erabiltzeko ere. Horrela, HiTZ zentroak 2024ko urtarrilean garatu zuen Latxa ereduan LLaMA 2 ereduko corpusa (2 bilioi hitz) erabili zuten eta euskarazkoEusCrawl corpusa (288 milioi hitz, 6 mila aldiz txikiagoa) gehitu zioten.[7]

Bestalde, izugarria da ikustea zelan hazten diren testu-corpusen tamaina. Esate baterako, lehen aipatutako LLaMA 2 ereduko corpusak 2 bilioi hitz zeuzkan 2023ko uztailean, eta urtebete geroago, 2024ko uztailean, LLaMA 3 eredu berriko corpusak 15,7 bilioi hitz zeuzkan. Urtebeteko epean entrenamendu-corpusaren tamaina ia zortzi aldiz handiagoa zen. Noski, HiTZ Zentroak corpus libre handiago hori erabili du Latxaren bertsio hobe bat sortzeko.[7]

Eskalatzeko legeak

[aldatu |aldatu iturburu kodea]

Oro har,HEH bat lau parametrorekin deskriba daiteke: ereduaren tamaina, prestakuntza-datuen multzoaren tamaina, prestakuntza-kostua eta entrenamenduaren ondorengo errendimendua. Lau aldagai horietako bakoitza zehatz-mehatz defini daiteke zenbaki erreal batean, eta enpirikoki lege estatistiko sinpleen bidez erlazionatuta aurkitzen da, "eskala-legeak" izenekoak.

Garai baterako modu autorregresiboan trebatutako HEHentzako eskalatze-lege partikular batek ("Chinchilla eskala"), ikaskuntza-tasa logaritmikoko programazio batekin, hau dio:


{C=C0NDL=ANα+BDβ+L0{\displaystyle {\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}}

aldagaiak hauek dira:

C{\displaystyle C} eredua entrenatzearen kostua da,FLOPetan.
N{\displaystyle N} ereduko parametro kopurua da.
D{\displaystyle D} entrenamendu multzoko token kopurua da.
L{\displaystyle L} token bakoitzeko (nats / token) batez besteko log probabilitate-galera negatiboa da, probako datu multzoan trebatutako HEHak lortutakoa.

eta parametro estatistikoak hauek dira:

C0=6{\displaystyle C_{0}=6}, hau da, parametro bakoitzeko 6 FLOP kostatzen da token batean entrenatzea. Kontuan izan prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP kostatzen diren token bat ondorioztatzeko.
α=0.34,β=0.28,A=406.4,B=410.7,L0=1.69{\displaystyle \alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69}

Gaitasun emergenteak

[aldatu |aldatu iturburu kodea]

Normalean eredu txikien antzekoen errendimenduan oinarritutako hainbat zereginetan eredu handien errendimendua estrapola dezakeen arren, batzuetan eredu handiek "fase-aldaketako etena" izaten dute, non ereduak bat-batean ezagutzen ez diren gaitasun handiak eskuratzen dituen. Hauek "gaitasun emergenteak" izenez ezagutzen dira eta azterketa sakonen gai izan dira. Ikertzaileek adierazi dute gaitasun horiek "ezin direla aurreikusi eredu txikiagoen errendimendua estrapolatuz bakarrik". Gaitasun horiek programatuta edo diseinatuta aurkitu beharrean, kasu batzuetanHEHa publikoki zabaldu ondoren aurkitzen dira. Ehunka trebetasun aurkitu dira. Adibideak honako hauek dira: urrats anitzeko aritmetika, unibertsitate-mailako azterketak gainditzea, hitz baten esanahia identifikatzea, pentsamendu-katea,Nazioarteko Alfabeto Fonetikoa deskodetzea eta abar.[8]

Aluzinazioak

[aldatu |aldatu iturburu kodea]

HEH-sortzaileek beren aurre-entrenamendu datuek justifikatzen ez duten egiazko aldarrikapenak ziurtasunez baieztatzen dituztela ikusi da, "aluzinazioa" deitu izan den fenomenoa da hori.[9]

Arkitektura

[aldatu |aldatu iturburu kodea]

Hizkuntza-eredu handiektransformer izeneko arkitektura erabili dute gehienbat, 2018az geroztik, datu sekuentzialetarakoikaskuntza sakoneko teknika estandarra bihurtu da (lehen, LSTM bezalako arkitektura errepikakorrak ziren ohikoenak).

Tokenizazioa

[aldatu |aldatu iturburu kodea]

HEHak funtzio matematikoak dira, eta hauen sarrera eta irteera zenbakien zerrendak dira. Ondorioz, hitzak zenbaki bihurtu behar dira.

Orokorrean, HEH batek tokenizatzaile bat erabiltzen du. Tokenizatzailea testuen eta zenbaki osoen zerrenden arteko mapak egiten dituenfuntzio bijektibo bat da. Tokenizatzailea normalean aurreentrenamentu-datu multzo osora egokitzen da eta gero izoztu egiten da HEHa entrenatu aurretik. Aukera arrunt batbyte bikoteen kodeketa da.

Tokenizatzaileen beste ezaugarri bat testu-konpresioa da, eta horrek konputazioa aurrezten du. "Non dago" bezalako hitz edo esaldi arruntak token batean kodetu daitezke, 7 karaktere izan beharrean.OpenAIGPT-ek tokenizer bat erabiltzen dute, eta token bat 4 karaktere ingururekin osatzen da, edo 0,75 hitz ingururekin, ingelesezko testu arruntean.[10] Ingelesezko testu ezohikoa ezin da hain erraz aurreikusi, beraz, gutxiago konprimitu ahalko da, beraz, token gehiago behar ditu kodetzeko.

Tokenizatzaile batek ezin ditu zenbaki oso arbitrarioak sortu. Normalean{0,1,2,...,V1}{\displaystyle \{0,1,2,...,V-1\}} barnekozenbaki osoak soilik ateratzen dituzte,V{\displaystyle V} hiztegiaren tamainari deritzo.

Tokenizatzaile batzuk testu arbitrarioak kudeatzeko gai dira (normaleanUnicode-n zuzenean funtzionatuz), baina beste batzuk ez. Kodetzerik gabeko testua topatzen denean, tokenizagailu batek "testu ezezaguna" adierazten duen token berezi bat sortuko luke (askotan 0). Hau [UNK] bezala idatzi ohi da,BERT dokumentuan bezala.

Askotan erabiltzen den beste token berezi bat [PAD] da, "betegarria" egiteko. Hau erabiltzen da normalean HEHak aldi berean testu-loteetan erabiltzen direlako, eta testu horiek ez dira luzera berdinean kodetzen. HEHek, oro har, sarrera zerrenda ez-irregularra izatea eskatzen dutenez, kodetutako testu laburragoak bete behar dira luzeagoaren luzerarekin bat etorri arte.

Irteera

[aldatu |aldatu iturburu kodea]

HEH baten irteera bere hiztegiaren gainekoprobabilitate banaketa da. Hau normalean honela ezartzen da:

Prozesuan,y{\displaystyle y} bektoreari logit bektore ez normalizatua deitzen zaio, etasoftmax(y){\displaystyle softmax(y)} bektoreari probabilitate-bektorea.softmax(y){\displaystyle softmax(y)} bektoreakV{\displaystyle V} sarrera dituenez, guztiak ez-negatiboak, eta 1era batuta,{0,1,2,...,V1}{\displaystyle \{0,1,2,...,V-1\}} probabilitate-banaketa gisa interpreta dezakegu, hau da, probabilitate banaketa bat da HEHaren hiztegian.

Entrenamendua

[aldatu |aldatu iturburu kodea]

HEH gehienak aurre-entrenamendu generatiboa erabiliz entrenatzen dira, hau da, testu-token prestakuntza-datu multzo bat emanda, ereduak datu-multzoko tokenak aurreikusten ditu. Bi aurre-entrenamendu generatibo estilo orokor daude:[11]

  • Autorregresiboa: "Izokia jatea" bezalako testu-segmentu bat emanda, ereduak hurrengo tokenak aurreikusten ditu, "gustatzen zait" adibidez.
  • Maskaratua: "Txokolatezko [MASKARA] [MASKARA] gustatzen zait" bezalako testu-segmentu bat emanda, ereduak maskaratutako tokenak aurreikusten ditu, adibidez "izozkia jatea".

HEHak datuen banaketaren ulermena erakusten duten bestelako zereginetan entrenatu daitezke.

Normalean, HEHak galera-funtzio zehatz bat minimizatzeko entrenatzen dira: token bakoitzeko batez besteko log probabilitate negatiboa (entropia gurutzatua ere deitzen zaio) adibidez. Eredu autorregresibo batek, "Izozkia jatea gustatzen" emanda, probabilitate-banaketa bat aurreikusten baduPr(|Izozkia jatea gustatzen){\displaystyle Pr(\cdot |{\text{Izozkia jatea gustatzen}})} orduan token honen log probabilitate negatiboalogPr(zait |Izozkia jatea gustatzen){\displaystyle -\log Pr({\text{zait }}|{\text{Izozkia jatea gustatzen}})} izango da.

Entrenamenduan zehar, erregularizazio-galera ere erabiltzen da entrenamendua egonkortzeko. Hala ere, erregularizazio-galera hau ez da proba eta ebaluazioan erabiltzen. Ebaluazio-irizpide gehiago ere badaude entropia gurutzatutik haratago.

HEHak milaka milioi hitzen dimentsioa duten corpus linguistikoetan eratzen dira.

GPT-1, OpenAI-ren aurreentrenatutako lehen transformer-eredua, 2018an BookCorpus-en entrenatu zen, hau 985 milioi hitzez osatzen da. Urte berean, BERT BookCorpus eta ingelesezko wikipediaren konbinazio batean entrenatu zen, 3.300 milioi hitz guztira.Harrezkero, HEHrako prestakuntza-corpusak handitu egin dira, eta billoi bat tokenetara iritsi dira.

Entrenamendu kostua

[aldatu |aldatu iturburu kodea]

HEHak konputazionalki oso garestiak dira entrenatzereko garaian. 2020ko ikerketa batek 1.500 milioi parametroko eredua entrenatzearen kostua 1.6 milioi dolarrekoa dela kalkulatu zuen.Softwarearen etahardwarearen aurrerapenek kostua nabarmen murriztu dute, 2023ko paper batean aurreikusi zen 72.300 orduko A100-GPU kostua duela 12.000 milioi parametro-eredu bat entrenatzeko. Kalkulatzen daGPT-3 bat behin bakarrik entrenatzea, 175.000 milioi parametrorekin, 4,6 milioi dolar behar direla.Horretarako RTX 8000 bakar batek 665 urte beharko lituzke bukatzeko.[12]

Transformerretan oinarritutako HEHetarako, parametro bakoitzeko 6FLOP kostatzen da token batean entrenatzea. Kontuan izan behar da prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP artean kostatzen den token batean ondorioztatzeko.

Ingurumen kostuari dagokionez, HEH baten entrenamenduak kostu energetikoa oso altua du. Eredu bat entrenatzeak bidaiari batekNew York-etikSan Frantziskorako hegaldi batean bezainbesteko karbono-isuria egiten da.[13]​ GPT-3-ren kasuan, kalkulatzen da 1.200 MWh konsumitzen dela, 500 tonaCO2 isuri baino gehiago sortuz. Kostu horiek areagotu egiten dira ereduek parametro gehiago dituezten heinean. Prestakuntza-ziklo bakoitzak ehunka edo milaka CPU eta GPUren dedikazio esklusiboa eskatzen du, hauek karga konputazional handia onartzen dute, datu kopuru handiak gordetzeaz eta mugitzeaz gain. Horrek guztiak energia-kontsumo handia eragiten du, eta bero kantitate handiak sortzen ditu.

Kostu horiek murrizteko, irtenbide posible bat eredu txikiagoak erabiltzea da. Hauek eredu handi baten antzera funtziona dezaket, eta 100 dolar inguruko kostua dute entrenatzean. Eredu txiki baten adibidea Alpaca eredua da,Stanfordeko Unibertsitateko ikertzaileek Meta AI-ren LLaMA izeneko ereduan garatua. Hau nahikoa arina da eta mahaigaineko ordenagailu batean exekuta daiteke.

Ondorengo zereginetarako aplikazioa (downstream tasks)

[aldatu |aldatu iturburu kodea]

2018 eta 2020 artean,hizkuntza naturalaren prozesatzeko (NLP) HEH bat prestatzeko metodo estandarra ataza zehatz baterako eredua doitzea izan zen, zeregin espezifikoko prestakuntza osagarri batekin. Ondoren, aurkitu zen HEH indartsuagoek, GPT-3 adibidez, zereginak prestakuntza gehigarririk gabe ebatzi ditzaketela "prompting" tekniken bidez, zeinetan konpondu beharreko arazoa testu-mezu gisa aurkezten zaiola ereduari, agian testu-adibide batzuekin, antzeko arazoak eta haien konponbideak emanez.

Fine-tuning

[aldatu |aldatu iturburu kodea]

Fine-tuning aldez aurretik trebatutako hizkuntza-eredu bat aldatzeko praktika da (modu gainbegiratuan) zeregin zehatz batean trebatuz (adibidez, sentimenduen analisian, entitate izendapenaren errekonozimendua edo gramatika etiketatzea).[14] Ikaskuntza transferitzeko modu bat da. Normalean, hizkuntza-ereduaren azken geruza nahi den zereginaren emaitzekin lotzen duten pisu multzo berri bat sartzeaz oinarritzen da. Hizkuntza-ereduaren jatorrizko pisuak "izoztu" daitezke, eta, beraz, irteerarekin lotzen dituen pisu-geruza berria bakarrik ikasten da entrenamenduan. Jatorrizko pisuen eguneratze txikiak eginez ere lortzen da.

Ebaluazioa

[aldatu |aldatu iturburu kodea]

Perplexitatea

[aldatu |aldatu iturburu kodea]

Hizkuntza-eredu baten errendimenduaren neurririk erabilienatestu-corpus jakin batean duen perplexitatea da. Perplexitatea eredu batek datu-multzo baten edukia zenbateraino iragar dezakeen neurtzen du; ereduak datu multzoa iragartzen duenarenprobabilitatea zenbat eta handiago, orduan eta perplexitate txikiagoa izango du. Matematikoki, perplexitatea token bakoitzeko batez bestekolog probabilitate negatiboaren esponentzial gisa definitzen da:log(Perplexity)=1Ni=1Nlog(Pr(tokeni|context for tokeni)){\displaystyle \log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(Pr({\text{token}}_{i}|{\text{context for token}}_{i}))} hemenN{\displaystyle N} testu-corpuseko token kopurua da, eta "i tokenaren testuingurua" erabilitako HEH motaren araberakoa da. HEH autorregresiboa bada, "i tokenaren testuingurua" i tokenaren aurretik agertzen den testu-segmentua da. HEHa maskaratuta badago, "i tokenaren testuingurua" i tokenaren inguruko testu-segmentua da.[15]

Hizkuntza-ereduak beren prestakuntza-datuetara gehiegi moldatu daitezkeenez, ereduak normalean ikusten ez diren datuen proba-multzo bateanperplexitatearen arabera ebaluatzen dira. Horrek erronka bereziak ditu hizkuntza eredu handiak ebaluatzeko.

Hizkuntza-eredu handien zerrenda

[aldatu |aldatu iturburu kodea]

Prestakuntza-kostuen zutaberako, 1 petaFLOP-egun = 1 petaFLOP/sec × 1 egun = 8,64E19 FLOP. Gainera, modeloaren handienaren kostua bakarrik dago idatzita.

IzenaArgiratze data

[a]

Gara-tzaileaParametro kopurua (mila milioika)[b]Corpusaren tamainaEntrena-mendu-kostua (peta

FLOP-egun)

Lizentzia

[c]

Oharrak
GTP-12018ko ekainaOpenAI117000000 !0.1171[16]MIT[17]Lehen GPT modeloa, dekodetzaile hutsezko transformerra. 30 egunez 8 P600GPUtan entrenatua.
BERT2018ko urriaGoogle340000000 !0.340[18]3,3 mila milioi hitz[18]9 !9[19]Apache 2.0[20]Hizkuntza-eredu goiztiar eta eragin handikoa.[21]Kodifikatzailea besterik ez, eta, beraz, ez dago eraikita elkarizketan erabilia edo sortzailea izateko . Entrenamenduak 4 egun iraun zuen 64 TPUv2 txipekin.
T52019ko urriaGoogle11[22]34 mila milioi token[22]Apache 2.0[23]Googleren proiektu askotarako oinarrizko eredua, esate baterako, Irudia.[24]
XLNet2019ko ekainaGoogle340000000 !0.340[25]3300000000 !33 mila milioi hitz330Apache 2.0[26]BERTen alternatiba bat; kodetzaile gisa soilik diseinatua. 512 TPU v3 txipetan entrenatua 5,5 egunetan.
GTP-22019ko otsailaOpenAI1500000000 !1.540 GB (~10000000000 !10 mila milioi mila milioi token)[27][28]28[29]MIT[30]32 TPUv3-txipetan entrenatuta astebetez.[29]
GPT-32020ko maiatzaOpenAI175000000000 !175[31]300000000000 !300 mila milioi token[28]3640proprietaryGPT-3 aldaera findu bat, GPT-3.5 izenekoa, publikoaren eskura jarri zen ChatGPT izeneko web interfaze baten bidez 2022an.
GPT-Neo2021eko martxoaEleutherAI2700000000 !2.7[32]825 GiBMIT[33]EleutherAIk liberatu zituen doako GPT-3 alternatiben artean lehena. GPT-Neok proba batzuetan tamaina bereko GPT-3 eredu bat gainditu zuen, baina GPT-3 handiena baino nabarmen okerragoa izan zen.
GPT-J2021eko ekainaEleutherAI6000000000 !6[34]825 GiB[34]200Apache 2.0GPT-3 estiloko hizkuntza-eredua
Megatron-Turing NLG2021eko urria[35]Microsoft etaNvidia530000000000 !530338600000000 !338.6 mila milioi token38.000[36]Restricted web accessHiru hilabetez entrenatua A100 motako 2.000 GPU baino gehiagotan NVIDIA Selene Superkonputagailuan, 3 milioi GPU ordu baino gehiagotan.[36]
Ernie 3.0 Titan2021eko urriaBaidu260000000000 !260[37]4 TbProprietaryTxinerarako HEHa. Ernie Bot izeneko bot-ak eredu hau du oinarri.
Claude[38]2021eko urriaAnthropic52000000000 !52[39]400000000000 !400 mila milioi token[39]betaElkarrizketetan nahi den portaerarako ongi doitua .
GLaM (hizkuntza-eredu orokorra)2021eko urriaGoogle1200000000000 !12001600000000000 !1.6 bilioi token5.600ProprietaryEredu berezia (aditu-konbinazioa), garestiagoa da entrenatzeko, baina merkeagoa inferentzia exekutatzeko, GPT-3rekin alderatuta.
Gopher2021eko urriaDeepMind280000000000 !280[40]300000000000 !300 mila milioi token[41]5.833[42]ProprietaryOndoren, Chinchilla eredurako garatu zen.
LaMDA (Elkarrizketa hizkuntza ereduak)2022ko urtarrilaGoogle137000000000 !1371.56T hitz,168000000000 !168 mila milioi token[41]4.110ProprietaryElkarrizketetan erantzunak sortzeko espezializatua.
GPT-NeoX2022ko otsailaEleutherAI20000000000 !20825 GiB[34]740Apache 2.0Megatron arkitekturan oinarritua
Chinchilla2022ko martxoaDeepMind70000000000 !701400000000000 !1.4 bilioi token[41]6.805[42]ProprietaryParametro gutxiko eredua, datu gehiagotan entrenatua. Sparrow botean erabilia. Sarritan aipatua bere eskala neuronalaren legearengatik.
PaLM (Pathways Language Model, Pathways hizkuntza-eredua)2022ko apirilaGoogle540000000000 !540768000000000 !768 mila milioi token29250 !29,250[42]ProprietaryEntrenatua ~60 egunetan, ~6000 TPU v4 txipetan.[42] 2024ko urrian, argitaratutako transformer trinko handiena zen
OPT (Open Pretained

Transformer)

2022ko MaiatzaMeta175000000000 !175[43]180000000000 !180 mila milioi token[44]310Non-commercial research[d]GPT-3 arkitektura, Megatronetik hartutako egokitzapen batzuekin. Modu bakarrean, taldeak idatzitako prestakuntza koadernoa argitaratu zuten.[45]
YaLM 100B2022ko ekainaYandex100000000000 !100[46]1,7 Tuberkulosia[46]Apache 2.0Eredu anglo-errusiarra, Microsoften Megatron-LMan oinarritua.
Minerva2022ko ekainaGoogle540000000000 !540Eduki matematikan iragazitako web orrien eta arXiv aurre-inprimaketa-zerbitzarira bidalitako dokumentuen 38,5B tokenProprietary"Gai matematiko eta zientifikoak urratsez urratseko arrazoiketa erabiliz" ebazteko.[47] PaLM ereduetatik abiatua, datu matematiko eta zientifikoekin findua.
BLOOM2022ko uztailaLankidetza handia, Hugging Face buru zela175000000000 !175[48]350000000000 !350 mila milioi token (1.6TB)[49]Responsible AIFuntsean, GPT-3, baina corpus eleanitz batekin entrenatua (% 30 ingelesez, programazio-lengoaiak alde batera utzita)
Galactica2022ko azaroaMeta120000000000 !120350000000000 !106 mila milioi token[50]ezezagunaCC-BY-NC-4.0Entrenatua testu zientifikoetarako eta modalitateetarako.
AlexaTM (Irakasle-Ereduak)2022ko azaroaAmazon20000000000 !20[51]1300000000000 !1.3 bilioi[52]proprietary[53]Sekuentziatik-sekuentziara arkitekturakoa baina bi noranzkoetan
Neuro-sama2022ko abenduaIndepend.EzezagunaEzezagunaprivately-ownedTwitchen zuzenean transmititzeko diseinatutako hizkuntza-eredua.
Llama (Large Language Model Meta AI, Meta AI Hizkuntza Eredu Handia)2023ko otsailaMeta AI65000000000 !651400000000000 !1.4 bilioi6.300[54]Non-commercial research[e]Corpusak 20 hizkuntza ditu. "Gainentrenatua" (Chinchillako eskalatze-legearekin alderatuta) parametro gutxiagorekin errendimendu hobea lortzeko.
GPT-42023ko martxoaOpenAIEzezaguna (Zurrumurruen arabera: 1.760)[55]EzezagunaEzezagunaproprietaryChatGPT Plus-eko erabiltzaileentzat eskuragarri eta hainbat produktutan erabilia.
Chameleon2024ko ekainaMeta AI34000000000 !34[56]4400000000000 !4.4 bilioi
Cerebras-GPT2023ko martxoaCerebras13000000000 !13[57]270Apache 2.0Chinchillaren formularekin entrenatua.
Falcon2023ko martxoaTechnology Innovation Institute40000000000 !40[58]Bilioi bat token, RefineWeb-etik hartuta (corpusetik iragazitako web testua) eta zenbait "corpus ondu".[59]2.800[54]Apache 2.0[60]
BloombergGPT2023ko martxoaBloomberg L.P.50000000000 !50363 mila milioi token zuen datu multzoa Bloomberg-eko datu-iturrietan oinarrituta, gehi 345 mila milioi token helburu orokorreko datu-multzotatikProprietaryJabedun iturritako finantza-datuetan trebatua, finantza-zereginetarako.
PanGu-Σ2023ko martxoaHuawei1085000000000 !1085329 mila milioi tokenProprietary
OpenAssistant2023ko martxoaLAION17000000000 !171,5 bilioi tokenApache 2.0Crowdsourcing-eko datu irekietan trebatua
Jurascli-2[61]2023ko martxoaAI21 LabsEzezagunaEzezagunaProprietaryEleaniztuna[62]
PALM 2 (Pathways Language Model 2)2023ko maiatzaGoogle340000000000 !340[63]3600000000000 !3.6 bilioi token[63]85000 !85,000[54]ProprietaryBard chatboten erabili zuten (Gemini).[64]
Llama 22023ko uztailaMeta AI70000000000 !70[65]2000000000000 !2 bilioi token[65]21000 !21,000Llama 2 license1,7 milioi A100-ordu.[66]
Claude 22023ko uztailaAnthropicEzezagunaEzezagunaEzezagunaProprietaryClaude txatborean erabiltzen da.[67]
Granitoa 13b2023ko uztailaIBMEzezagunaEzezagunaEzezagunaProprietaryIBM Watsonx-en erabilia.[68]
Mistral 7B2023ko irailaMistral AI7300000000 !7.3[69]EzezagunaApache 2.0
Claude 2.12023ko azaroaAnthropicEzezagunaEzezagunaEzezagunaProprietaryClaude txabotean erabiltzen da. 200.000 tokeneko edo ~500 orrialdeko testuinguru-leihoa du.[70]
Grok-1[71]2023ko azaroax.AI314EzezagunaEzezagunaApache 2.0Grok txatbotean erabiltzen da. Grok-1ek 8.192 tokeneko testuinguru-luzera du eta X-rako (Twitter) atzipena du.[72]
Gemini 1.02023ko abenduaGoogle DeepMindEzezagunaEzezagunaEzezagunaProprietaryEredu multimodala, hiru tamainatan dator. Izen bereko chatbotean erabilia.[73]
Mixtrala 8x7B2023ko abenduaMistral AI46,7EzezagunaEzezagunaApache 2.0GPT-3.5 eta Llama 2 70B gainditzen ditu proba askotan.[74] Aditu-konbinazioa eredua, 12.900 milioi parametro token bidez aktibatuak.[75]
Phi-22023ko abenduaMicrosoft2,71.4T token419[76]MIT"Kalitatezko testuliburuetako" datu erreal eta sintetikoetan trebatua, 14 egunez A100 motako 96 GPU etan.[76]
Latxa2024ko urtarrilaHiTZ zentroa70[77]Llama 2-ren 2 mila milioi token

+ euskarazko 288 milioi hitz[78]

LLaMA-2 LicenseEuskararako eredua da. Baliabide urri dituen hizkuntza izanik LLaMA ereduetan oinarritzen da eta euskarazkoEusCrawl corpusa (288 milioi hitz) gehitu da.[79][77]
Mixtral 8x22B2024ko apirilaMistral AI141EzezagunaEzezagunaApache 2.0[80]
Gemini 1.52024ko otsailaGoogle DeepMindEzezagunaEzezagunaEzezagunaProprietaryEredu multimodala, Aditu-konbinazioko (Mixture of experts, MoE) arkitekturan oinarritua. Milioi bat tokenetik gorako testuinguruaren leihoa .[81]
Gemini Ultra2024ko otsailaGoogle DeepMindEzezagunaEzezagunaEzezaguna
Gemma2024ko otsailaGoogle DeepMind76T tokenEzezagunaGemma Terms of Use[82]
Claude 32024ko martxoaAnthropicEzezagunaEzezagunaEzezagunaProprietaryHiru modelo ditu: Haiku, Sonnet eta Opus.[83]
Nova2024ko urriaRubik's AIEzezagunaEzezagunaEzezagunaProprietaryHiru modelok osatzen dute: Nova-Instant, Nova-Air, eta Nova-Pro.
DBRX2024ko martxoaDatabricks eta Mosaic ML13600000000 !13612T tokenDatabricks Open Model LicenseEntrenamenduak 10 milioi dolarreko kostua izan zuen.
Fugaku-HEH2024ko maiatzaFujitsu, Tokioko Teknologia Institutua, etab.1300000000 !13380 B tokenCPUtan bakarrik entrenatutako inoizko eredurik handiena, Fugakun.[84]
Phi-32024ko apirilaMicrosoft14[85]4.8T tokenMITMicrosoftek "hizkuntza-eredu txiki" gisa komertzializatzen ditu.[86]
Granite Code Models2024ko maiatzaIBMEzezagunaEzezagunaEzezagunaApache 2.0
Qwen22024ko ekainaAlibaba Cloud72[87]3T tokenHainbat tamaina, txikiena 0.5 B-koa izanik.
Nemotron-42024ko ekainaNvidia34000000000 !3409T token200000 !200,000NVIDIA Open Model LicenseEpoch baterako entrenatua. H100 motako 6.144 GPUtan entrenatua 2023ko abendutik 2024ko maiatzera.[88][89]
Llama 3.12024ko uztailaMeta AI40515.6 T token440000 !440,000Llama 3 license405B bertsioak 31 milioi ordu behar izan zituen H100-80GB makina batean, 3,8E25 FLOPetan.[90]
Llama-eus-8B2024ko irailaOrai NLP Teknologiak15.6 T + 0.5 T tokenLlama3.1-8B-ko corpusa +ZelaiHandi corpusa[91]Llama 3 license[92][93]
DeepSeek V32024ko abenduaDeepSeek67114.8T token44000 !440,000DeepSeek License2.788M ordu H800 GPUs makina batean.[94]
Amazon Nova2024ko abenduaAmazonEzezagunaEzezagunaEzezagunaProprietaryHiru eredu ditu: Nova Micro, Nova Lite, eta Nova Pro[95]
DeepSeek R12025eko urtarrilaDeepSeek671EzezagunaEzezagunaMITAurre-entrenamendurik gabe. V3-Base oinarriaren gainean.[96]
Qwen2.52025eko urtarrilaAlibaba7218T tokenEzezagunaLicense[97]
MiniMax-Text-012025eko urtarrilaMinimax4564.7T tokenEzezagunaMinimax Model license[98]

Erreferentziak

[aldatu |aldatu iturburu kodea]
  1. Elhuyar..
  2. What Is a Transformer Model?..
  3. (Ingelesez)«AI Index Report 2024 – Artificial Intelligence Index» aiindex.stanford.edu: (chapter 1, image 3). (kontsulta data: 2024-11-25).
  4. Sustatu. (2024-11-10). «Adimen artifiziala euskaraz, sailkapena: 1) Claude / 2) GPT 4o / 3) Latxa» sustatu.eus (kontsulta data: 2025-01-03).
  5. «Latxa hizkuntza eredua GPT-4ren parean geratu da lehiaketa batean» Berria 2024-11-19 (kontsulta data: 2024-11-25).
  6. (Gaztelaniaz)Quesada Webb, Armando. (2024-06-12). «Latxa, un ChatGPT en euskera contra la brecha digital de los idiomas» El País (kontsulta data: 2024-11-25).
  7. ab «Latxa hizkuntza eredua GPT-4ren parean geratu da lehiaketa batean» Berria 2024-11-19 (kontsulta data: 2024-11-25).
  8. The Unpredictable Abilities Emerging From Large AI Models..
  9. Survey of Hallucination in Natural Language Generation..
  10. OpenAI API..
  11. A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP.  doi:10.1145/3373017.3373028. ISBN9781450376976..
  12. OpenAI's GPT-3 Language Model: A Technical Overview..
  13. Energy and Policy Considerations for Deep Learning in NLP..
  14. ISBN978-1-5443-6137-6..
  15. Perplexity in Language Models..
  16. «Improving language understanding with unsupervised learning» openai.com June 11, 2018.
  17. .
  18. abTxantiloi:Cite arXiv
  19. .
  20. .
  21. Manning, Christopher D.. (2022). «Human Language Understanding & Reasoning» Daedalus 151 (2): 127–138.  doi:10.1162/daed_a_01905..
  22. abRaffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei et al.. (2020). «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer» Journal of Machine Learning Research 21 (140): 1–67. ISSN1533-7928..
  23. .
  24. «Imagen: Text-to-Image Diffusion Models» imagen.research.google.
  25. .
  26. .
  27. «Better language models and their implications» openai.com.
  28. ab«OpenAI's GPT-3 Language Model: A Technical Overview» lambdalabs.com 3 June 2020.
  29. ab«openai-community/gpt2-xl · Hugging Face» huggingface.co.
  30. .
  31. .
  32. .
  33. (Ingelesez)AI, Abhishek Iyer, FreeText. (2021-05-15). «GPT-3’s free alternative GPT-Neo is something to be excited about» VentureBeat (kontsulta data: 2024-11-30).
  34. abc«GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» web.archive.org 2023-03-09 (kontsulta data: 2024-11-30).
  35. .
  36. abRajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong. (2022-07-21). DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale..
  37. Txantiloi:Cite arXiv
  38. «Product» Anthropic.
  39. abTxantiloi:Cite arXiv
  40. .
  41. abcTxantiloi:Cite arXiv
  42. abcdTable 20 and page 66 ofPaLM: Scaling Language Modeling with PathwaysError in Webarchive template: url hutsa.
  43. .
  44. Txantiloi:Cite arXiv
  45. (Ingelesez)«metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq» GitHub.
  46. ab.
  47. «Minerva: Solving Quantitative Reasoning Problems with Language Models» ai.googleblog.com 30 June 2022.
  48.  doi:10.1038/d41586-023-00641-w. PMID36890378. Bibcode2023Natur.615..202A..
  49. .
  50. Txantiloi:Cite arXiv
  51. .
  52. Txantiloi:Cite arXiv
  53. .
  54. abc«The Falcon has landed in the Hugging Face ecosystem» huggingface.co.
  55. (Ingelesez)Schreiner, Maximilian. (2023-07-11). «GPT-4 architecture, datasets, costs and more leaked» THE DECODER.
  56. .
  57. .
  58. .
  59. «tiiuae/falcon-40b · Hugging Face» huggingface.co 2023-06-09.
  60. UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-FreeArtxibatua 2024-02-08 hemen:Wayback Machine, 31 May 2023
  61. Wrobel, Sharon. «Tel Aviv startup rolls out new advanced AI language model to rival OpenAI» www.timesofisrael.com.
  62. Wiggers, Kyle. (2023-04-13). «With Bedrock, Amazon enters the generative AI race» TechCrunch.
  63. ab.
  64. «Introducing PaLM 2» Google May 10, 2023.
  65. ab.
  66. «llama/MODEL_CARD.md at main · meta-llama/llama» GitHub.
  67. «Claude 2» anthropic.com.
  68. (Ingelesez)Nirmal, Dinesh. (2023-09-07). «Building AI for business: IBM's Granite foundation models» IBM Blog.
  69. .
  70. «Introducing Claude 2.1» anthropic.com.
  71. xai-org/grok-1. xai-org 2024-03-19.
  72. «Grok-1 model card» x.ai.
  73. «Gemini – Google DeepMind» deepmind.google.
  74. Franzen, Carl. (11 December 2023). «Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance» VentureBeat.
  75. «Mixtral of experts» mistral.ai 11 December 2023.
  76. abHughes, Alyssa. (12 December 2023). «Phi-2: The surprising power of small language models» Microsoft Research.
  77. ab«Latxa - a HiTZ Collection» huggingface.co 2024-07-02 (kontsulta data: 2024-11-25).
  78. «EusCrawl» ixa.ehu.eus (kontsulta data: 2024-11-25).
  79. Agirre, Eneko; Etxaniz, Julen; Sainz, Oscar. (2024). Latxa - - euskararentzat inoiz eraikitako hizkuntza eredurik handiena. HiTZ Zentroa - UPV/EHU.
  80. AI, Mistral. (2024-04-17). «Cheaper, Better, Faster, Stronger» mistral.ai.
  81. «Our next-generation model: Gemini 1.5» Google 15 February 2024.
  82. .
  83. «Introducing the next generation of Claude» www.anthropic.com.
  84. «Fugaku-LLM/Fugaku-LLM-13B · Hugging Face» huggingface.co.
  85. «Phi-3» azure.microsoft.com 23 April 2024.
  86. «Phi-3 Model Documentation» huggingface.co.
  87. «Qwen2» GitHub.
  88. «nvidia/Nemotron-4-340B-Base · Hugging Face» huggingface.co 2024-06-14.
  89. «Nemotron-4 340B | Research» research.nvidia.com.
  90. (Ingelesez)«llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models» GitHub.
  91. «orai-nlp/ZelaiHandi · Datasets at Hugging Face» huggingface.co 2024-12-20 (kontsulta data: 2025-01-07).
  92. «Eredu neuronal berria euskarazko adimen artifizialerako | Orai» www.orai.eus (kontsulta data: 2025-01-04).
  93. «Aitzol Astigarraga: "2025ean euskararentzako LLM propioaren garapenari lotuko gatzaizkio"» Enpresa Bidea 2024-12-31 (kontsulta data: 2025-01-04).
  94. .
  95. .
  96. deepseek-ai/DeepSeek-R1. DeepSeek 2025-01-31 (kontsulta data: 2025-01-31).
  97. Qwen; Yang, An; Yang, Baosong; Zhang, Beichen; Hui, Binyuan; Zheng, Bo; Yu, Bowen; Li, Chengyuan; Liu, Dayiheng (2025-01-03),Qwen2.5 Technical Report, arXiv, doi:10.48550/arXiv.2412.15115, arXiv:2412.15115
  98. MiniMax; Li, Aonian; Gong, Bangwei; Yang, Bo; Shan, Boji; Liu, Chang; Zhu, Cheng; Zhang, Chunhao; Guo, Congchao (2025-01-14),MiniMax-01: Scaling Foundation Models with Lightning Attention, arXiv, doi:10.48550/arXiv.2501.08313, arXiv:2501.08313
  1. This is the date that documentation describing the model's architecture was first released.
  2. In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
  3. This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated.
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.

Ikus, gainera

[aldatu |aldatu iturburu kodea]

Kanpo estekak

[aldatu |aldatu iturburu kodea]
Autoritate kontrola

Concepts
Modeloak
Testua
Irudia
Bideoa
Musika
"https://eu.wikipedia.org/w/index.php?title=Hizkuntza-eredu_handi&oldid=10316162"(e)tik eskuratuta
Kategoriak:
Ezkutuko kategoriak:

[8]ページ先頭

©2009-2026 Movatter.jp