LLaMA (Large Language Model Meta AI) onMeta Platformsin (ent. Facebook) Meta AI -tutkimusryhmänkielimalli, joka julkaistiin 24. helmikuuta 2023.
Tutkijoiden mukaan LLaMA päihittää OpenAI:nGPT-3-mallin ja on vertailukelpoinen kehittyneimpien Chinchilla-70B ja PaLM-540B-mallien kanssa.Meta julkaisee kaikki mallinsa tiedeyhteisön käytettäväksi.[1]LLaMAsta julkaistiin versiot 7B, 13B, 33B ja 65B parametrin koossa.[2]Täysi 65B parametrin malli vaatii 130 GB muistia.[3]
LLaMA:sta ei sen julkaisussa julkaistu yleisön käytettäväächatbotia tai vastaavaa ohjelmaa. Viikon kuluessa julkaisusta LLaMa oli vuotanut4chanille jaBittorrentilla ladattavaksi.[4]
10. maaliskuuta 2023 bulgarialainen Georgi Gerganov julkaisi "llama.cpp" -ohjelman[5], jolla kielimallia voi ajaa 64-bittiselläARM-Mac-läppärillä. Pian se saatiin toimimaan myös Windowsissa, ARM/Linux-alustalla ja Pixel 6 -kännykässä.[6]Muistin säästämiseksi kielimallin käyttämänneuroverkon painot onkvantisoitava uudelleen. Alkuperäisessä aineistoissa verkon painot on tallennettu 16-bitin tarkkuudella FP16-muodossa. Uudelleenkvantisointi neljän bitin tarkkuuteen säästää huomattavasti tietokoneen muistia, mutta ei heikennä merkittävästi neuroverkon toimintaa.[7][8]
Stanfordin yliopiston AI-tutkijat kehittivät LLaMA 7B -mallia hienosäätämälläHugging Facen aineistolla Alpaca-kielimallin. Alpaca kärsii pienestä mallistaan johtuen hallusinoinnista eikä tuloksia ole asianmukaisesti sensuroitu ja se otettiin pian pois koekäytöstä.[9][10][11]IBM:n tutkijoiden julkaisema versio on nimeltään Dromedary.[12]
LLaMan koulutukseen käytetty data on kerätty avoimista lähteistä. RedPajama-projekti pyrkii kokoamaan kielimallin uudelleen käyttäen samaa dataa koulutukseen. Tarkoituksena on luoda "avoimen lähdekoodin" kielimalli, jota voisi vapaasti käyttää eri tarkoituksiin.[13][14]
Meta julkaisi LLaMa 2:n 18. heinäkuuta 2023. Uusi malli on käytettävissä 7B, 13B ja 30B parametrin koossa. Sen koulutukseen on käytetty 40% enemmän materiaalia. Malli on saatavissa ilmaiseksi tutkimus- ja kaupallisen käyttöön. Kuitenkin malli vaatii erillisen lisenssin merkittävää käyttöä varten, eikä sitä saa käyttää uusien mallien kouluttamiseen. Meta aikoo tarjota mallia Microsoft Azure ja Amazonin AWS-pilvissä.[15][16]LisäksiQualcomm ja Meta aikovat tarjota teknologiaa matkapuhelimilla ja PC:llä ajattavaksi vuodesta 2024 lähtien.[17]
Elokuussa 2023 Meta julkaisi Code Llama -mallin, joka on optimoitu ohjelmointitehtävien ratkaisuun ja osaa tuottaa ohjelmakoodia luonnollisen kielenkehotteiden perusteella.[18]