![]() 위키백과를 설명하는 LLaMA 답변의 예 스크린샷 | |
개발자 | 메타 AI |
---|---|
발표일 | 2023년 2월 24일(2년 전)(2023-02-24) |
안정화 버전 | Llama 3.3 / 2024년 12월 7일(3개월 전)(2024-12-07) |
저장소 | github |
프로그래밍 언어 | 파이썬 |
종류 | |
라이선스 | 소스 입수 가능 (Meta Llama 3.2 Community License)[1] |
웹사이트 | llama.com |
LLaMA(Large Language Model Meta AI→대형 언어 모델 메타 AI)는 Meta AI가 2023년 2월에 출시한 대규모 언어 모델(LLM)이다. 70억에서 650억 파라미터에 이르는 다양한 모델 크기가 학습되었다. LLaMA의 개발자들은 대부분의 NLP 벤치마크에서 130억 파라미터 모델의 성능이 훨씬 더 큰 GPT-3(1,750억 파라미터 포함)의 성능을 초과했으며 가장 큰 모델이PaLM 및 Chinchilla와 같은 최신 모델과 경쟁할 수 있다고 보고했다.[2] 가장 강력한 LLM은 일반적으로 제한된 API(있는 경우)를 통해서만 접근할 수 있는 반면, 메타는 상업적 라이선스에 따라 연구 커뮤니티에 LLaMA의 모델 가중치를 공개했다.[3] LLaMA가 출시된 지 일주일 만에BitTorrent를 통해 4chan의 가중치가 대중에게 유출되었다.[4]
LLaMA는 2023년 2월 23일 블로그 게시물과 모델의 훈련, 아키텍처 및 성능을 설명하는 문서를 통해 발표되었다.[2][3] 모델 훈련에 사용된 코드는 오픈 소스 GPL 3 라이선스에 따라 공개적으로 공개되었다.[5] 모델의 가중치에 대한 액세스는 응용 프로그램 프로세스에 의해 관리되었으며 학술 연구원, 정부, 시민 사회 및 학계 조직과 제휴한 사람들, 전 세계 산업 연구소에 사례별로 액세스 권한이 부여되었다.[3]
2023년 3월 2일,[6] LLaMA의 가중치가 담긴 토렌트가 업로드되었으며, 토렌트 링크가 4chan 이미지 보드에 공유되어 온라인 AI 커뮤니티를 통해 확산되었다.[4] 같은 날 공식 문서에 마그넷 링크를 추가해 달라는 메인 LLaMA 저장소의 풀 리퀘스트가 열렸다.[7][8] 3월 4일에 모델이 포함된 허깅페이스 리포지토리에 대한 링크를 추가하기 위한 풀 요청이 열렸다.[9][7] 3월 6일, 메타는 풀 리퀘스트에 링크된 허깅페이스 리포지토리를 제거하기 위한 게시 중단 요청을 제출했으며 이를 모델의 "무단 배포"로 규정했다. 허깅페이스는 요청에 따랐다.[10] 3월 20일 Meta는 미러에서 LLaMA를 다운로드한 스크립트가 포함된 저장소에 대한 저작권 침해에 대한 DMCA 게시 중단 요청을 제출했고깃허브는 다음날 이에 따랐다.[11] 3월 25일 현재 페이스북은 마그넷 링크가 포함된 풀 리퀘스트에 응답하지 않았다.[8]
유출에 대한 반응은 다양했다. 일부에서는 이 모델이 보다 정교한 스팸과 같은 악의적인 목적으로 사용될 것이라고 추측했다. 일부는 모델의 접근성과 모델의 더 작은 버전이 상대적으로 저렴하게 실행될 수 있다는 사실을 축하했으며, 이것이 추가 연구 개발의 번창을 촉진할 것이라고 제안했다.[4] 사이먼 윌리슨과 같은 여러 논평자는 LLaMA를스테이블 디퓨전(Stable Diffusion)과 비교했다. 스테이블 디퓨전은 이전의 비교적 정교한 모델과 달리 공개적으로 배포되어 관련 도구, 기술 및 소프트웨어의 급속한 확산으로 이어지는 텍스트-이미지 모델이다.[4][12]