- Notifications
You must be signed in to change notification settings - Fork7
masanorihirano/llm-japanese-dataset
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
LLM構築用の日本語チャットデータセット
DatasetはHugging Faceでも公開しています.
- https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset
- 翻訳を抜いたバージョン(vanilla):https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset-vanilla
主に,英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
データの詳細は,以下の論文を参照してください.
- 日本語:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
- 英語:https://arxiv.org/abs/2305.12720
- GitHub:https://github.com/masanorihirano/llm-japanese-dataset
- 最新情報:llm.msuzuki.me.
なお,Citationには,よろしければ,以下をご利用ください.
@preprint{Hirano2023-llmj, title={{llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology}}, author={Masanori HIRANO and Masahiro SUZUKI and Hiroki SAKAJI}, doi={10.48550/arXiv.2305.12720}, archivePrefix={arXiv}, arxivId={2305.12720}, year={2023}}
- データセットの追加申し出
- 公開できないものの,CC-BY-SAで公開するモデルへのデータ組み込むが可能なデータの提供申し出
などを歓迎します.もし,ご相談等がございましたら,下記メールアドレスまでお知らせください.
datasetsフォルダー内に,データの生成形式ごとにフォルダーを作成します.
各フォルダー内には,以下を含める必要があります.
data/000000.json
: json形式のデータ.複数入れることができます.6桁の数字で,0から順に番号を振りますが,欠番は許容されます.この内容の詳細については下記で述べますREADME.md
: データの説明書です.作成方法や,ライセンスなどを記載してください.
それ以外については制約がありません.
- jsonl形式ではなく,json形式とします.
- 1ファイルのデータはおおよそ1Kを目安とします.1Kを超えるデータは,ナンバリングをして複数のJSONに分けることを推奨します.
- jsonファイル内には,配列でDict形式で記載します.
- 必須フィールド
"instruction"
"input"
"output"
- 推奨フィールド
"index"
: データセット内でのナンバリングを0から行います.なお,string形式にしてください.(e.g."1"
)
- 準推奨フィールド
"category"
: データセット内でも,カテゴリー分けしていると後で便利な場合があります.
- 必須フィールド
- 追加フィールドも許可します.
# {データセット名}## 作成方法{ここに作成方法を記述.どこかから取得したのであればその旨記載}## ライセンス{ここにライセンスを記載.あればURLを追加.}
原則として,再頒布可能なもののみを含むようにしてください.そうでないものについては,組み込む前に要相談.
ただし,コピーレフトについては,許容しません.(作成したモデル自体もライセンス制約がついてしまうので)また,商用不可も原則として不可
- MIT License
- BSD License (2-Cluse, 3-Cluse)
- Apache License Version 2.0
- CC-BY
- Unlicense
- スクレイピングにより取得したデータを加工したもの
- CC-BY-SA
- 4-Clause BSD License (一般的でないため)
- GNU GPL v2
- GNU GPL v3
- CC=BY-ND (改変不可なので含まないほうがよい)
- CC-BY-NC (商用不可)
- CC-BY-NC-SA (商用不可)
- CC-BY-NC-ND (商用不可)
About
LLM構築用の日本語チャットデータセット
Resources
Uh oh!
There was an error while loading.Please reload this page.
Stars
Watchers
Forks
Packages0
No packages published
Uh oh!
There was an error while loading.Please reload this page.
Contributors4
Uh oh!
There was an error while loading.Please reload this page.