Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models

NotificationsYou must be signed in to change notification settings

sociocom/JMED-LLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

JMED-LLM (JapaneseMedicalEvaluationDataset forLargeLanguageModels) は,日本語の医療分野における大規模言語モデルの評価用データセットです.JMED-LLMは,奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室がシェアードタスクの開催などを通じて構築してきたデータセットを中心に,日本語の医療言語処理タスク向けに公開されている既存のオープンなデータセットをLLM評価に適したタスクに変換し統合したデータセットです.生成AIの医療応用のための性能評価を目的としており,医療応用のタスクごとに適したLLMを選択可能とすることを目指し今後も継続的にデータセットの拡充を行っていきます.

関連資料

※スライド記載の内容は一部古い情報が含まれる場合があります

Tasks/Datasets

TaskDatasetLicenseOriginal Resouce
質問応答JMMLU-MedCC-BY-SA-4.0JMMLU
固有表現抽出MRNER-diseaseCC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus, MedTxt-RR Corpus
MRNER-medicineCC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus
NRNERCC-BY-NC-SA-4.0NursingRecord_NERdataset
文書分類CRADECC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus
RRTNMCC-BY-4.0NTCIR-17 MedNLP-SC MexTxt-RR Corpus
SMDISCC-BY-4.0NTCIR-13 MedWeb Corpus
文類似度JCSTSCC-BY-NC-SA-4.0Japanese-Clinical-STS

Description

質問応答

  • JMMLU-Med (Japanese Massive Multitask Language Understanding in Medical domain): JMMLUから医療分野の問題のみを抽出し集約した,質問応答タスクである.professional_medicine,medical_genetics,clinical_knowledge,anatomy,college_medicine の五つの専門分野を対象とし,20問ずつで構成されている.

固有表現抽出

  • MRNER-disease (Medical Report Named Entity Recognition for positive disease): 症例報告および読影レポートから患者に実際に認められた症状を抽出するタスクである.病変・症状エンティティのうち,certainty属性がpositiveのものを抽出対象とする.症例報告と読影レポート50件ずつで構成されている.

  • MRNER-medicine (Medical Report Named Entity Recognition for medicine): 症例報告から医薬品に関する情報を抽出するタスクである.MRNER-diseaseと同様のデータセットを用いているが,読影レポートには対象のエンティティが含まれていないため利用しない.

  • NRNER (Nursing Record Named Entity Recognition): 模擬看護記録から患者に実際に認められた症状および薬品に関する情報を抽出するタスクである.MRNERと同様のタスクだが,データセットのライセンスが異なるため別タスクとして設計した.

文書分類

  • CRADE (Case Report Adverse Drug Event): 症例報告における薬品および症状から有害事象 (ADE) の可能性を分類するタスクである.Diseaseタグ(病名・症状を示す)のデータ48件とMedicineタグ(医薬品に関する情報を示す)のデータ52件から構成されている.

  • RRTNM (Radiology Report Tumor Nodes Metastasis): 肺がん患者の読影レポートから,がんのTNM分類を予測するタスクである.Tタグ15件,Nタグ40件,Mタグ45件から構成されている.

  • SMDIS (Social Media Disease): 模擬Tweetから投稿者または周囲の人々の病気や症状の有無を分類するタスクである.influenza,diarrhea,hayfever,coughタグがそれぞれ13件,headache,fever,runnynose,cold タグが12件ずつで構成されている.

文類似度

  • JCSTS (Japanese Clinical Semantic Textual Similarity): 2文の意味的類似度を判定するタスク(STS)の医療版であり,症例報告を扱う.

Leaderboard

多肢選択式タスクは,括弧外がkappa係数(CRADEとJCSTSは線形重み付き),括弧内がaccuracy.

固有表現抽出タスクは,括弧外が部分一致F1,括弧内が完全一致F1.

ModelJMMLU-MedMRNER-diseaseMRNER-medicineNRNERCRADERRTNMSMDISJCSTSAverage
gpt-4o-2024-08-060.82(0.87)0.54(0.15)0.42(0.26)0.39(0.20)0.54(0.53)0.85(0.90)0.76(0.88)0.60(0.48)0.61(0.53)
gpt-4o-mini-2024-07-180.77(0.83)0.48(0.13)0.52(0.32)0.48(0.25)0.21(0.37)0.58(0.71)0.56(0.78)0.57(0.51)0.52(0.48)
google/gemma-2-9b-it0.52(0.64)0.61(0.16)0.65(0.42)0.53(0.30)0.33(0.42)0.54(0.68)0.62(0.81)0.16(0.24)0.49(0.46)
elyza/Llama-3-ELYZA-JP-8B0.34(0.51)0.83(0.31)0.51(0.31)0.47(0.26)0.01(0.26)0.29(0.52)0.54(0.77)0.02(0.18)0.38(0.39)
meta-llama/Meta-Llama-3.1-8B-Instruct0.31(0.49)0.82(0.30)0.54(0.32)0.36(0.18)0.11(0.32)0.41(0.57)0.28(0.64)0.13(0.23)0.37(0.38)
meta-llama/Meta-Llama-3-8B-Instruct0.42(0.57)0.60(0.20)0.44(0.25)0.41(0.21)0.00(0.25)0.37(0.54)0.43(0.72)0.16(0.24)0.36(0.37)
tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.10.33(0.50)0.56(0.17)0.37(0.21)0.42(0.24)0.31(0.37)0.33(0.55)0.26(0.63)0.01(0.17)0.32(0.35)
Qwen/Qwen2-7B-Instruc0.42(0.57)0.24(0.06)0.29(0.14)0.33(0.17)0.11(0.29)0.31(0.53)0.33(0.67)0.37(0.31)0.30(0.34)
google/gemma-2-2b-it0.17(0.38)0.66(0.20)0.46(0.23)0.46(0.26)0.00(0.25)0.24(0.43)0.14(0.57)0.12(0.21)0.28(0.31)
rinna/llama-3-youko-8b-instruct0.31(0.49)0.02(0.00)0.05(0.02)0.11(0.07)0.02(0.28)0.28(0.47)0.50(0.75)0.01(0.20)0.16(0.28)

How to evaluate

  1. レポジトリのクローン
    git clone https://github.com/sociocom/JMED-LLM.git
  2. 必要なパッケージのインストール
    poetry install
  3. config_template.yamlをコピーし設定ファイルを作成(評価対象モデルやプロンプトなど実験設定を必要に応じて変更してください)
    cp configs/config_template.yaml configs/your_config.yaml
  4. 評価スクリプトの実行
    poetry run python scripts/evaluate.py --cfg configs/your_config.yaml

License

The license for each dataset follows the terms of the original dataset's license. All other components are licensed under aCreative Commons Attribution 4.0 International License.

Creative Commons License

About

JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors3

  •  
  •  
  •  

Languages


[8]ページ先頭

©2009-2025 Movatter.jp