- Notifications
You must be signed in to change notification settings - Fork0
Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード
License
NotificationsYou must be signed in to change notification settings
tosiyuki/llm-jp-asr
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。
【音声認識コンペ】文学作品の音声を 文字起こししよう!📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。
モデルの構造はEnhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words, Nozawa, K., et al.(2024).を参考に音声特徴量をLLMの入力として使えるように射影しています。
poetry install
学習データのフォーマットは以下のようなCSVファイルを使用することを想定しています。
audio,sentence音声データのPath1,正解ラベル1音声データのPath2,正解ラベル2・・・
Tip
データのフォーマットを変更したい場合、llm_asr/train/dataset.pyのLazySupervisedDatasetを変更してください。
poetry run python train.py
Tip
起動引数についてはllm_asr/train/arguments_dataclass.pyを参考にしてください。
poetry run python inference.py
About
Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード
Resources
License
Uh oh!
There was an error while loading.Please reload this page.
Stars
Watchers
Forks
Releases
No releases published
Packages0
No packages published