Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード

License

NotificationsYou must be signed in to change notification settings

tosiyuki/llm-jp-asr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。

【音声認識コンペ】文学作品の音声を 文字起こししよう!📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。

モデルの構造はEnhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words, Nozawa, K., et al.(2024).を参考に音声特徴量をLLMの入力として使えるように射影しています。

環境構築

poetry install

学習データのフォーマット

学習データのフォーマットは以下のようなCSVファイルを使用することを想定しています。

audio,sentence音声データのPath1,正解ラベル1音声データのPath2,正解ラベル2・・・

Tip

データのフォーマットを変更したい場合、llm_asr/train/dataset.pyのLazySupervisedDatasetを変更してください。

実行

学習

poetry run python train.py

Tip

起動引数についてはllm_asr/train/arguments_dataclass.pyを参考にしてください。

推論

poetry run python inference.py

About

Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages


[8]ページ先頭

©2009-2025 Movatter.jp