youichiro/transformer-copyPublic

NotificationsYou must be signed in to change notification settings
Fork2
Star29

日本語文法誤り訂正ツール

You must be signed in to change notification settings

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
app		app
corpus_scripts		corpus_scripts
data		data
data_art		data_art
dicts		dicts
docs		docs
fairseq		fairseq
gec_scripts		gec_scripts
option_files		option_files
out		out
scripts		scripts
.gitignore		.gitignore
README.md		README.md
align.sh		align.sh
config.sh		config.sh
eval_lm.py		eval_lm.py
gec_model.py		gec_model.py
gec_model.sh		gec_model.sh
generate.py		generate.py
generate.sh		generate.sh
generate_ensemble.sh		generate_ensemble.sh
interactive.py		interactive.py
interactive.sh		interactive.sh
lm_model.py		lm_model.py
noise.py		noise.py
noise.sh		noise.sh
noise_ja.py		noise_ja.py
noise_ja.sh		noise_ja.sh
preprocess.py		preprocess.py
preprocess.sh		preprocess.sh
preprocess_lm_data.sh		preprocess_lm_data.sh
preprocess_noise_data.sh		preprocess_noise_data.sh
preprocess_test.sh		preprocess_test.sh
preprocess_train.sh		preprocess_train.sh
pretrain.sh		pretrain.sh
setup.py		setup.py
train.py		train.py
train.sh		train.sh
train_lm.sh		train_lm.sh

Repository files navigation

transformer-copy

論文

小川耀一朗, 山本和英. 「日本語誤り訂正における誤り傾向を考慮した擬似誤り生成」. 言語処理学会第26回年次大会https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F2-3.pdf

デモサイト

https://app.jnlp.org/gec/

ディレクトリ構成

app
- アプリケーションのソースコード
corpus_scripts
- データセットの前処理などのスクリプト
data
- 使用するデータセットをここに入れる
data_art
- 擬似誤り生成したデータをここに入れる
dicts
- 語彙の辞書をここに入れる
- 実験で使用する分割単位に対応した辞書が必要になる
out
- data_bin
  - train,validデータセットのバイナリファイル
- data_bin_art
  - pseudoデータセットのバイナリファイル
- data_raw
  - testデータセットのrawファイル
- log
  - ログファイル
- models
  - モデルファイル
- results
  - generateの結果

実行手順

dataset

使用するデータセットを用意する

手順：

データセットをセグメント(単語分割等)する
train, valid, testに分割する
誤り文側と正解文側でファイルを分ける
dataディレクトリに配置する
ファイル名の例：
- corpus.train.src # 訓練データの誤り文側
- corpus.train.tgt # 訓練データの正解文側
- corpus.valid.src # 開発データの誤り文側
- corpus.valid.tgt # 開発データの正解文側

alignment

align.shを実行し、アライメントファイルを作成するfast_alignとmosesdecoderを事前にインストールしておき、そのパスを指定する必要がある

generate pseudo data

noise.shを実行し、擬似誤りデータセットを生成する

preprocess

preprocess.shを実行し、データセットの前処理を行う訓練データ(train, valid)はpreprocess_train.sh、評価データはpreprocess_test.shのように分けている前処理されたデータセットはout/data_binもしくはout/data_rawに出力される

pretrain

pretrain.shを実行し、データセット等を指定してpre-trainingを行うコマンド自体はtrain.shと同じで、オプションが異なる学習済みモデルはout/modelsに保存される

train

train.shを実行し、データセット等を指定してtrainを行うpretrainモデルを指定してfine-tuningしたい場合は--pretrained-model $pretrained_modelをオプションに追加する学習済みモデルはout/modelsに保存される

generate

generate.shを実行し、学習済みモデルを使って文生成を行うdata_rowsは評価データのリスト、epochsはどのエポックのモデルかのリストで、for文でそれぞれを一度に実行するようにしている評価データのM2ファイルを用意しておく必要がある。ERRANTのerrant_parallelを使用してM2ファイルを作成する。python2を実行できるようにしておく必要がある生成データはout/resultsに保存される

参考

https://github.com/zhawe01/fairseq-gec

About

日本語文法誤り訂正ツール

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

transformer-copy

論文

デモサイト

ディレクトリ構成

実行手順

dataset

alignment

generate pseudo data

preprocess

pretrain

train

generate

参考

About

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages

Movatterモバイル変換

youichiro/transformer-copy

Folders and files

Latest commit

History

Repository files navigation

transformer-copy

論文

デモサイト

ディレクトリ構成

実行手順

dataset

alignment

generate pseudo data

preprocess

pretrain

train

generate

参考

About

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages