odashi/small_parallel_enjaPublic

NotificationsYou must be signed in to change notification settings
Fork14
Star95

50k English-Japanese Parallel Corpus for Machine Translation Benchmark.

95 stars 14 forks Branches Tags Activity

You must be signed in to change notification settings

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
dev.en		dev.en
dev.ja		dev.ja
test.en		test.en
test.ja		test.ja
train.en		train.en
train.en.000		train.en.000
train.en.001		train.en.001
train.en.002		train.en.002
train.en.003		train.en.003
train.en.004		train.en.004
train.en.vocab.4k		train.en.vocab.4k
train.en.vocab.all		train.en.vocab.all
train.ja		train.ja
train.ja.000		train.ja.000
train.ja.001		train.ja.001
train.ja.002		train.ja.002
train.ja.003		train.ja.003
train.ja.004		train.ja.004
train.ja.vocab.4k		train.ja.vocab.4k
train.ja.vocab.all		train.ja.vocab.all

Repository files navigation

small_parallel_enja: 50k En/Ja Parallel Corpus for Testing SMT Methods

This directory includes a small parallel corpus for English-Japanesetranslation task. These data are extracted fromTANAKA Corpusby filtering sentence length 4 to 16 words.

English sentences are tokenized usingStanford Tokenizerand lowercased.Japanese sentences are tokenized usingKyTea.

All texts are encoded in UTF-8. Sentence separator is'\n' and word separatoris' '.

Attention: some English words have different tokenization results from Stanford Tokenizer,e.g., "don't" -> "don" "'t", which may came from preprocessing errors.Please take care of using this dataset in token-level evaluation.

Corpus Statistics

File	#sentences	#words	#vocabulary
train.en	50,000	391,047	6,634
- train.en.000	10,000	78,049	3,447
- train.en.001	10,000	78,223	3,418
- train.en.002	10,000	78,427	3,430
- train.en.003	10,000	78,118	3,402
- train.en.004	10,000	78,230	3,405
train.ja	50,000	565,618	8,774
- train.ja.000	10,000	113,209	4,181
- train.ja.001	10,000	112,852	4,102
- train.ja.002	10,000	113,044	4,105
- train.ja.003	10,000	113,346	4,183
- train.ja.004	10,000	113,167	4,174
dev.en	500	3,931	816
dev.ja	500	5,668	894
test.en	500	3,998	839
test.ja	500	5,635	884

About

50k English-Japanese Parallel Corpus for Machine Translation Benchmark.

Releases

No releases published

Packages

No packages published

Languages

Roff100.0%

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

small_parallel_enja: 50k En/Ja Parallel Corpus for Testing SMT Methods

Corpus Statistics

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

Movatterモバイル変換

odashi/small_parallel_enja

Folders and files

Latest commit

History

Repository files navigation

small_parallel_enja: 50k En/Ja Parallel Corpus for Testing SMT Methods

Corpus Statistics

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages0

Languages

Packages