- Notifications
You must be signed in to change notification settings - Fork0
Chunked word annotation for ITA corpus
License
NotificationsYou must be signed in to change notification settings
shirayu/ita-corpus-chuwa
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
ITA Corpus Chuwa!
ischunkedwordannotation forITA corpus, a phonemically balanced public domain corpus of Japanese text.ITAコーパスChuwa!
は音素バランスを考慮したパブリックドメインの日本語テキストコーパスであるITA corpusに対する単語と句のアノテーションです.
ITAコーパスは2種類のセットからなります
EMOTION
: モノフォン・ダイフォンを考慮した100件RECITATION
: モノフォン・ダイフォンに加えてトライフォンを豊富に含むように作られた324件
本アノテーションでは,以下のようなものは複数文として扱いました.
EMOTION100_014スミスさん、ピエール・デュボワをご紹介しますわ。私の親友なの。
そして,EMOTION
は113文,RECITATION
は331文からなるとし,単語(形態素)情報と句・構文情報の付与を行いました.
なお,アノテーション誤りを見つけられた方はIssuesからお知らせいただければ幸いです.
ITA Corpusの原文を文分割したものがTSVであります
- 京都大学テキストコーパスや京都大学ウェブ文書リードコーパスと同様の品詞体系(益岡・田窪品詞体系)でアノテーションしています
- 句間の係り受け関係も付与している.
- 各形態素の意味情報に
発音
を付与し,ITAコーパスの発音と一致するようにしています - ドキュメント
- Yuta Hayashibe
- I supportTohoku sisters.
- I supportedthe crowdfunding for the creation of the ITA corpus, etc.
About
Chunked word annotation for ITA corpus
Topics
Resources
License
Uh oh!
There was an error while loading.Please reload this page.