Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Chunked word annotation for ITA corpus

License

NotificationsYou must be signed in to change notification settings

shirayu/ita-corpus-chuwa

Repository files navigation

Creative Commons LicenseCircleCI

ITA Corpus Chuwa! ischunkedwordannotation forITA corpus, a phonemically balanced public domain corpus of Japanese text.
ITAコーパスChuwa!は音素バランスを考慮したパブリックドメインの日本語テキストコーパスであるITA corpusに対する単語と句のアノテーションです.

概要

ITAコーパスは2種類のセットからなります

  • EMOTION: モノフォン・ダイフォンを考慮した100件
  • RECITATION: モノフォン・ダイフォンに加えてトライフォンを豊富に含むように作られた324件

本アノテーションでは,以下のようなものは複数文として扱いました.

EMOTION100_014スミスさん、ピエール・デュボワをご紹介しますわ。私の親友なの。

そして,EMOTIONは113文,RECITATIONは331文からなるとし,単語(形態素)情報と句・構文情報の付与を行いました.

なお,アノテーション誤りを見つけられた方はIssuesからお知らせいただければ幸いです.

データ

data/input

ITA Corpusの原文を文分割したものがTSVであります

data/knp

Developer

Links

Licence

CC0 1.0 Universal (CC0 1.0)

About

Chunked word annotation for ITA corpus

Topics

Resources

License

Stars

Watchers

Forks


[8]ページ先頭

©2009-2025 Movatter.jp