Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Sentence boundary disambiguation tool for Japanese texts (日本語文境界判定器)

License

NotificationsYou must be signed in to change notification settings

megagonlabs/bunkai

Repository files navigation

PyPI versionPython VersionsLicenseDownloads

CITyposCodeQLMaintainabilityTest Coveragemarkdownlintjsonlintyamllint

Bunkai is a sentence boundary (SB) disambiguation tool for Japanese texts.
Bunkaiは日本語文境界判定器です.

Quick Start

Install

$pip install -U bunkai

Disambiguation without Models

$echo -e'宿を予約しました♪!まだ2ヶ月も先だけど。早すぎかな(笑)楽しみです★\n2文書目の先頭行です。▁改行はU+2581で表現します。' \    | bunkai宿を予約しました♪!│まだ2ヶ月も先だけど。│早すぎかな(笑)│楽しみです★2文書目の先頭行です。▁│改行はU+2581で表現します。
  • Feed a document as one line by using (U+2581) for line breaks.
    1行は1つの文書を表します.文書中の改行は (U+2581) で与えてください.
  • The output shows sentence boundaries with (U+2502).
    出力では文境界は (U+2502) で表示されます.

Disambiguation for Line Breaks with a Model

If you want to disambiguate sentence boundaries for line breaks, please add a--model option with the path to the model.
改行記号に対しても文境界判定を行いたい場合は,--modelオプションを与える必要があります.

First, please install extras to use--model option.
--modelオプションを利用するために、まずextraパッケージをインストールしてください.

$pip install -U'bunkai[lb]'

Second, please setup a model. It will take some time.
次にモデルをセットアップする必要があります.セットアップには少々時間がかかります.

$bunkai --model bunkai-model-directory --setup

Then, please designate the directory.
そしてモデルを指定して動かしてください.

$echo -e"文の途中で改行を▁入れる文章ってありますよね▁それも対象です。"| bunkai --model bunkai-model-directory文の途中で改行を▁入れる文章ってありますよね▁│それも対象です。

Morphological Analysis Result

You can get morphological analysis results with--ma option.
--maオプションを付与すると形態素解析結果が得られます.

It can be used with the--model option.
--modelオプションと同時に使えます.

$echo -e'形態素解析し▁ます。結果を 表示します!'| bunkai --ma --model bunkai-model-directory形態素名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ解析名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキし動詞,自立,*,*,サ変・スル,連用形,する,シ,シます助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス。記号,句点,*,*,*,*,。,。,。EOS結果名詞,副詞可能,*,*,*,*,結果,ケッカ,ケッカを助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 記号,空白,*,*,*,*, ,*,*表示名詞,サ変接続,*,*,*,*,表示,ヒョウジ,ヒョージし動詞,自立,*,*,サ変・スル,連用形,する,シ,シます助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス!記号,一般,*,*,*,*,!,!,!EOS

Python Library

You can also use Bunkai as Python library.
BunkaiはPythonライブラリとしても使えます.

frombunkaiimportBunkaibunkai=Bunkai()forsentenceinbunkai("はい。このようにpythonライブラリとしても使えます!"):print(sentence)

改行を文境界判定に含める場合はセットアップしたモデルパスを指定してください.
If you want to disambiguate line breaks too, please designate the model path where you set up.

frompathlibimportPathfrombunkaiimportBunkaibunkai=Bunkai(path_model=Path("bunkai-model-directory"))forsentenceinbunkai("そうなんです▁このように▁pythonライブラリとしても▁使えます!"):print(sentence)"""Output:そうなんです▁このように▁pythonライブラリとしても▁使えます!"""

For more information, seeexamples.
ほかの例はexamplesをご覧ください.

Documents

References

  • Yuta Hayashibe and Kensuke Mitsuzawa.Sentence Boundary Detection on Line Breaks in Japanese.Proceedings of The 6th Workshop on Noisy User-generated Text (W-NUT 2020), pp.71-75.November 2020.[PDF][bib]

License

Apache License 2.0

About

Sentence boundary disambiguation tool for Japanese texts (日本語文境界判定器)

Topics

Resources

License

Stars

Watchers

Forks

Contributors4

  •  
  •  
  •  
  •  

[8]ページ先頭

©2009-2025 Movatter.jp