Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Yet another sentence-level tokenizer for the Japanese text

License

NotificationsYou must be signed in to change notification settings

ikegami-yukino/sengiri

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

sengiri

travis-ci.orgcoveralls.iopyversionlatest versionlicense

Yet another sentence-level tokenizer for the Japanese text

DEPENDENCIES

  • MeCab
  • emoji

INSTALLATION

$ pip install sengiri

USAGE

importsengiriprint(sengiri.tokenize('うーん🤔🤔🤔どうしよう'))#=>['うーん🤔🤔🤔', 'どうしよう']print(sengiri.tokenize('モー娘。のコンサートに行った。'))#=>['モー娘。のコンサートに行った。']print(sengiri.tokenize('ありがとう^^ 助かります。'))#=>['ありがとう^^', '助かります。']print(sengiri.tokenize('顔文字テスト(*´ω`*)うまくいくかな?'))#=>['顔文字テスト(*´ω`*)うまくいくかな?']# I recommend using the NEologd dictionary.print(sengiri.tokenize('顔文字テスト(*´ω`*)うまくいくかな?',mecab_args='-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd'))#=>['顔文字テスト(*´ω`*)', 'うまくいくかな?']print(sengiri.tokenize('子供が大変なことになった。''(後で聞いたのだが、脅されたらしい)''(脅迫はやめてほしいと言っているのに)'))#=>['子供が大変なことになった。', '(後で聞いたのだが、脅されたらしい)', '(脅迫はやめてほしいと言っているのに)']print(sengiri.tokenize('楽しかったw また遊ぼwww'))#=>['楽しかったw', 'また遊ぼwww']print(sengiri.tokenize('http://www.inpaku.go.jp/'))#=>['http://www.inpaku.go.jp/']

About

Yet another sentence-level tokenizer for the Japanese text

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Contributors2

  •  
  •  

Languages


[8]ページ先頭

©2009-2025 Movatter.jp