corenlp-python に置いてある。 Stanford CoreNLP は Stanford で開発されている英語の自然言語処理に必要なツールを色々入れたJava のライブラリで、単語分割、文分割、品詞付与、原型の復元、固有表現抽出、構文解析、共参照解析など前処理の大抵のことができる。 CoreNLP のPython ラッパーはすでにあるが、このラッパーはかなりバグがある。例えばインプットに改行が入っていると改行の前までしか解析できなかったり、JSON-RPC が古いバージョンのプロトコルを使っていたり、処理を最長でも5秒でタイムアウトしてしまったり、30~50文以上あるテキストはそれ以降の文を全て破棄してしまうなどなどだ。 最後のバグは、おそらく最初に別のツール(nltkなど)で文分割をしてから使うことを想定しているのだろうが、CoreNLP はせっかく文分割のツールが入って
About Stanford CoreNLP provides a set of natural language analysis tools which can takerawtext input and give the base forms of words, their parts of speech, whether they are names of companies, people,etc., normalize dates, times, and numeric quantities, and mark up the structure of sentences in terms of phrases and word dependencies, indicate which noun phrases refer to the same entities, ind

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く