
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

ありがとう、わかりやすい。 消される前のPDFを読んだところ、テキストを句点や記号で区切って1文ずつ...ありがとう、わかりやすい。 消される前のPDFを読んだところ、テキストを句点や記号で区切って1文ずつバラバラにして、それぞれを分類していくという手法を取っていた。 作品を全体で捉えて文脈を読むという手法ではない以上、個々の作品のアドレスを呈示する必要はあまりないと思うんだよね。 この追記の末尾にも書いてたけど、サンプルデータをどのように抽出したかを書けば充分だったんじゃないのかな……。 参考にならないかなと、Web上でTwitterとかブログテキストとかを分析するテキストマイニング系の発表とか、ちょっと探してみた。 たとえば、 https://www.jsce.or.jp/library/open/proc/maglist2/00039/201105_no43/index.html の「(145)ブログマイニングからの行動データの抽出・分析可能性とアンケート調査との比較」 ブログを収集する