HTML 文章からプレーンなテキストを取り出すのに何か良い方法はないかと思っていろいろ探してみたら、Python で書かれたhtml2text が良さそうだったのでメモ。
html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).
使い方はこんな感じ。入力の文字コードは UTF-8 を期待しているようなので、nkf を噛ませています。
HTMLをテキストに変換すると壊れた文字が入ったりとかいろいろと難しいのですが、試した限りだとこれが一番良好な結果を返しました。
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7628
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。