先日、Apache PDFbox を使って PDF からテキストを抽出する方法を調べましたが、もう少し調べてみたら PDF だけではなく、Word や Excel, 一太郎などの様々な電子データからテキストを抽出することができるxdoc2txt というソフトウェアを見つけたのでメモ。
Windows 専用なので、検索システムに組み込むには少し工夫が必要になりそうですね。
Wine を使って動作可能かどうかについては今度検証してみようと思います。
xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。
xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。
高速に動作するので、各種全文検索エンジンのフィルタに最適です。
試しに PDFbox の時と同じくドコモの開示文書からテキスト文を抽出してみましたが、 PDFbox とほぼ同様の出力結果が得られました。
ドコモがモバイル空間統計*1の提供を事業として開始するということがニュースになっているようなのでメモ。
ドコモからのお知らせ : モバイル空間統計の実用化および携帯電話ネットワークの運用データ利用について | お知らせ | NTTドコモ
「モバイル空間統計」は、携帯電話サービスをお客様に提供する過程で必要となる運用データの一部(携帯電話の位置データおよびお客様の年齢、性別、住所)に非識別化処理、集計処理、秘匿処理をドコモ内部で実行し作成する、お客様のプライバシー保護に配慮した統計情報です。場所や時間による人口の変動を推計することができます。
資料を読む限りでは基地局別に人数カウントを取ったデータという感じでしょうか。
属性ごとにの内訳も見えるようですが、よっぽどの過疎地でなければ個人が特定されることはなさそうな感じです。
心配な場合にはオプトアウト方法が記載されているので、これに従って手続きを行っておけば良さそうです。
先日のJR 東日本の Suica の件と違ってメールでできないのがちょっと面倒ですけど。
■モバイル空間統計に関するお問い合わせ、当該お客様の運用データの利用停止手続
【電話番号】
ドコモの携帯電話からの場合:(局番なし)151(無料)
※一般電話などからはご利用できません。
一般電話などからの場合:0120-800-000
※一部のIP電話からは接続できない場合があります。