非圧縮の jar を使うと java アプリの起動が速くなるというテクニックが興味深かったのでメモ。
言われてみれば解凍の手間が減る分、確かに早くはなりそうですね。
JJBugでJava VMの起動高速化の話をしました - nekopの日記
Japan JBoss User Group - 灼熱の JBossでJava VMの起動高速化の話をしました。非圧縮jarによる高速化はみなさんも使っている有名なソフトウェアで採用されていますが、あまり知られていないチューニングだと思います。大抵の場合200%くらいの高速化ができます。
今度、ちゃんとベンチとってみようと思いますが、とりあえずスライドにあった flatjar という非圧縮 jar をつくるスクリプトだけ動くようにしてみました。
flatjar
PDF からテキストを抽出するいい方法がないかなと思っていたら、Apache PDFBoxで簡単に実現できたのでメモ。
この手のライブラリとしてはXpdf なんかもありますが、PDFBox は日本語用に CMap の設定が必要なかったりするのでこちらの方がセットアップはかなり楽です。
Apache PDFBox | A Java PDF Library
The Apache PDFBox™ library is an open source Java tool for working with PDF documents. This project allows creation of new PDF documents, manipulation of existing documents and the ability to extract content from documents. Apache PDFBox also includes several command line utilities. Apache PDFBox is published under the Apache License v2.0.
アプリに組み込んだりするのであればライブラリとして使った方がよいと思いますが、単にテキストが欲しいという場合にはコマンドラインからそのまま使うことができます。試しに昨日のドコモの iPhone 発売騒ぎに対する開示文書からテキストを抜き出してみるとこんな感じになります。予期しない所に改行やスペースが入ったりするので、見栄えを考えるとやはり何かしらの加工は必要そうですね。