DownloadMachineはJava製のオープンソース・ソフトウェア。ダウンロードアプリケーションというと、GUIでURLを登録してリストの上から処理されていく…そんなイメージがあった。そういうアプリケーションの場合、システムと連携して自動化というのはなかなか難しい。 ファイルを更新するとダウンロードが開始する ダウンロードのリストを渡しておくだけで、後は自動でダウンロードを行ってくれるソフトウェアがDownloadMachineだ。常時起動するソフトウェアで、ダウンロードリストを監視しているのでシステムと連携するのも簡単にできそうだ。 デフォルトでqueueというファイルを作成し、そこにURLを記述していけばOKだ。ファイルにURLがあればDownloadMachineが自動的に感知してダウンロードを実行する。完了するとqueueファイルから該当行を削除する仕組みになっている。
Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。 ユーザ側の検索画面 そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。 今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。 インデックスするファイルを指定する画面 認証が必要なサーバにも対応し、言語によってフィルタリン
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く