Movatterモバイル変換

s-feng id:s-feng

perlとCrawlerに関するs-fengのブックマーク (4)

簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト - DQNEO起業日記
１３行のコードで、Yahoo!Japanのトピックス一覧を取得する！PerlでHTML取得・解析したいときはLWP::UserAgentとHTML::TreeBuilderというのを使うと簡単にできます。 LWP::UserAgentを使うと、Webページの取得ができます。HTML::TreeBuilderを使うと、HTMLのDOM解析ができます。この２つのモジュールを使って、Yahoo!Japanのトピックス一覧を取得してみましょう。コメント行と空行を除くとたったの１３行です。 use strict; use warnings; use LWP::UserAgent; useHTML::TreeBuilder; # urlを指定する my $url = 'http://www.yahoo.co.jp'; # IE8のフリをする my $user_agent = "Mozilla
s-feng2010/06/06
perl
web
analysis
Crawler
リンク
URI::Fetch : NDO::Weblog
URI::Fetch [Perl ] search.cpan.org: URI::Fetch - Smart URI fetching (for syndication feeds, in particular)URI::Fetch is a smart client for fetching syndication feeds (RSS, Atom, and others) in an intelligent,bandwidth- and time-saving way. LWP でリモートのコンテンツを取得するにあたって Last-Modified や ETag を抽象化した well-written clients のためのモジュール。Cache::Cache でローカルキャッシュを保持して Last-Modified と Etag に対応、また、Compress::Zlib が
s-feng2008/08/22
cpan
perl
module
web
Crawler
伊藤直也
リンク
Sign up for Experts Exchange
s-feng2006/08/23
perl
Crawler
module
リンク
YappoLogs: Xangoというクロウラーフレームワークを使ってみる
Xangoというクロウラーフレームワークを使ってみる Xango XangoはPerlで書かれた汎用クローラーフレームワークです。イベント型フレームワークPOEを使用することにより高速なクローリングが可能です。実装にもよりますが、単一プロセス内でインデックシングや文字コードの変換等の処理を同時に行うアプリケーションでも１秒に５～８ URL、１時間で 18000 ~ 22000 URLの処理が行えます。ドキュメントはperldocのみっぽいので、日本語の情報を残す意味で使い方のメモをば。相当端折って書いてます。 Xangoを使ったクロウラーを書くには、制御用のにPOEセッションを作る必要があります。 Xangoを制御するためのモジュールを適当な名前で作っておくのがスマートかと思います。とりあえずセッション作成を行う処理を書きます sub spawn { my $class = s
s-feng2006/03/07
Crawler
perl
リンク
1