ruby でスクレイピングして web の情報を取得するのには、今まで正規表現かxpath でやってたので、わりと面倒でした。で、ふと scrAPI というスクレイピングツールキットを知ったのですが、これがかなり便利そう。 このツールキットを使うと、CSS3 なセレクタを記述することで、要素を取得することができます。 というRuby の scrAPI でのCSS セレクタがいい感じでございますなあと指をくわえて見てたんだけど、 Per discussions inCSS Selector inPerl, I made a quickperl moduleHTML::Selector::XPath, which is available at http://svn.bulknews.net/repos/public/HTML-Selector-XPath/trunk/ now.
Warning. (2019.1) REXML は, 標準添付ですが, 品質・速度の両面であまりよくありません。Nokogiri (鋸) がメジャーで、長らく標準の地位で使われています。REXML の3倍速い。 最近は, 大鋸 (おが) の人気が高い。スレッドセーフ、高速、機能性もある。Yorick Peterse / oga ·GitLab REXMLの特徴 REXMLは、 XML 1.0に準拠した、高速なXMLパーサで、DOMツリーを生成したり、XML文書を読みながらコールバックさせる (SAX2ストリームパーサ) ことができる。XPathの実装を含み、検索式によってDOMツリーの好きな要素を取り出すことができる。Ruby 1.8.5にはREXML 3.1.4が添付されている。チュートリアル、APIリファレンスは下記で見られる。が、APIリファレンスのほうは不十分かつ誤りもある。
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く