RubyでHTMLやXMLをパースする構文解析ツールの定番は、Nokogiriです。スクレイピングする際の必需品で、なくてはならないモジュールの1つです。ただ色々なことが出来る反面、どこから取りかかれば良いのか解り難い部分もあります。自習を兼ねて、Nokogiri概要と主要な機能を紹介してみます。 Nokogiriとは何か? ReademeによるとNokogiriとは、「HTMLとXMLとSAXとXSLTとReaderのパーサー」で、特徴としては、XPathとCSS3セレクター経由で探索する機能を持つことのようです。他にもHTMLやXMLのビルダーの機能を持っていますが、HTMLとXMLのパーサー(構文解析器)と覚えておけばよいでしょう。 Nokogiriのクラス構造 Nokogiriは、なかなか巨大なライブラリです。10以上のモジュールと70以上のクラスで構成されていて、yardでダイア

require 'open-uri' require 'nokogiri' #スクレイピング先のURL url = 'http://finance.yahoo.com/q/cf?s=KO+Cash+Flow&annual'#米コカコーラ charset = nilhtml = open(url) do |f| charset = f.charset #文字種別を取得 f.read #htmlを読み込んで変数htmlに渡す end #htmlをパース(解析)してオブジェクトを作成 doc = Nokogiri::HTML.parse(html, nil, charset) # 抽出したいデータノードを取り出す mainNode = doc.css("table#yfncsumtab") ## ループの行が長くなるので代入 trs = mainNode.css('tr > td > ta

Searching anHTML / XML Document¶ Basic Searching¶ Let's suppose you have the following document: [shows.xml] <root> <sitcoms> <sitcom> <name>Married with Children</name> <characters> <character>AlBundy</character> <character>BudBundy</character> <character>Marcy Darcy</character> </characters> </sitcom> <sitcom> <name>Perfect Strangers</name> <characters> <character>LarryAppleton</character> <

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く