

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

HTML の表をスクレイピングするのは結構だるい作業です。 私は以前は、単純なHTML であれば、うまく特...HTML の表をスクレイピングするのは結構だるい作業です。 私は以前は、単純なHTML であれば、うまく特徴を見つけて awk や sed を作ったり、Perl の正規表現で取り出したり、GoogleChrome のコンソールからXPath を使って取り出すような苦労をやっていました。 ところで pandas というとデータ解析用のツールとして主流ではあるのですが、 意外にもHTML からのデータ入力も可能になっていて、これが表のスクレイピングにはかなり楽だということがわかりました。 なので紹介してみます。 サンプルに使うページ 以下で示すサンプルに国税庁の所得税の税率のページを使うことにしました。 https://www.nta.go.jp/taxes/shiraberu/taxanswer/shotoku/2260.htm (2019.9.28 移転したようなので、URLを

















