Movatterモバイル変換
[0]
ホーム
URL:
画像なし
夜間モード
Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Hironori Sekine
9,458 views
スクレイピングとPython
PyCon mini Hiroshima2015/11/22スクレイピングとPython
Technology
◦
Read more
38
Save
Share
Embed
Embed presentation
Download
Downloaded 90 times
1
/ 61
2
/ 61
3
/ 61
4
/ 61
5
/ 61
6
/ 61
7
/ 61
8
/ 61
9
/ 61
10
/ 61
11
/ 61
12
/ 61
13
/ 61
14
/ 61
15
/ 61
16
/ 61
17
/ 61
18
/ 61
19
/ 61
20
/ 61
21
/ 61
22
/ 61
23
/ 61
24
/ 61
25
/ 61
26
/ 61
27
/ 61
28
/ 61
29
/ 61
30
/ 61
31
/ 61
32
/ 61
33
/ 61
34
/ 61
35
/ 61
36
/ 61
37
/ 61
38
/ 61
39
/ 61
40
/ 61
41
/ 61
42
/ 61
43
/ 61
44
/ 61
45
/ 61
46
/ 61
47
/ 61
48
/ 61
49
/ 61
50
/ 61
51
/ 61
52
/ 61
53
/ 61
54
/ 61
55
/ 61
56
/ 61
57
/ 61
58
/ 61
59
/ 61
60
/ 61
61
/ 61
Recommended
PDF
IT系エンジニアのためのプレゼンテーション入門
by
Masahito Zembutsu
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
by
Tokoroten Nakayama
PDF
Unityでオンラインゲーム作った話
by
torisoup
PDF
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
by
Yoshiki Hayama
PPTX
「DX完全に理解した」「DXわけがわからないよ」なユーザ企業の方へ
by
YoheiGibo
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
PDF
それはYAGNIか? それとも思考停止か?
by
Yoshitaka Kawashima
PDF
正しいものを正しくつくる
by
toshihiro ichitani
PDF
見やすいプレゼン資料の作り方 - リニューアル増量版
by
MOCKS | Yuta Morishige
PDF
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
by
Yoshiki Hayama
PDF
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
PDF
[CEDEC 2021] 運用中タイトルでも怖くない! 『メルクストーリア』におけるハイパフォーマンス・ローコストなリアルタイム通信技術の導入事例
by
Naoya Kishimoto
PPTX
なぜコンピュータを学ばなければならないのか 21世紀の君主論
by
Tokoroten Nakayama
PPTX
FINAL FANTASY Record Keeperのマスターデータを支える技術
by
dena_study
PPTX
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
by
Tokoroten Nakayama
PDF
Visual Dataprepで建築データを美味しく下ごしらえ UNREAL FEST EXTREME 2021 SUMMER
by
エピック・ゲームズ・ジャパン Epic Games Japan
PPTX
AIと最適化の違いをうっかり聞いてしまう前に
by
Monta Yashi
PDF
フロー効率性とリソース効率性、再入門 #devlove #devkan
by
Itsuki Kuroda
PDF
AWSではじめるMLOps
by
MariOhbuchi
PDF
「PdMと考えるQAとプロダクトマネジメント」
by
大貴 蜂須賀
PDF
研究の基本ツール
by
由来 藤原
PDF
ワタシはSingletonがキライだ
by
Tetsuya Kaneuchi
PPTX
振り返り(アジャイルレトロスペクティブズ)
by
Keisuke Tameyasu
PDF
推薦アルゴリズムの今までとこれから
by
cyberagent
PPTX
先駆者に学ぶ MLOpsの実際
by
Tetsutaro Watanabe
PDF
大学院進学が切り拓く情報系学生のキャリア
by
Takayuki Itoh
PDF
開発速度が速い #とは(LayerX社内資料)
by
mosa siru
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
PDF
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PDF
続Pythonによるwebスクレイピング入門
by
Hironori Sekine
More Related Content
PDF
IT系エンジニアのためのプレゼンテーション入門
by
Masahito Zembutsu
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
by
Tokoroten Nakayama
PDF
Unityでオンラインゲーム作った話
by
torisoup
PDF
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
by
Yoshiki Hayama
PPTX
「DX完全に理解した」「DXわけがわからないよ」なユーザ企業の方へ
by
YoheiGibo
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
PDF
それはYAGNIか? それとも思考停止か?
by
Yoshitaka Kawashima
PDF
正しいものを正しくつくる
by
toshihiro ichitani
IT系エンジニアのためのプレゼンテーション入門
by
Masahito Zembutsu
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
by
Tokoroten Nakayama
Unityでオンラインゲーム作った話
by
torisoup
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
by
Yoshiki Hayama
「DX完全に理解した」「DXわけがわからないよ」なユーザ企業の方へ
by
YoheiGibo
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
それはYAGNIか? それとも思考停止か?
by
Yoshitaka Kawashima
正しいものを正しくつくる
by
toshihiro ichitani
What's hot
PDF
見やすいプレゼン資料の作り方 - リニューアル増量版
by
MOCKS | Yuta Morishige
PDF
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
by
Yoshiki Hayama
PDF
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
PDF
[CEDEC 2021] 運用中タイトルでも怖くない! 『メルクストーリア』におけるハイパフォーマンス・ローコストなリアルタイム通信技術の導入事例
by
Naoya Kishimoto
PPTX
なぜコンピュータを学ばなければならないのか 21世紀の君主論
by
Tokoroten Nakayama
PPTX
FINAL FANTASY Record Keeperのマスターデータを支える技術
by
dena_study
PPTX
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
by
Tokoroten Nakayama
PDF
Visual Dataprepで建築データを美味しく下ごしらえ UNREAL FEST EXTREME 2021 SUMMER
by
エピック・ゲームズ・ジャパン Epic Games Japan
PPTX
AIと最適化の違いをうっかり聞いてしまう前に
by
Monta Yashi
PDF
フロー効率性とリソース効率性、再入門 #devlove #devkan
by
Itsuki Kuroda
PDF
AWSではじめるMLOps
by
MariOhbuchi
PDF
「PdMと考えるQAとプロダクトマネジメント」
by
大貴 蜂須賀
PDF
研究の基本ツール
by
由来 藤原
PDF
ワタシはSingletonがキライだ
by
Tetsuya Kaneuchi
PPTX
振り返り(アジャイルレトロスペクティブズ)
by
Keisuke Tameyasu
PDF
推薦アルゴリズムの今までとこれから
by
cyberagent
PPTX
先駆者に学ぶ MLOpsの実際
by
Tetsutaro Watanabe
PDF
大学院進学が切り拓く情報系学生のキャリア
by
Takayuki Itoh
PDF
開発速度が速い #とは(LayerX社内資料)
by
mosa siru
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
見やすいプレゼン資料の作り方 - リニューアル増量版
by
MOCKS | Yuta Morishige
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
by
Yoshiki Hayama
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
[CEDEC 2021] 運用中タイトルでも怖くない! 『メルクストーリア』におけるハイパフォーマンス・ローコストなリアルタイム通信技術の導入事例
by
Naoya Kishimoto
なぜコンピュータを学ばなければならないのか 21世紀の君主論
by
Tokoroten Nakayama
FINAL FANTASY Record Keeperのマスターデータを支える技術
by
dena_study
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
by
Tokoroten Nakayama
Visual Dataprepで建築データを美味しく下ごしらえ UNREAL FEST EXTREME 2021 SUMMER
by
エピック・ゲームズ・ジャパン Epic Games Japan
AIと最適化の違いをうっかり聞いてしまう前に
by
Monta Yashi
フロー効率性とリソース効率性、再入門 #devlove #devkan
by
Itsuki Kuroda
AWSではじめるMLOps
by
MariOhbuchi
「PdMと考えるQAとプロダクトマネジメント」
by
大貴 蜂須賀
研究の基本ツール
by
由来 藤原
ワタシはSingletonがキライだ
by
Tetsuya Kaneuchi
振り返り(アジャイルレトロスペクティブズ)
by
Keisuke Tameyasu
推薦アルゴリズムの今までとこれから
by
cyberagent
先駆者に学ぶ MLOpsの実際
by
Tetsutaro Watanabe
大学院進学が切り拓く情報系学生のキャリア
by
Takayuki Itoh
開発速度が速い #とは(LayerX社内資料)
by
mosa siru
マイクロにしすぎた結果がこれだよ!
by
mosa siru
Similar to スクレイピングとPython
PDF
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PDF
続Pythonによるwebスクレイピング入門
by
Hironori Sekine
PDF
オープンデータのためのスクレイピング
by
直之 伊藤
PDF
Lispmeetup #56 Common lispによるwebスクレイピング技法
by
Satoshi imai
PPTX
PythonによるWebスクレイピング勉強会
by
淳子 土肥
PPTX
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
PDF
スクレイピングのススメ
by
Tomoki Hasegawa
PPTX
スクレイピングをやってみた
by
憲 山本
PDF
20190202 powerbi scraping
by
良一 駒板
PDF
Pythonによるwebアプリケーション入門 - Django編-
by
Hironori Sekine
PDF
Python札幌 2012/06/17
by
Shinya Okano
PDF
Why python
by
TeppeiAkada1
PDF
Why python
by
TeppeiAkada1
PDF
Introduction Pycon2010
by
(shibao)芝尾 (kouichiro)幸一郎
PDF
PythonによるWebスクレイピング入門
by
Hironori Sekine
PPTX
スクレイピングは避けられない
by
Daiki Kojima
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
続Pythonによるwebスクレイピング入門
by
Hironori Sekine
オープンデータのためのスクレイピング
by
直之 伊藤
Lispmeetup #56 Common lispによるwebスクレイピング技法
by
Satoshi imai
PythonによるWebスクレイピング勉強会
by
淳子 土肥
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
スクレイピングのススメ
by
Tomoki Hasegawa
スクレイピングをやってみた
by
憲 山本
20190202 powerbi scraping
by
良一 駒板
Pythonによるwebアプリケーション入門 - Django編-
by
Hironori Sekine
Python札幌 2012/06/17
by
Shinya Okano
Why python
by
TeppeiAkada1
Why python
by
TeppeiAkada1
Introduction Pycon2010
by
(shibao)芝尾 (kouichiro)幸一郎
PythonによるWebスクレイピング入門
by
Hironori Sekine
スクレイピングは避けられない
by
Daiki Kojima
スクレイピングとPython
1.
スクレイピングとPython2015/11/22 関根裕紀PyCon mini
Hiroshima
2.
自己紹介• 関根裕紀(せきね ひろのり)•
株式会社SQUEEZE• Twitter: @checkpoint
3.
業務でのPython• ホームシェア(民泊)などの物件の管理、またそれに伴う各種オペレーションを一元的に管理するクラウドサービス を提供(MisterSuite)•
実際の業務ではDjango、Scrapyを使用• エンジニア積極採用中!
5.
Pythonとの関わり(1)• PyCon JP
2014 スタッフ• PyCon JP 2015 プログラムチーム副座長• Pythonもくもく会(主催)
6.
Pythonとの関わり(2)• LLDiver• PyCon
JP 2014• Phone Symposium Tokyo 2015• PyCon mini Hiroshima (Today!!)• Pythonエンジニア養成読本(共著)
7.
アジェンダ• Webスクレイピングとは?• PythonでのWebスクレイピング•
Webスクレイピングのサンプル紹介
8.
Webスクレイピングとは?Webスクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことである。Webスクレイピングを行うことで、Webページを対象として、あたかもWeb APIを利用しているかのようにデータを効率的に取得・収集することが可能になる。用途の例としては、部分的にコンテンツを取り出して携帯電話向けのコンテンツを生成したり、小見出しの一覧を生成したり、といった使い方あある。Webスクレイピングは様々な手段で実現可能であるが、PHPやPerlといったスクリプト言語を使用して行われることが多い。( http://www.sophia-it.com/content/Webスクレイピング
) IT用語辞典より
9.
Webスクレイピング• WebサイトからHTMLのデータを収集• 特定のデータを抽出、加工•
抽出したデータを再利用• クローリング + スクレイピング
10.
クローリング• 英語の意味は、[はう、ゆっくり進む]• Webページのリンクの内容をたどる•
Webページの内容をダウンロードして収集• クローラー、スパイダーと呼ばれる
11.
スクレイピング• 英語の意味は、[ 削ること
]• ページの内容から必要な情報を抽出
12.
用途• 検索エンジン• 価格比較•
気象データの監視• サイトの変更検出• Webサイトの情報解析、研究(比較、分類、統計)
13.
Webサービスを使用• kimono (
https://www.kimonolabs.com/ )• import.io ( https://import.io/ )
14.
プログラミング• wget, cURL•
Ruby ( Nokogiri、Mechanize)• Perl(Web::Scraper)
15.
Pythonでのスクレイピング• 標準ライブラリ• BeautifulSoup•
pyquery• Scrapy• その他
16.
バッテリー付属言語Python
17.
標準ライブラリ• Pythonの標準ライブラリはとても充実• ネットワーク、正規表現、etc•
Pythonの処理系だけあれば良い• 簡単なスクレイピングであれば十分実用的
18.
サンプル
19.
サンプル(requests版)
20.
Beautiful Soup• 2004年位から存在するライブラリ•
HTMLやXMLからデータを抽出して取得• 最新バーションはBeautiful Soup 4系• Python 2.7、Python 3.2に対応
21.
サンプル
22.
pyquery• jQuery風にHTML/XML操作が可能• パーサーにはlxmlを使用(高速)•
JQuery風のセレクタを利用できる
23.
サンプル
24.
Selenium• Webブラウザのオートメーションツール• 実際にブラウザを操作してコンテンツを取得•
PhantomJS(ヘッドレスブラウザ)と連携可• JavaScript(Ajax)を利用しているサイトのコンテンツも簡単に取得できる
25.
サンプル
26.
ScrapyScarpyは速くて、ハイレベルなスクレイピングクローラーのフレームワーク。Webサイトのクロールと、構造化されたデータを取り出すのに使用する。幅広い目的に使用できる。データマイニングから、モニタリング、自動テストなど
27.
Scrapy
28.
Scrapyの特徴• クローリング、スクレイピングフレームワーク• Djangoに影響されている(Middlewareなど)•
スクレイピングに必要な機能がそろっている• ドキュメントが充実している• Python2.7のみ対応(3にも対応するらしい)
29.
Scrapyの主な機能• ダウンロード、抽出、保存• ダウンロードしたドキュメントのキャッシュ•
強力なコマンドラインシェル• Robots.txtのパース• 非同期、並行ダウンロード(Twistedを使用)• ドメイン、IPアドレス単位のクロール間隔調整• エラー時のリトライ• ログ出力
30.
Scrapyのアーキテクチャhttps://scrapy.readthedocs.org/en/latest/topics/architecture.html
31.
コンポーネント• Scrapy Engine•
Scheduler• Downloader• Spiders• Item Pipeline• Downloader middlewares• Spider middlewares
32.
Scrapy Engine• コンポーネント間のデータフローを制御する•
特定のアクションが発生したら、イベントを起こす
33.
Spider• ユーザーが作成するカスタムクラス• 取得したいURL、抽出する項目を記述する•
ダウンロードしてコンテンツをスクレイピングして、Itemを作成する
34.
Scheduler• EngineからRequestを受け取り、スケジューリングする
35.
Downloader• 実際にWebページを取得する。• Downloader
middlewaresで処理を差し込む事ができる。(キャッシュなど)• Ajaxのコンテンツは、Seleniumでダウンロードさせたりなど、処理の変更も可能。
36.
Item Pipeline• スパイダーによって抽出されたアイテムを出力•
データのクレンジング、検証• 永続化(JSON、File、DB、Mail)など
37.
開発手順• Scrapyプロジェクトの作成• Spiderを作成(リンク抽出、ダウンロード)•
Itemパイプラインでデータを保存
38.
プロジェクトの作成$ scrapy startproject
scrapy_sample
39.
サンプル
40.
Spider作成(公式サイトより)
41.
実行$ scrapy crawl
dmoz_spider -o scraped_data.json
42.
サンプル紹介• Airbnbの物件情報をスクレイピング• 京都、沖縄(任意の場所)•
6/27 - 6/28(この期間で宿泊可能な物件)• 20000円以内• 価格の分布図を表示(Web画面)
43.
物件情報
44.
ライブラリ - Scraping•
requests (HttpClient)• Beautiful Soup (Scraping)• SqlAlchemy ( O/R Mapper)
45.
ライブラリ - Web•
Bottle ( Web Application Framework)• Highcharts ( Graph Library)• SqlAlchemy ( O/R Mapper)
46.
Bottle• 軽量なWebアプリケーションフレームワーク• ルーティング•
テンプレートエンジン• HTTPユーティリティ• ビルトインのサーバー
47.
HelloWorld
48.
SQLAlchemy• データベースやSQLに関連する機能を提供するライブラリ• O/Rマッパーは提供される機能のうちの1つ
49.
モデルの定義
50.
レコード作成、検索
51.
デモ
52.
デモ
53.
ソースコード(モデルの定義)
54.
ソースコード(スクレイピング)
55.
ソースコード(クローリング)
56.
ソースコード(Web)
57.
ソースコード(Web)
58.
ソースコード(Web)
59.
まとめ• Pythonでスクレイピングを行う場合、色々なアプローチがある。• 標準のライブラリから、フレームワークまで選択肢は沢山ある。•
実際の要件に合わせて使用すれば良い。
60.
参考資料• http://scrapy.org (
Scrapy )• http://www.slideshare.net/MasayukiIsobe/web-scraping-20140622isobe• https://github.com/gawel/pyquery/ ( pyquery )• http://www.crummy.com/software/BeautifulSoup/ ( BeautfulSoup )• http://orangain.hatenablog.com/entry/scrapy• http://akiniwa.hatenablog.jp/entry/2013/04/15/001411• http://tokyoscrapper.connpass.com/ ( Webスクレイピング勉強会 )• http://www.slideshare.net/nezuQ/web-36143026?ref=http://www.slideshare.net/slideshow/embed_code/36143026• http://qiita.com/nezuq/items/c5e827e1827e7cb29011( 注意事項 )
61.
ご静聴ありがとうございました
Download
[8]
ページ先頭
©2009-2025
Movatter.jp