Movatterモバイル変換
[0]
ホーム
URL:
画像なし
夜間モード
Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Takuro Sasaki
26,035 views
AWS Lambdaで作るクローラー/スクレイピング
AWS Lambdaで作るクローラー/スクレイピング
Read more
43
Save
Share
Embed
Embed presentation
Download
Downloaded 48 times
1
/ 31
2
/ 31
3
/ 31
4
/ 31
5
/ 31
6
/ 31
7
/ 31
8
/ 31
9
/ 31
10
/ 31
11
/ 31
12
/ 31
13
/ 31
14
/ 31
15
/ 31
16
/ 31
17
/ 31
18
/ 31
19
/ 31
20
/ 31
21
/ 31
22
/ 31
23
/ 31
24
/ 31
25
/ 31
26
/ 31
27
/ 31
28
/ 31
29
/ 31
30
/ 31
31
/ 31
Recommended
PDF
「顧客の声を聞かない」とはどういうことか
by
Yoshiki Hayama
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
by
Shota Imai
PPTX
backbone としての timm 入門
by
Takuji Tahara
PDF
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
PDF
LDA入門
by
正志 坪坂
PPTX
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
by
Tokoroten Nakayama
PDF
MLflowによる機械学習モデルのライフサイクルの管理
by
Takeshi Yamamuro
PDF
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
PDF
大規模言語モデルとChatGPT
by
nlab_utokyo
PDF
SAT/SMTソルバの仕組み
by
Masahiro Sakai
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
by
Hironori Washizaki
PDF
推薦アルゴリズムの今までとこれから
by
cyberagent
PDF
ドメイン駆動設計に15年取り組んでわかったこと
by
増田 亨
PDF
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
PPTX
SPAセキュリティ入門~PHP Conference Japan 2021
by
Hiroshi Tokumaru
PDF
マイクロサービス 4つの分割アプローチ
by
増田 亨
PDF
Dockerfile を書くためのベストプラクティス解説編
by
Masahito Zembutsu
PDF
【メタサーベイ】Neural Fields
by
cvpaper. challenge
PDF
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
PDF
20190825 vins mono
by
Takuya Minagawa
PDF
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
PDF
Kotlinアンチパターン
by
Recruit Lifestyle Co., Ltd.
PDF
2019年度チュートリアルBPE
by
広樹 本間
PDF
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
by
Mikiya Okuno
PPTX
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
暗号技術の実装と数学
by
MITSUNARI Shigeo
PDF
自動テストの誤解とアンチパターン in 楽天 Tech Talk
by
kyon mm
PPTX
世界一わかりやすいClean Architecture
by
Atsushi Nakamura
PDF
Rubyによるお手軽分散処理
by
maebashi
PDF
法政大学情報科学部 2012年度コンピュータネットワーク-第9回授業-Web公開用
by
Ruo Ando
More Related Content
PDF
「顧客の声を聞かない」とはどういうことか
by
Yoshiki Hayama
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
by
Shota Imai
PPTX
backbone としての timm 入門
by
Takuji Tahara
PDF
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
PDF
LDA入門
by
正志 坪坂
PPTX
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
by
Tokoroten Nakayama
PDF
MLflowによる機械学習モデルのライフサイクルの管理
by
Takeshi Yamamuro
PDF
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
「顧客の声を聞かない」とはどういうことか
by
Yoshiki Hayama
ChatGPT 人間のフィードバックから強化学習した対話AI
by
Shota Imai
backbone としての timm 入門
by
Takuji Tahara
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
LDA入門
by
正志 坪坂
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
by
Tokoroten Nakayama
MLflowによる機械学習モデルのライフサイクルの管理
by
Takeshi Yamamuro
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
What's hot
PDF
大規模言語モデルとChatGPT
by
nlab_utokyo
PDF
SAT/SMTソルバの仕組み
by
Masahiro Sakai
PDF
(修正)機械学習デザインパターン(ML Design Patterns)の解説
by
Hironori Washizaki
PDF
推薦アルゴリズムの今までとこれから
by
cyberagent
PDF
ドメイン駆動設計に15年取り組んでわかったこと
by
増田 亨
PDF
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
PPTX
SPAセキュリティ入門~PHP Conference Japan 2021
by
Hiroshi Tokumaru
PDF
マイクロサービス 4つの分割アプローチ
by
増田 亨
PDF
Dockerfile を書くためのベストプラクティス解説編
by
Masahito Zembutsu
PDF
【メタサーベイ】Neural Fields
by
cvpaper. challenge
PDF
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
PDF
20190825 vins mono
by
Takuya Minagawa
PDF
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
PDF
Kotlinアンチパターン
by
Recruit Lifestyle Co., Ltd.
PDF
2019年度チュートリアルBPE
by
広樹 本間
PDF
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
by
Mikiya Okuno
PPTX
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
暗号技術の実装と数学
by
MITSUNARI Shigeo
PDF
自動テストの誤解とアンチパターン in 楽天 Tech Talk
by
kyon mm
PPTX
世界一わかりやすいClean Architecture
by
Atsushi Nakamura
大規模言語モデルとChatGPT
by
nlab_utokyo
SAT/SMTソルバの仕組み
by
Masahiro Sakai
(修正)機械学習デザインパターン(ML Design Patterns)の解説
by
Hironori Washizaki
推薦アルゴリズムの今までとこれから
by
cyberagent
ドメイン駆動設計に15年取り組んでわかったこと
by
増田 亨
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
SPAセキュリティ入門~PHP Conference Japan 2021
by
Hiroshi Tokumaru
マイクロサービス 4つの分割アプローチ
by
増田 亨
Dockerfile を書くためのベストプラクティス解説編
by
Masahito Zembutsu
【メタサーベイ】Neural Fields
by
cvpaper. challenge
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
20190825 vins mono
by
Takuya Minagawa
「UXデザインとは」からはじめる「本流」のUXデザインはじめの一歩 | UXデザイン基礎セミナー 第1回
by
Yoshiki Hayama
Kotlinアンチパターン
by
Recruit Lifestyle Co., Ltd.
2019年度チュートリアルBPE
by
広樹 本間
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
by
Mikiya Okuno
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
by
NTT DATA Technology & Innovation
暗号技術の実装と数学
by
MITSUNARI Shigeo
自動テストの誤解とアンチパターン in 楽天 Tech Talk
by
kyon mm
世界一わかりやすいClean Architecture
by
Atsushi Nakamura
Similar to AWS Lambdaで作るクローラー/スクレイピング
PDF
Rubyによるお手軽分散処理
by
maebashi
PDF
法政大学情報科学部 2012年度コンピュータネットワーク-第9回授業-Web公開用
by
Ruo Ando
PDF
Rubyで始めるWebスクレイピング
by
Takuro Sasaki
PDF
長いの
by
emasaka
PDF
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
KEY
2012-09-09.nagoyapm07
by
IWATA Susumu
PDF
エコなWebサーバー
by
emasaka
PDF
日本 GNU AWK ユーザー会チラシ - OSC2012 Tokyo/Fall
by
博文 斉藤
PDF
Clojure
by
yshigeru
PDF
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
PDF
20111215 12 aws-meister-sqs_sns_sdb-public
by
Amazon Web Services Japan
PDF
Isomorphic web development with scala and scala.js
by
TanUkkii
PDF
[AWS Summit 2012] クラウドデザインパターン#8 CDP アンチパターン編
by
Amazon Web Services Japan
PDF
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PDF
Elasticsearch入門 pyfes 201207
by
Jun Ohtani
PDF
JAWSUG architecture-crowler
by
Takuro Sasaki
KEY
P2Pって何?
by
Junya Yamaguchi
PDF
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
by
maebashi
PDF
JAWS-UG-Kyoto-2nd
by
Tatsuru Watanabe
PDF
MongoDB on AWS
by
Ryuji Tamagawa
Rubyによるお手軽分散処理
by
maebashi
法政大学情報科学部 2012年度コンピュータネットワーク-第9回授業-Web公開用
by
Ruo Ando
Rubyで始めるWebスクレイピング
by
Takuro Sasaki
長いの
by
emasaka
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
2012-09-09.nagoyapm07
by
IWATA Susumu
エコなWebサーバー
by
emasaka
日本 GNU AWK ユーザー会チラシ - OSC2012 Tokyo/Fall
by
博文 斉藤
Clojure
by
yshigeru
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
20111215 12 aws-meister-sqs_sns_sdb-public
by
Amazon Web Services Japan
Isomorphic web development with scala and scala.js
by
TanUkkii
[AWS Summit 2012] クラウドデザインパターン#8 CDP アンチパターン編
by
Amazon Web Services Japan
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
Elasticsearch入門 pyfes 201207
by
Jun Ohtani
JAWSUG architecture-crowler
by
Takuro Sasaki
P2Pって何?
by
Junya Yamaguchi
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
by
maebashi
JAWS-UG-Kyoto-2nd
by
Tatsuru Watanabe
MongoDB on AWS
by
Ryuji Tamagawa
More from Takuro Sasaki
PDF
JAWSUG初心者支部 AWSの勉強の仕方
by
Takuro Sasaki
PDF
Crawler for Non engineer
by
Takuro Sasaki
PDF
Innovation eggcloudnative
by
Takuro Sasaki
PDF
Lambda認証認可パターン
by
Takuro Sasaki
PDF
Swaggerで始めるモデルファーストなAPI開発
by
Takuro Sasaki
PDF
Jawsug chiba API Gateway
by
Takuro Sasaki
PDF
DevLove Kansai AWS
by
Takuro Sasaki
PDF
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
PDF
JAWS-UG初心者支部 AWS書籍活用術
by
Takuro Sasaki
PDF
JAWSUG Kansai Simple Workflow Service (SWF)
by
Takuro Sasaki
PDF
JAWSUG Osaka S3 CloudSearch
by
Takuro Sasaki
PDF
サイト/ブログから本文抽出する方法
by
Takuro Sasaki
PDF
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
by
Takuro Sasaki
PDF
Jawsug osaka10 service®ions
by
Takuro Sasaki
PDF
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
by
Takuro Sasaki
PDF
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
by
Takuro Sasaki
PDF
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
by
Takuro Sasaki
PDF
第8回JAWSUG大阪 AWSの事例/課金について
by
Takuro Sasaki
PDF
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
by
Takuro Sasaki
JAWSUG初心者支部 AWSの勉強の仕方
by
Takuro Sasaki
Crawler for Non engineer
by
Takuro Sasaki
Innovation eggcloudnative
by
Takuro Sasaki
Lambda認証認可パターン
by
Takuro Sasaki
Swaggerで始めるモデルファーストなAPI開発
by
Takuro Sasaki
Jawsug chiba API Gateway
by
Takuro Sasaki
DevLove Kansai AWS
by
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
JAWS-UG初心者支部 AWS書籍活用術
by
Takuro Sasaki
JAWSUG Kansai Simple Workflow Service (SWF)
by
Takuro Sasaki
JAWSUG Osaka S3 CloudSearch
by
Takuro Sasaki
サイト/ブログから本文抽出する方法
by
Takuro Sasaki
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
by
Takuro Sasaki
Jawsug osaka10 service®ions
by
Takuro Sasaki
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
by
Takuro Sasaki
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
by
Takuro Sasaki
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
by
Takuro Sasaki
第8回JAWSUG大阪 AWSの事例/課金について
by
Takuro Sasaki
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
by
Takuro Sasaki
AWS Lambdaで作るクローラー/スクレイピング
1.
AWS Lambda Meetup
#0Lambdaで作るクローラー/スクレイピング2014年12月22日NRIネットコム 佐々木拓郎
2.
✦ プロフィール‣ NRIネットコム株式会社‣
Twitter: @dkfj‣ Facebook: takuro.sasaki‣ blog: http://blog.takuros.net/‣ 好きなAWSサービス: S3,SQS自己紹介: 佐々木拓郎
3.
主にJAWSUG大阪で活動していました(東京、初進出)
4.
宣伝!!本業と全く関係ないですが、Rubyのクローラー本を書きました。http://amzn.to/1lsJ5idRubyによるクローラー開発技法巡回・解析機能の実装と21の運用例
5.
NRIネットコム✦NRIグループで主にWebビジネスを専門としている会社‣ Webシステムの企画・設計・開発・運用‣ デザインも重視していて、ディレクター・デザイナーも一杯‣
スマホ/タブレットも得意‣ もちろんAWSをはじめとするクラウドにも力を入れている
6.
AWS Lambdaサーバ不要で、イベントドリブンなプログラム実行基盤イベントキック Lambdaで実行
7.
インフラの在り方を根底から変える!!(かもしれない)今、注目のアーキテクチャ
8.
S3 Event NotificationsS3のオブジェクトに対してのイベントを検知し、後続の処理を行うイベントPut,Post,
etc通知SQSキューSNSトピックLambda Function()
9.
Lambdaでクローラー/スクレイピング
10.
クローラー/スクレイピング、ご存知ですか?
11.
クローラー• Webを巡回するプログラムの総称• ボット、スパイダー、ロボットなど様々な呼ばれ方がある•
巡回戦略を練るのが一番の仕事• スクレイピングやストレージの機能を持つことが多い
12.
スクレイピング• 取得したHTMLなどから、データを抜き出すこと• 例えば、HTML中のAタグのリンク先を全て取得する•
正規表現派と構文解析派が存在する
13.
巡回&ダウンロードスクレイピング
14.
Lambdaクローラー全体像1. キック2. http リクエスト & ダウンロード
3. html保存4. S3 Event Call5. S3 getObject6. ScrapeLambdaCrawler parseHtmlインターネットS3クローリング部分とスクレイピング部分を実装
15.
クローラーの実装1. キック3. html保存LambdaCrawlerNode.jsのhttpクラスを利用AWSのs3
putObjectを利用URL付与2. http リクエスト & ダウンロード
16.
スクレイピングの実装4. S3 Event
Call5. S3 getObject6. ScrapeparseHtmlS3 EventでLambdaファンクションの呼び出し引数から、該当のファイルを取得cheerioというスクレイピング用のライブラリを利用
17.
ソースhttps://github.com/takuros/lambda-crawler解説は、こちらhttp://blog.takuros.net/entry/2014/12/14/053606
18.
実装のポイント• データダウンロード部とスクレイピング部の分離‣Lambdaはタイムアウトがあり、一般のバッチと違う 細かいエラー処理・例外処理をやってられない‣
単一処理に限定すると、エラー処理がし易い(はず) 成功/失敗のどちらかに倒す• 処理間の連携方法が重要‣ S3 + Event Notificationだと比較的シンプルで良い‣ Lambda Lambda連携だと、失敗時の追跡が大変(そう)
19.
いろいろ試してみた
20.
実行元のサーバ実行の度に、違うサーバが呼ばれるのか?
21.
実験①Httpリクエストを行う処理を複数作成し、手動で複数回実行HttpTestHttpTest21. キック54.172.104.205 -
- [21/Dec/2014:13:24:12 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.172.104.205 - - [21/Dec/2014:13:24:20 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.172.104.205 - - [21/Dec/2014:13:24:23 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.172.104.205 - - [21/Dec/2014:13:24:28 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.172.104.205 - - [21/Dec/2014:13:25:24 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-" 基本的には、同一のサーバで実行される模様2. キック
22.
実験②並行処理で、実験①のLambdaファンクションを呼び出し10並列 10ループ 100リクエストParallelCall1.
キックHttpTestHttpTest54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"やはり同一IP( 同一サーバ)
23.
実験③さらに並行処理で、実験②のLambdaファンクションを呼び出し(10並列 10ループ) (10並列
10ループ) 10,000リクエスト1. キックParallelCallHttpTestHttpTestParallelCallHttpTestHttpTestParallelChainCall
24.
結果結果として、高性能なDDosツールが出来ました※悪用激禁!!IPアドレスの分散( 複数のサーバで実行)54.172.104.205 -
- [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.73.201 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.73.201 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"分散
25.
考察• Lambdaは、自動的にスケールアウトする• スケールアウトの時間は、数秒程度(?)•
タスクの分割と追跡性を工夫すれば、Hadoop的な使い方もお手軽に出来るのでは?• Phantomjsと併用で、負荷計測装置も作れそう
26.
感想Lambdaを導入するにも、• スケジュール/ジョブ制御システムが必要な場合が多い• その部分は、現状自前で構築する必要がある•
AWSによるサービス化希望• サードパーティのサービスが重要になるかも Ex) サーバワークス Cloud Automator NRI mPLAT
27.
おまけ実験③の結果を、Google Analyticsで計測Googleに怒られそう一気に数千に跳ね上がり北米からの攻撃
28.
おまけ実験③のLambda側は?AWSに怒られました。Rate Exceeded
29.
教訓• Lambdaは、簡単に暗黒面に陥る• 強力過ぎる仕組みなので、使い方にはご注意を•
バグって無限循環したら、どうやって止めるなど? Lambdaファンクションを消せば良いとのこと
30.
免責こちらは個人の意見で、所属する企業や団体は関係ありません。
31.
ご清聴ありがとうございました後日の質問は、@dkfjまで
Download
[8]
ページ先頭
©2009-2025
Movatter.jp