Movatterモバイル変換


[0]ホーム

URL:


Michio Katano, profile picture
Uploaded byMichio Katano
PPTX, PDF6,353 views

HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer

GMOインターネットグループのアドテク・サービスの一つ「GMOプライベートDMP」。GMOアプリクラウドのインフラにCDHのHadoopエコシステムを構築しました。コア・テクノロジーとしてのHBase×Impala活用事例と、システム設計についてご紹介します。

Embed presentation

Downloaded 43 times
HBase×Impalaで作るアドテク「GMOプライベートDMP」
1自己紹介 片野 道雄所属GMOアドパートナーズ株式会社グループCTO室 マネージャー兼GMOインターネット株式会社次世代システム研究室 マネージャーキャリア データベースエンジニア出身DB/NoSQL経験Oracle RAC, MySQL,MySQL Cluster, Percona Server (@Fusion-io),MariaDB Galera Cluster, PostgreSQL (+ Slony-I),Solr, Cassandra,
2●1児のパパ▪ 娘です●Jリーグ大好き▪ 10年以上のソシオ▪ もちろん、娘に●最近は、Hadoopに注力▪ 特にHive/HBase
3目次1. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ
41. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ1章
5DMP = Data Management Platformデータをためて活用する「箱」▪ パブリックDMP▪ プライベートDMPアドテク業界で主に使われている言葉
6DMPの活用⇒ ネット広告の配信に活用⇒ データ分析⇒ メール配信、LPO … etc●アドネットワークやDSPと連携
7アドネットワークやDSPとは、JSタグで連携 = タグ発火(Piggy Back)DMPから広告配信
8パブリックDMPとプライベートDMPの比較
9パブリックDMPいろんなサイトに来た人を分類(セグメント作成)、広告配信や調査に活用提携する媒体からCookie IDを収集、統合して利用または販売
10プライベートDMP自社のサイトに来た人を分類(セグメント作成)、広告・メール配信や顧客分析に活用会員属性・購買履歴などの会員データと結びつけて(CookieID+会員ID)、分類に利用ロイヤリティ向上
111. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ2章
12GMO NIKKO 社が作ったプライベートDMPhttp://pr.gmopdmp.jp/
13セグメントが画面操作で簡単に作れます
14さまざまな条件をクエリ不要で設定可能
15▪ 画面だけで自由にセグメント作成•難しいSQLクエリを書かなくてもOK▪ セグメント作成から、広告配信可能な状態になるまでが速いどんな仕組みか?の特徴
16×
171. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ3章
18セグメントによって、SQLクエリが違う。下記のようにシステムが分かれていると、たくさんのお客様のセグメントのクエリ処理が間に合わない。
19データ移動をさせないで、ひとつのシステムに。=CDH
20目指したのは、以下を満たすシステム▪ データの移動時間が少ない•できるだけクエリの実行時間のみに▪ システムがバラバラでない•システム同士を蜜結合したりしない▪ ビッグデータ&高負荷に対応できる•かつ、スケールアウトしやすい
21やっぱり、Hadoopエコシステム
221. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ4章
23これがシステムの全容です
24CDH の推奨スペック▪ ディスク:1~4TB の HDD を 12~24台積む (JBOD)▪ CPU:2~2.5GHz の 4/6/8コア CPU × 2▪ RAM:64~512GB(Impala を利利⽤⽤する場合は 128GB 以上を推奨)▪ ネットワーク:10Gbit (20台以下であれば 1Gbit)もちろんワークロード次第
25AWS の EC2 のハイスペックなど▪ m4.4xlarge / m4.10xlarge / r3.4xlarge … etc24時間 365日 稼動しっぱなしは金額的に厳しい
26http://cloud.gmo.jp/
27CDH クラスタRAID なしHbase8G MemImpala数十G~Mem
281. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ5章
29HBase x Impala 活用事例① HBase キー設計(セグメントデータを prefix scan)② Column Family の設計(TTLを変える、挿入タイミング)③ HBase と Impala の連携(Hiveの外部テーブル)④ マスターデータを1行1セルにJSONで⑤HBase までのデータフロー設計(Flume ⇒ Impala ⇒ 画面操作 ⇒ MQ ⇒ Impala ⇒ Hbase)⑥ Impala クエリ性能
30① HBase キー設計
31
32
33
34
35例)Scan scan = new Scan(prefixStart,prefixEnd);prefixStart = “AAAAA_”prefixEnd = “AAAAA_XXX”
36query1query2② Column Family の設計
37▪ Hive のテーブルを通して、ImpalaクエリからHBaseテーブルに読み書きできる▪ HBase テーブルを先に作り、Hive は外部テーブルとして作るのがポイント通常の Hive テーブルとして作ると、HBase のデータ項目が増えたとき Hive 側だけで柔軟に対応できなくなるHBase x Impala③ HBase x Impala の連携
38create ‘gmo.user_segments’,{ NAME => ‘CF1',DATA_BLOCK_ENCODING => 'NONE',BLOOMFILTER => 'ROW',VERSIONS => 1,TTL => 86400,BLOCKCACHE => true},{ NAME => ‘CF2',DATA_BLOCK_ENCODING => 'NONE',BLOOMFILTER => 'ROW',VERSIONS => 1,TTL => -1,BLOCKCACHE => true}HBase 側でテーブル作成
39use gmo;CREATE EXTERNAL TABLE user_segments(seg_id int,seg_datetime string)STORED BY‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’WITH SERDEPROPERTIES (“hbase.columns.mapping” =“:key,CF1:qtimeCF2:qtime");Hive 側で外部テーブル作成
40④ マスターデータを 1 行 1 セルに JSON で
41⑤ HBase までのデータフロー設計
42
43テストデータ 総数 備考アクセスログ(PV) 24 億件 オンラインCookie + 会員IDオンライン オフライン2.4 億件オンライン+オフライン会員属性 3000 万件 オフライン購買履歴 30 億件 オフラインその他データ 3 億件 オフライン総クエリ数Impala クエリ2880 個1セグメント=Nクエリ結合※条件を絞って全データを結合クエリ分割⑥ Impala クエリ性能
44項目 結果 詳細総処理時間 71 分1 クエリの平均処理時間1.48 秒 2880 クエリエラー件数 0Impala からテーブル結合して HBase へ書き込んでいるが平均1.5秒に収まる範囲で終わっており、すぐに参照可能に
451. そもそも「DMP」ってなに?2. 「GMOプライベートDMP」について3. システムで目指したもの - Hadoopエコシステム4. システム構成 - GMOアプリクラウド5. HBase x Impala 活用事例6. まとめ6章
46▪ HBase x Impala (or Hive) は強力• HBase テーブル -> Hive 外部テーブル• HBase への書き込みは、ほぼ Impala の Insert のみ▪ HBase のキー設計と Column Family 設計は柔軟• Prefix 文字を使った Range Scan というやり方 -> 性能十分• Column Family で、TTL を分ける、テーブル結合など• 1カラムのみに JSON ということもできるまとめいろいろできる
47今まで書いたことを、チームメンバーみんなで考えて実際に稼動しているのがこの Hadoop システムが動いているのが
48ご清聴ありがとうございました。

Recommended

PPTX
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
PDF
Cloudera Impalaをサービスに組み込むときに苦労した話
PDF
刊行記念セミナー「HBase徹底入門」
PDF
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
PDF
Kuduを調べてみた #dogenzakalt
PDF
なぜApache HBaseを選ぶのか? #cwt2013
PDF
Osc2012 spring HBase Report
PDF
HBase at Ameba
PPTX
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
PDF
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
PDF
Evolution of Impala #hcj2014
PDF
Impalaチューニングポイントベストプラクティス
PPTX
Impala 2.0 Update 日本語版 #impalajp
PDF
HiveとImpalaのおいしいとこ取り
PPTX
HDFS Supportaiblity Improvements
PDF
20分でわかるHBase
PPTX
GMOプライベートDMPの仕組み
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
PDF
Hadoopのシステム設計・運用のポイント
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
CDH4.1オーバービュー
PPT
インフラエンジニアのためのcassandra入門
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
PDF
5分でわかる Apache HBase 最新版 #hcj2014
PDF
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015

More Related Content

PPTX
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
PDF
Cloudera Impalaをサービスに組み込むときに苦労した話
PDF
刊行記念セミナー「HBase徹底入門」
PDF
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
PDF
Kuduを調べてみた #dogenzakalt
PDF
なぜApache HBaseを選ぶのか? #cwt2013
PDF
Osc2012 spring HBase Report
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
HBaseを用いたグラフDB「Hornet」の設計と運用
Cloudera Impalaをサービスに組み込むときに苦労した話
刊行記念セミナー「HBase徹底入門」
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Kuduを調べてみた #dogenzakalt
なぜApache HBaseを選ぶのか? #cwt2013
Osc2012 spring HBase Report

What's hot

PDF
HBase at Ameba
PPTX
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
PDF
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
PDF
Evolution of Impala #hcj2014
PDF
Impalaチューニングポイントベストプラクティス
PPTX
Impala 2.0 Update 日本語版 #impalajp
PDF
HiveとImpalaのおいしいとこ取り
PPTX
HDFS Supportaiblity Improvements
PDF
20分でわかるHBase
PPTX
GMOプライベートDMPの仕組み
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
PDF
Hadoopのシステム設計・運用のポイント
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
CDH4.1オーバービュー
PPT
インフラエンジニアのためのcassandra入門
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
PDF
5分でわかる Apache HBase 最新版 #hcj2014
PDF
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
HBase at Ameba
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
Evolution of Impala #hcj2014
Impalaチューニングポイントベストプラクティス
Impala 2.0 Update 日本語版 #impalajp
HiveとImpalaのおいしいとこ取り
HDFS Supportaiblity Improvements
20分でわかるHBase
GMOプライベートDMPの仕組み
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Hadoopのシステム設計・運用のポイント
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
CDH4.1オーバービュー
インフラエンジニアのためのcassandra入門
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
5分でわかる Apache HBase 最新版 #hcj2014
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12

Viewers also liked

PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
PPTX
Life of an Fluentd event
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PDF
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Life of an Fluentd event
#cwt2016 Apache Kudu 構成とテーブル設計
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
Apache Kudu - Updatable Analytical Storage #rakutentech

Similar to HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer

PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
PDF
株式会社インタースペース 守安様 登壇資料
PPTX
Cloudera Impala Seminar Jan. 8 2013
PDF
Hadoopデータプラットフォーム #cwt2013
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
PDF
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
PDF
HBase活用事例 #hbase_ca
PDF
オライリーセミナー Hive入門 #oreilly0724
PDF
TokyoWebminig カジュアルなHadoop
PDF
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
PDF
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
KEY
NHN techcon-20120519-fujimoto
PDF
サイバージェント 秋葉原ラボのHBase 活用事例
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
20150625 cloudera
PPSX
実動するIot&hadoopから学ぶ会_資料
PDF
スマートニュースの世界展開を支えるログ解析基盤
PDF
20141106_cwt-zenmyo-naito
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
株式会社インタースペース 守安様 登壇資料
Cloudera Impala Seminar Jan. 8 2013
Hadoopデータプラットフォーム #cwt2013
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
HBase活用事例 #hbase_ca
オライリーセミナー Hive入門 #oreilly0724
TokyoWebminig カジュアルなHadoop
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
NHN techcon-20120519-fujimoto
サイバージェント 秋葉原ラボのHBase 活用事例
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
20150625 cloudera
実動するIot&hadoopから学ぶ会_資料
スマートニュースの世界展開を支えるログ解析基盤
20141106_cwt-zenmyo-naito

HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer

Editor's Notes

  • #7 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #8 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #9 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #10 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #11 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #12 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる
  • #22 このスライドを説明した後、http://www.tableau.com/ja-jp/products このデモムービーの冒頭22秒をみせる

[8]ページ先頭

©2009-2026 Movatter.jp