Movatterモバイル変換


[0]ホーム

URL:


Yifeng Jiang, profile picture
Uploaded byYifeng Jiang
PDF, PPTX2,351 views

HDFS Deep Dive

HDFS deep dive. Erasure code in HDFS. How to choose storage for Hadoop on EC2.

Embed presentation

Download as PDF, PPTX
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHDFS  Deep  DiveYifeng  JiangSolutions  Engineer,  Hortonworks,  inc.March  29,  2015  
© Hortonworks Inc. 2011 – 2015. All Rights Reserved自己紹介蒋  逸峰  (Yifeng  Jiang)•  Solutions  Engineer  @  Hortonworks  Japan•  HBase  book  author•  ⽇日本に来て10年年経ちました…•  趣味は⼭山登り•  Twitter:  @uprush
© Hortonworks Inc. 2011 – 2015. All Rights Reservedアジェンダ•  HDFSのガチな内容•  Erasure  Code  in  HDFS•  Hadoop  on  EC2  少し深堀り
© Hortonworks Inc. 2011 – 2015. All Rights ReservedJAWSUG  DAYS  2015http://goo.gl/9ZjNoh  
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHDFSのガチな内容Architecture,  Erasure  CodePage 5
© Hortonworks Inc. 2011 – 2015. All Rights ReservedWhat  is  HDFS?•  Hadoop  Distributed  File  System•  分散ファイルシステム•  ⾼高い安定性、可⽤用性、スループット•  データ  ローカリティ•  めっちゃスケールできる:  数千台クラスタの実績
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHDFSの主要な新機能•  Namenode  HA•  スナップショット•  Tiered Storage•  HDFS  NFS  Gateway•  たくさんのPerformance改善–  DataNode  cache,  short  circuit  local  read,  etc.•  Erasure  Code  (WIP)
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHDFS Architecture
© Hortonworks Inc. 2011 – 2015. All Rights ReservedNamenode•  In-‐‑‒memory  file  system–  Directory–  File–  FSのメタデータ処理理:  mkdir,  rm,  …•  Edit  log•  Checkpoint•  Block管理理
© Hortonworks Inc. 2011 – 2015. All Rights ReservedDatanode•  実際のデータ(block)を保存–  ローカルFS上に保存–  dfs/data/current/…/blk_̲1073741825•  Namenodeとやり取り
© Hortonworks Inc. 2011 – 2015. All Rights ReservedNamenodeとDatanodeのやり取り•  ストレージレポート–  ディスクのタイプ、利利⽤用率率率•  Heart  beat–  死活管理理–  NNがレスポンスにコマンドを送る。o  例例:block削除•  Block  report:  のちほど詳しくDN1 DN2NamenodeI am aliveDelete blk1
© Hortonworks Inc. 2011 – 2015. All Rights ReservedFiles & Blocks•  Fileはblocksとして保存されます–  /home/yifeng/foo.txt:  {b1,  b2,  b3}•  BlockはDatanodeに分散して保存–  同じblockは3つのDNに複製–  Block  sizeは初期値128MB•  Blockの配置は重要–  データ  ローカリティ–  対障害/home/yifeng/foo.txtb1 | b2 | b3128MB 128MB
© Hortonworks Inc. 2011 – 2015. All Rights ReservedBlock Management•  Namenodeはblock  locationを保持–  b1:  {dn1,  dn3,  dn4}•  NamenodeはDatanodeが保存しているすべてのblockのリストを保持–  dn1:  [b1,  b2]/home/yifeng/foo.txtb1 | b2 | b3DN1b1DN2DN3 DN4b1b1b2b2b2b3b3b3
© Hortonworks Inc. 2011 – 2015. All Rights ReservedBlock  Report•  NNとDNのblock情報の突き合わせ(diff)–  Full  report:  DNが定期的にNNに送る–  Incremental  report:  block変更更があるたび•  Diffが合った場合–  NNがメモリ上のblock  mapを更更新か–  NNがDNに命令令を出すo  例例:block削除DN1b1DN2b2b2b3{    dn1:  [b1,  b2]        dn2: [b2, b3]}{ b1: [dn1, dn3, dn4]b2: [dn1, dn2, dn4]}Namenodeb4I have [b1,b2]I have [b2,b3, b4]
© Hortonworks Inc. 2011 – 2015. All Rights ReservedWrite Operation15•  Client:  NNに書込み要求•  NN:  write  lockをかけ、インメモリのFS変更更、lock解除•  NN:  edit  log  sync•  NN:  audit  log  sync•  NN:  clientにレスポンス•  Client:  write  pipeline  的にデータ書込み
© Hortonworks Inc. 2011 – 2015. All Rights Reservedrack1Write  Pipeline16DN1Namenodeclientswitchrack2DN3switchDN2switch1. Add block2. Res [dn1, dn2, dn3]3. client write to dn14. dn1 to dn25. dn2 to dn3•  Rack認識識–  Dn1:  rack1–  Dn2,  dn3:  rack2•  書込みはpipeline–  Client  -‐‑‒>  dn1  -‐‑‒>  dn2  -‐‑‒>  dn3–  データを受取ったら次にパス–  Ackは逆順
© Hortonworks Inc. 2011 – 2015. All Rights ReservedData  Read•  Client:  NNに読込み要求•  NN:  read  lockをかけ、インメモリFSを取得、clientにレスポンス、lock解除•  Client:  DNにデータ取得•  Rack認識識17rack1DN1Namenodeclientswitchrack2DN3switchDN2switch1. Get block location2. Res [dn1, dn2, dn3]3. Client read from DNx
© Hortonworks Inc. 2011 – 2015. All Rights ReservedData Replication•  HDFSはデータを3つのDNに複製•  メリット–  障害時データを失わない–  ローカリティ:ローカル、あるいは同じrackのデータを処理理–  コピーだけなのでシンプル•  デメリット–  ストレージコストが⾼高い–  オーバーヘッドは2倍:1PBのストレージは実質0.33PBのデータしか保存できない18
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure  Code  in  HDFSPage 19
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure Code•  エラー修復復の技術•  元データ(N)はより⻑⾧長いメッセージ(N+M)にencodingされ、障害が発⽣生時decodeしデータを復復元できます•  RAIDと異異なり、復復元は任意のM個(すべてではなく)のデータブロックでできる•  可⽤用性は⾮非常に⾼高い–  NとMは調整可能。(10,  4)か(6,  3)がよく使われる N Symbols N SymbolsM Symbolsencode
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure Code in HDFS•  (6,3)-‐‑‒Reed-‐‑‒Solomon–  データが6のdata  blockと3のparity  blockにencodingする–  任意の6のblock  (data  or  parity)でデータ復復元できる•  HDFSレイアでの実装•  Intel  ISA-‐‑‒L  library利利⽤用:通常の10倍早い•  想定ユースケース–  ⼤大きい(GB~∼)ファイル:節約効果が⾼高い–  データ可⽤用性を⾼高めつつ、ストレージコストを抑えたい–  頻繁にアクセスしないデータ:データローカリティがなくなる21HDFS-7285
© Hortonworks Inc. 2011 – 2015. All Rights ReservedReplication vs. Erasure Code
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure Code in HDFS: Writec1c2c3c4c5c6Incoming datac7c8c9…b1b2b3b4b5b6b1b2b3c1p1p2p3NamenodeEC Client1. Add block group2. Res [dn1, dn2, dn3, …, dn9]DN1DN2DN3…DN93. Write c1 to DN13. Write c2 to DN23. Write c3 to DN33. Write cx to DNx3. Write p3 to DN964KB64KBEncode (6, 3) EC
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure Code in HDFS: Readc1c2c3c4c5c6c7c8c9…p1p2p3NamenodeEC Client1. Get block group2. Res [dn1, dn2, dn3, …, dn6]DN1DN2DN3…DN63. Read 64k from DN13. Read 64k from DN23. Read 64k from DN23. Read 64k from DNx3. Read 64k from DN6Decode (6, 3) ECif data block is unavailableResponse
© Hortonworks Inc. 2011 – 2015. All Rights ReservedErasure Code in HDFS: Recovery•  Namenodeはblockの欠損を検出し、EC Reconstructionをスケジューリング•  EC Reconstructionは負荷が高い–  CPU, I/O消費が多い–  1 block障害: 無視(書込み中)か低い優先度で–  2 blocks障害: 低い優先度で–  3 blocks障害: 高い優先度で
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHadoop  on  EC2すこし深堀りPage 26
© Hortonworks Inc. 2011 – 2015. All Rights ReservedBest  Practices常時稼働Hadoopと⼀一時的Hadoop(例例:  EMR)の要件が違う(常時稼働)Hadoop  on  EC2の基本的な考え⽅方•  ローカルストレージがポイント•  データノードのデータはインスタンス  ストアのみ利利⽤用•  マスタノードのデータはEBSに•  データはS3にバックアップ•  ディストリビューション(HDP)を使う•  運⽤用管理理ツール、可⽤用性、セキュリティなぜ?
© Hortonworks Inc. 2011 – 2015. All Rights Reservedなぜインスタンスストア?•  HDFSはスループットが重要•  ⼤大きいブロックサイズ(128MB)使っている•  ディスクseekを減らし、Sequence  IOに最適化•  データローカリティが重要•  インスタンスストアが⾼高速、かつ無料料。データ冗⻑⾧長化はHDFS任せ•  EBSはお勧めしない•  ネットワークI/Oがボトルネック•  Random  I/Oに最適
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHDD vs. SSD•  Hadoopはほとんどの場合はHDDがベスト•  大量のHDD (12本~)、1本あたり数TBのインスタンスストアがあるEC2インスタンスタイプが望ましいHDD SSDRandom IOPS 100 ~ 180 20,000MB/s 160 ~ 200 400TB 4 ~ 6 1.2Cost $200 $1000$/TB/(MB/s) Low High$/TB/IOPS High LowRDBHDFS
© Hortonworks Inc. 2011 – 2015. All Rights ReservedなぜS3にバックアップ?•  EC2のtopologyは取れない、コントロールできない•  同じHWなのか?同じRackなのか?•  Placement GroupはRackとみなすべき?•  バックアップ⽅方法•  Batch:  Distcp,  Falcon•  Double-‐‑‒write:  Kinesis  /  Kafka  +  StormでS3とHDFSに両⽅方書込み
© Hortonworks Inc. 2011 – 2015. All Rights ReservedまとめPage 31
© Hortonworks Inc. 2011 – 2015. All Rights ReservedHadoop  Trends  and  Hadoop  on  EC2•  Hadoopは常に早く進化しています•  次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現•  Hadoopはより効率率率、安全、早くなっています•  Hadoopの深堀りはする価値がある•  Hadoop  on  EC2は効率率率や柔軟性が⾼高い
© Hortonworks Inc. 2011 – 2015. All Rights ReservedThank  youYifeng  Jiang,  Solutions  Engineer,  Hortonworks@uprush

Recommended

PPTX
Coherenceを利用するときに気をつけること #OracleCoherence
PPTX
Yahoo! JAPANのOracle構成-2017年版
PPTX
HDFS Supportaiblity Improvements
PDF
HBase at LINE
PDF
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
PDF
Hive-sub-second-sql-on-hadoop-public
PDF
Apache Hiveの今とこれから
PDF
最新版Hadoopクラスタを運用して得られたもの
PPTX
HBaseサポート最前線 #hbase_ca
PDF
HiveとImpalaのおいしいとこ取り
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
HDFS HA セミナー #hadoop
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
なぜApache HBaseを選ぶのか? #cwt2013
PDF
20190314 PGStrom Arrow_Fdw
PDF
HDP Security Overview
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
 
PDF
Hiveを高速化するLLAP
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
PDF
Hadoopエコシステムのデータストア振り返り
PPTX
絵で見てわかる 某分散データストア
PDF
Evolution of Impala #hcj2014
PDF
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
PDF
Yifeng hadoop-present-public
PDF
5分でわかる Apache HBase 最新版 #hcj2014
PDF
Log analysis with Hadoop in livedoor 2013
PPTX
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
PPTX
HDFS: Optimization, Stabilization and Supportability

More Related Content

PPTX
Coherenceを利用するときに気をつけること #OracleCoherence
PPTX
Yahoo! JAPANのOracle構成-2017年版
PPTX
HDFS Supportaiblity Improvements
PDF
HBase at LINE
PDF
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
PDF
Hive-sub-second-sql-on-hadoop-public
Coherenceを利用するときに気をつけること #OracleCoherence
Yahoo! JAPANのOracle構成-2017年版
HDFS Supportaiblity Improvements
HBase at LINE
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
Hive-sub-second-sql-on-hadoop-public

What's hot

PDF
Apache Hiveの今とこれから
PDF
最新版Hadoopクラスタを運用して得られたもの
PPTX
HBaseサポート最前線 #hbase_ca
PDF
HiveとImpalaのおいしいとこ取り
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
HDFS HA セミナー #hadoop
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
なぜApache HBaseを選ぶのか? #cwt2013
PDF
20190314 PGStrom Arrow_Fdw
PDF
HDP Security Overview
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
 
PDF
Hiveを高速化するLLAP
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
PDF
Hadoopエコシステムのデータストア振り返り
PPTX
絵で見てわかる 某分散データストア
PDF
Evolution of Impala #hcj2014
PDF
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
PDF
Yifeng hadoop-present-public
PDF
5分でわかる Apache HBase 最新版 #hcj2014
PDF
Log analysis with Hadoop in livedoor 2013
Apache Hiveの今とこれから
最新版Hadoopクラスタを運用して得られたもの
HBaseサポート最前線 #hbase_ca
HiveとImpalaのおいしいとこ取り
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
HDFS HA セミナー #hadoop
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
なぜApache HBaseを選ぶのか? #cwt2013
20190314 PGStrom Arrow_Fdw
HDP Security Overview
A Benchmark Test on Presto, Spark Sql and Hive on Tez
 
Hiveを高速化するLLAP
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
Hadoopエコシステムのデータストア振り返り
絵で見てわかる 某分散データストア
Evolution of Impala #hcj2014
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
Yifeng hadoop-present-public
5分でわかる Apache HBase 最新版 #hcj2014
Log analysis with Hadoop in livedoor 2013

Viewers also liked

PPTX
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
PPTX
HDFS: Optimization, Stabilization and Supportability
PPTX
HDFS Erasure Coding in Action
PPTX
Hadoop fault tolerance
PPTX
What's new in hadoop 3.0
PDF
Performance comparison of Distributed File Systems on 1Gbit networks
PPTX
Five Tips for Running Cloudera on AWS
PDF
Timeline Service v.2 (Hadoop Summit 2016)
PDF
Apache Hadoop Crash Course
PPTX
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
PPTX
Evolving HDFS to a Generalized Distributed Storage Subsystem
PDF
Hadoop Trends & Hadoop on EC2
PDF
Intro to Spark with Zeppelin Crash Course Hadoop Summit SJ
PPTX
Hadoop crashcourse v3
PPTX
Less is More: 2X Storage Efficiency with HDFS Erasure Coding
PPTX
Apache Hadoop 3.0 What's new in YARN and MapReduce
PDF
Native erasure coding support inside hdfs presentation
PDF
Apache Hadoop Crash Course - HS16SJ
PDF
図でわかるHDFS Erasure Coding
PDF
Data Science Crash Course Hadoop Summit SJ
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
HDFS: Optimization, Stabilization and Supportability
HDFS Erasure Coding in Action
Hadoop fault tolerance
What's new in hadoop 3.0
Performance comparison of Distributed File Systems on 1Gbit networks
Five Tips for Running Cloudera on AWS
Timeline Service v.2 (Hadoop Summit 2016)
Apache Hadoop Crash Course
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
Evolving HDFS to a Generalized Distributed Storage Subsystem
Hadoop Trends & Hadoop on EC2
Intro to Spark with Zeppelin Crash Course Hadoop Summit SJ
Hadoop crashcourse v3
Less is More: 2X Storage Efficiency with HDFS Erasure Coding
Apache Hadoop 3.0 What's new in YARN and MapReduce
Native erasure coding support inside hdfs presentation
Apache Hadoop Crash Course - HS16SJ
図でわかるHDFS Erasure Coding
Data Science Crash Course Hadoop Summit SJ

Similar to HDFS Deep Dive

PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
PDF
Apache Hadoopの未来 3系になって何が変わるのか?
PPTX
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
PDF
141030ceph
PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
PDF
Hadoopのシステム設計・運用のポイント
PDF
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
PDF
CDH4.0.0のNameNode HAを触ってみて
PDF
HDFS basics from API perspective
PDF
大規模HDFS & ErasureCoding#yjdsw3
PDF
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
PDF
Hadoop book-2nd-ch3-update
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
PDF
Distributed data stores in Hadoop ecosystem
PDF
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
PPTX
HDFS (fsimage and edits) in CDH3,CDH4
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoopの未来 3系になって何が変わるのか?
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
141030ceph
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Hadoopのシステム設計・運用のポイント
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
CDH4.0.0のNameNode HAを触ってみて
HDFS basics from API perspective
大規模HDFS & ErasureCoding#yjdsw3
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
Hadoop book-2nd-ch3-update
Cloudera Manager4.0とNameNode-HAセミナー資料
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Distributed data stores in Hadoop ecosystem
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
HDFS (fsimage and edits) in CDH3,CDH4

More from Yifeng Jiang

PDF
Sub-second-sql-on-hadoop-at-scale
PDF
Hadoop Present - Open Enterprise Hadoop
PDF
Nifi workshop
PDF
Hive spark-s3acommitter-hbase-nfs
PDF
Spark Security
PDF
Real-time Analytics in Financial
PDF
Kinesis vs-kafka-and-kafka-deep-dive
PPTX
Hive present-and-feature-shanghai
PDF
introduction-to-apache-kafka
PDF
Hortonworks Data Cloud for AWS 1.11 Updates
PDF
Introduction to Streaming Analytics Manager
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PDF
HDF 3.0 IoT Platform for Everyone
PDF
Introduction to Hortonworks Data Cloud for AWS
PDF
Hive2 Introduction -- Interactive SQL for Big Data
PDF
Apache Ambari Overview -- Hadoop for Everyone
PDF
Data Science on Hadoop
PDF
Yifeng spark-final-public
Sub-second-sql-on-hadoop-at-scale
Hadoop Present - Open Enterprise Hadoop
Nifi workshop
Hive spark-s3acommitter-hbase-nfs
Spark Security
Real-time Analytics in Financial
Kinesis vs-kafka-and-kafka-deep-dive
Hive present-and-feature-shanghai
introduction-to-apache-kafka
Hortonworks Data Cloud for AWS 1.11 Updates
Introduction to Streaming Analytics Manager
sparksql-hive-bench-by-nec-hwx-at-hcj16
HDF 3.0 IoT Platform for Everyone
Introduction to Hortonworks Data Cloud for AWS
Hive2 Introduction -- Interactive SQL for Big Data
Apache Ambari Overview -- Hadoop for Everyone
Data Science on Hadoop
Yifeng spark-final-public

HDFS Deep Dive

  • 1.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHDFS  Deep  DiveYifeng  JiangSolutions  Engineer,  Hortonworks,  inc.March  29,  2015  
  • 2.
    © Hortonworks Inc.2011 – 2015. All Rights Reserved自己紹介蒋  逸峰  (Yifeng  Jiang)•  Solutions  Engineer  @  Hortonworks  Japan•  HBase  book  author•  ⽇日本に来て10年年経ちました…•  趣味は⼭山登り•  Twitter:  @uprush
  • 3.
    © Hortonworks Inc.2011 – 2015. All Rights Reservedアジェンダ•  HDFSのガチな内容•  Erasure  Code  in  HDFS•  Hadoop  on  EC2  少し深堀り
  • 4.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedJAWSUG  DAYS  2015http://goo.gl/9ZjNoh  
  • 5.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHDFSのガチな内容Architecture,  Erasure  CodePage 5
  • 6.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedWhat  is  HDFS?•  Hadoop  Distributed  File  System•  分散ファイルシステム•  ⾼高い安定性、可⽤用性、スループット•  データ  ローカリティ•  めっちゃスケールできる:  数千台クラスタの実績
  • 7.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHDFSの主要な新機能•  Namenode  HA•  スナップショット•  Tiered Storage•  HDFS  NFS  Gateway•  たくさんのPerformance改善–  DataNode  cache,  short  circuit  local  read,  etc.•  Erasure  Code  (WIP)
  • 8.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHDFS Architecture
  • 9.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedNamenode•  In-‐‑‒memory  file  system–  Directory–  File–  FSのメタデータ処理理:  mkdir,  rm,  …•  Edit  log•  Checkpoint•  Block管理理
  • 10.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedDatanode•  実際のデータ(block)を保存–  ローカルFS上に保存–  dfs/data/current/…/blk_̲1073741825•  Namenodeとやり取り
  • 11.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedNamenodeとDatanodeのやり取り•  ストレージレポート–  ディスクのタイプ、利利⽤用率率率•  Heart  beat–  死活管理理–  NNがレスポンスにコマンドを送る。o  例例:block削除•  Block  report:  のちほど詳しくDN1 DN2NamenodeI am aliveDelete blk1
  • 12.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedFiles & Blocks•  Fileはblocksとして保存されます–  /home/yifeng/foo.txt:  {b1,  b2,  b3}•  BlockはDatanodeに分散して保存–  同じblockは3つのDNに複製–  Block  sizeは初期値128MB•  Blockの配置は重要–  データ  ローカリティ–  対障害/home/yifeng/foo.txtb1 | b2 | b3128MB 128MB
  • 13.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedBlock Management•  Namenodeはblock  locationを保持–  b1:  {dn1,  dn3,  dn4}•  NamenodeはDatanodeが保存しているすべてのblockのリストを保持–  dn1:  [b1,  b2]/home/yifeng/foo.txtb1 | b2 | b3DN1b1DN2DN3 DN4b1b1b2b2b2b3b3b3
  • 14.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedBlock  Report•  NNとDNのblock情報の突き合わせ(diff)–  Full  report:  DNが定期的にNNに送る–  Incremental  report:  block変更更があるたび•  Diffが合った場合–  NNがメモリ上のblock  mapを更更新か–  NNがDNに命令令を出すo  例例:block削除DN1b1DN2b2b2b3{    dn1:  [b1,  b2]        dn2: [b2, b3]}{ b1: [dn1, dn3, dn4]b2: [dn1, dn2, dn4]}Namenodeb4I have [b1,b2]I have [b2,b3, b4]
  • 15.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedWrite Operation15•  Client:  NNに書込み要求•  NN:  write  lockをかけ、インメモリのFS変更更、lock解除•  NN:  edit  log  sync•  NN:  audit  log  sync•  NN:  clientにレスポンス•  Client:  write  pipeline  的にデータ書込み
  • 16.
    © Hortonworks Inc.2011 – 2015. All Rights Reservedrack1Write  Pipeline16DN1Namenodeclientswitchrack2DN3switchDN2switch1. Add block2. Res [dn1, dn2, dn3]3. client write to dn14. dn1 to dn25. dn2 to dn3•  Rack認識識–  Dn1:  rack1–  Dn2,  dn3:  rack2•  書込みはpipeline–  Client  -‐‑‒>  dn1  -‐‑‒>  dn2  -‐‑‒>  dn3–  データを受取ったら次にパス–  Ackは逆順
  • 17.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedData  Read•  Client:  NNに読込み要求•  NN:  read  lockをかけ、インメモリFSを取得、clientにレスポンス、lock解除•  Client:  DNにデータ取得•  Rack認識識17rack1DN1Namenodeclientswitchrack2DN3switchDN2switch1. Get block location2. Res [dn1, dn2, dn3]3. Client read from DNx
  • 18.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedData Replication•  HDFSはデータを3つのDNに複製•  メリット–  障害時データを失わない–  ローカリティ:ローカル、あるいは同じrackのデータを処理理–  コピーだけなのでシンプル•  デメリット–  ストレージコストが⾼高い–  オーバーヘッドは2倍:1PBのストレージは実質0.33PBのデータしか保存できない18
  • 19.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure  Code  in  HDFSPage 19
  • 20.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure Code•  エラー修復復の技術•  元データ(N)はより⻑⾧長いメッセージ(N+M)にencodingされ、障害が発⽣生時decodeしデータを復復元できます•  RAIDと異異なり、復復元は任意のM個(すべてではなく)のデータブロックでできる•  可⽤用性は⾮非常に⾼高い–  NとMは調整可能。(10,  4)か(6,  3)がよく使われる N Symbols N SymbolsM Symbolsencode
  • 21.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure Code in HDFS•  (6,3)-‐‑‒Reed-‐‑‒Solomon–  データが6のdata  blockと3のparity  blockにencodingする–  任意の6のblock  (data  or  parity)でデータ復復元できる•  HDFSレイアでの実装•  Intel  ISA-‐‑‒L  library利利⽤用:通常の10倍早い•  想定ユースケース–  ⼤大きい(GB~∼)ファイル:節約効果が⾼高い–  データ可⽤用性を⾼高めつつ、ストレージコストを抑えたい–  頻繁にアクセスしないデータ:データローカリティがなくなる21HDFS-7285
  • 22.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedReplication vs. Erasure Code
  • 23.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure Code in HDFS: Writec1c2c3c4c5c6Incoming datac7c8c9…b1b2b3b4b5b6b1b2b3c1p1p2p3NamenodeEC Client1. Add block group2. Res [dn1, dn2, dn3, …, dn9]DN1DN2DN3…DN93. Write c1 to DN13. Write c2 to DN23. Write c3 to DN33. Write cx to DNx3. Write p3 to DN964KB64KBEncode (6, 3) EC
  • 24.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure Code in HDFS: Readc1c2c3c4c5c6c7c8c9…p1p2p3NamenodeEC Client1. Get block group2. Res [dn1, dn2, dn3, …, dn6]DN1DN2DN3…DN63. Read 64k from DN13. Read 64k from DN23. Read 64k from DN23. Read 64k from DNx3. Read 64k from DN6Decode (6, 3) ECif data block is unavailableResponse
  • 25.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedErasure Code in HDFS: Recovery•  Namenodeはblockの欠損を検出し、EC Reconstructionをスケジューリング•  EC Reconstructionは負荷が高い–  CPU, I/O消費が多い–  1 block障害: 無視(書込み中)か低い優先度で–  2 blocks障害: 低い優先度で–  3 blocks障害: 高い優先度で
  • 26.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHadoop  on  EC2すこし深堀りPage 26
  • 27.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedBest  Practices常時稼働Hadoopと⼀一時的Hadoop(例例:  EMR)の要件が違う(常時稼働)Hadoop  on  EC2の基本的な考え⽅方•  ローカルストレージがポイント•  データノードのデータはインスタンス  ストアのみ利利⽤用•  マスタノードのデータはEBSに•  データはS3にバックアップ•  ディストリビューション(HDP)を使う•  運⽤用管理理ツール、可⽤用性、セキュリティなぜ?
  • 28.
    © Hortonworks Inc.2011 – 2015. All Rights Reservedなぜインスタンスストア?•  HDFSはスループットが重要•  ⼤大きいブロックサイズ(128MB)使っている•  ディスクseekを減らし、Sequence  IOに最適化•  データローカリティが重要•  インスタンスストアが⾼高速、かつ無料料。データ冗⻑⾧長化はHDFS任せ•  EBSはお勧めしない•  ネットワークI/Oがボトルネック•  Random  I/Oに最適
  • 29.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHDD vs. SSD•  Hadoopはほとんどの場合はHDDがベスト•  大量のHDD (12本~)、1本あたり数TBのインスタンスストアがあるEC2インスタンスタイプが望ましいHDD SSDRandom IOPS 100 ~ 180 20,000MB/s 160 ~ 200 400TB 4 ~ 6 1.2Cost $200 $1000$/TB/(MB/s) Low High$/TB/IOPS High LowRDBHDFS
  • 30.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedなぜS3にバックアップ?•  EC2のtopologyは取れない、コントロールできない•  同じHWなのか?同じRackなのか?•  Placement GroupはRackとみなすべき?•  バックアップ⽅方法•  Batch:  Distcp,  Falcon•  Double-‐‑‒write:  Kinesis  /  Kafka  +  StormでS3とHDFSに両⽅方書込み
  • 31.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedまとめPage 31
  • 32.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedHadoop  Trends  and  Hadoop  on  EC2•  Hadoopは常に早く進化しています•  次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現•  Hadoopはより効率率率、安全、早くなっています•  Hadoopの深堀りはする価値がある•  Hadoop  on  EC2は効率率率や柔軟性が⾼高い
  • 33.
    © Hortonworks Inc.2011 – 2015. All Rights ReservedThank  youYifeng  Jiang,  Solutions  Engineer,  Hortonworks@uprush

[8]ページ先頭

©2009-2025 Movatter.jp