Movatterモバイル変換
[0]
ホーム
URL:
画像なし
夜間モード
Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Yifeng Jiang
PDF, PPTX
2,351 views
HDFS Deep Dive
HDFS deep dive. Erasure code in HDFS. How to choose storage for Hadoop on EC2.
Technology
◦
Read more
5
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 33
2
/ 33
3
/ 33
4
/ 33
5
/ 33
6
/ 33
7
/ 33
8
/ 33
9
/ 33
10
/ 33
11
/ 33
12
/ 33
13
/ 33
14
/ 33
15
/ 33
16
/ 33
17
/ 33
18
/ 33
19
/ 33
20
/ 33
21
/ 33
22
/ 33
23
/ 33
24
/ 33
25
/ 33
26
/ 33
27
/ 33
28
/ 33
29
/ 33
30
/ 33
31
/ 33
32
/ 33
33
/ 33
Recommended
PPTX
Coherenceを利用するときに気をつけること #OracleCoherence
by
Toshiaki Maki
PPTX
Yahoo! JAPANのOracle構成-2017年版
by
Makoto Sato
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PDF
HBase at LINE
by
Shun Nakamura
PDF
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
by
Insight Technology, Inc.
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
PDF
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
by
Toshihiro Suzuki
PDF
Hive-sub-second-sql-on-hadoop-public
by
Yifeng Jiang
PDF
Apache Hiveの今とこれから
by
Yifeng Jiang
PDF
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
PPTX
HBaseサポート最前線 #hbase_ca
by
Cloudera Japan
PDF
HiveとImpalaのおいしいとこ取り
by
Yukinori Suda
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PDF
HDFS HA セミナー #hadoop
by
Cloudera Japan
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
by
NTT DATA OSS Professional Services
PDF
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
PDF
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
PDF
HDP Security Overview
by
Yifeng Jiang
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
by
Gw Liu
PDF
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
by
Insight Technology, Inc.
PDF
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
PPTX
絵で見てわかる 某分散データストア
by
Takahiko Sato
PDF
Evolution of Impala #hcj2014
by
Cloudera Japan
PDF
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
by
Insight Technology, Inc.
PDF
Yifeng hadoop-present-public
by
Yifeng Jiang
PDF
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
PDF
Log analysis with Hadoop in livedoor 2013
by
SATOSHI TAGOMORI
PPTX
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
by
DataWorks Summit
PPTX
HDFS: Optimization, Stabilization and Supportability
by
DataWorks Summit/Hadoop Summit
More Related Content
PPTX
Coherenceを利用するときに気をつけること #OracleCoherence
by
Toshiaki Maki
PPTX
Yahoo! JAPANのOracle構成-2017年版
by
Makoto Sato
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PDF
HBase at LINE
by
Shun Nakamura
PDF
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
by
Insight Technology, Inc.
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
PDF
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
by
Toshihiro Suzuki
PDF
Hive-sub-second-sql-on-hadoop-public
by
Yifeng Jiang
Coherenceを利用するときに気をつけること #OracleCoherence
by
Toshiaki Maki
Yahoo! JAPANのOracle構成-2017年版
by
Makoto Sato
HDFS Supportaiblity Improvements
by
Cloudera Japan
HBase at LINE
by
Shun Nakamura
[db tech showcase Tokyo 2016] A32: Oracle脳で考えるSQL Server運用 by 株式会社インサイトテクノロジー...
by
Insight Technology, Inc.
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
by
Toshihiro Suzuki
Hive-sub-second-sql-on-hadoop-public
by
Yifeng Jiang
What's hot
PDF
Apache Hiveの今とこれから
by
Yifeng Jiang
PDF
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
PPTX
HBaseサポート最前線 #hbase_ca
by
Cloudera Japan
PDF
HiveとImpalaのおいしいとこ取り
by
Yukinori Suda
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PDF
HDFS HA セミナー #hadoop
by
Cloudera Japan
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
by
NTT DATA OSS Professional Services
PDF
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
PDF
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
PDF
HDP Security Overview
by
Yifeng Jiang
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
by
Gw Liu
PDF
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
by
Insight Technology, Inc.
PDF
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
PPTX
絵で見てわかる 某分散データストア
by
Takahiko Sato
PDF
Evolution of Impala #hcj2014
by
Cloudera Japan
PDF
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
by
Insight Technology, Inc.
PDF
Yifeng hadoop-present-public
by
Yifeng Jiang
PDF
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
PDF
Log analysis with Hadoop in livedoor 2013
by
SATOSHI TAGOMORI
Apache Hiveの今とこれから
by
Yifeng Jiang
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
HBaseサポート最前線 #hbase_ca
by
Cloudera Japan
HiveとImpalaのおいしいとこ取り
by
Yukinori Suda
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
HDFS HA セミナー #hadoop
by
Cloudera Japan
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
by
NTT DATA OSS Professional Services
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
HDP Security Overview
by
Yifeng Jiang
A Benchmark Test on Presto, Spark Sql and Hive on Tez
by
Gw Liu
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
by
Insight Technology, Inc.
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
絵で見てわかる 某分散データストア
by
Takahiko Sato
Evolution of Impala #hcj2014
by
Cloudera Japan
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
by
Insight Technology, Inc.
Yifeng hadoop-present-public
by
Yifeng Jiang
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
Log analysis with Hadoop in livedoor 2013
by
SATOSHI TAGOMORI
Viewers also liked
PPTX
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
by
DataWorks Summit
PPTX
HDFS: Optimization, Stabilization and Supportability
by
DataWorks Summit/Hadoop Summit
PPTX
HDFS Erasure Coding in Action
by
DataWorks Summit/Hadoop Summit
PPTX
Hadoop fault tolerance
by
Pallav Jha
PPTX
What's new in hadoop 3.0
by
Heiko Loewe
PDF
Performance comparison of Distributed File Systems on 1Gbit networks
by
Marian Marinov
PPTX
Five Tips for Running Cloudera on AWS
by
Cloudera, Inc.
PDF
Timeline Service v.2 (Hadoop Summit 2016)
by
Sangjin Lee
PDF
Apache Hadoop Crash Course
by
DataWorks Summit/Hadoop Summit
PPTX
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
by
Cloudera, Inc.
PPTX
Evolving HDFS to a Generalized Distributed Storage Subsystem
by
DataWorks Summit/Hadoop Summit
PDF
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
PDF
Intro to Spark with Zeppelin Crash Course Hadoop Summit SJ
by
Daniel Madrigal
PPTX
Hadoop crashcourse v3
by
Hortonworks
PPTX
Less is More: 2X Storage Efficiency with HDFS Erasure Coding
by
Zhe Zhang
PPTX
Apache Hadoop 3.0 What's new in YARN and MapReduce
by
DataWorks Summit/Hadoop Summit
PDF
Native erasure coding support inside hdfs presentation
by
lin bao
PDF
Apache Hadoop Crash Course - HS16SJ
by
DataWorks Summit/Hadoop Summit
PDF
図でわかるHDFS Erasure Coding
by
Kai Sasaki
PDF
Data Science Crash Course Hadoop Summit SJ
by
Daniel Madrigal
HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency
by
DataWorks Summit
HDFS: Optimization, Stabilization and Supportability
by
DataWorks Summit/Hadoop Summit
HDFS Erasure Coding in Action
by
DataWorks Summit/Hadoop Summit
Hadoop fault tolerance
by
Pallav Jha
What's new in hadoop 3.0
by
Heiko Loewe
Performance comparison of Distributed File Systems on 1Gbit networks
by
Marian Marinov
Five Tips for Running Cloudera on AWS
by
Cloudera, Inc.
Timeline Service v.2 (Hadoop Summit 2016)
by
Sangjin Lee
Apache Hadoop Crash Course
by
DataWorks Summit/Hadoop Summit
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
by
Cloudera, Inc.
Evolving HDFS to a Generalized Distributed Storage Subsystem
by
DataWorks Summit/Hadoop Summit
Hadoop Trends & Hadoop on EC2
by
Yifeng Jiang
Intro to Spark with Zeppelin Crash Course Hadoop Summit SJ
by
Daniel Madrigal
Hadoop crashcourse v3
by
Hortonworks
Less is More: 2X Storage Efficiency with HDFS Erasure Coding
by
Zhe Zhang
Apache Hadoop 3.0 What's new in YARN and MapReduce
by
DataWorks Summit/Hadoop Summit
Native erasure coding support inside hdfs presentation
by
lin bao
Apache Hadoop Crash Course - HS16SJ
by
DataWorks Summit/Hadoop Summit
図でわかるHDFS Erasure Coding
by
Kai Sasaki
Data Science Crash Course Hadoop Summit SJ
by
Daniel Madrigal
Similar to HDFS Deep Dive
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
PDF
Apache Hadoopの未来 3系になって何が変わるのか?
by
NTT DATA OSS Professional Services
PPTX
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
PDF
141030ceph
by
OSSラボ株式会社
PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
PDF
Hadoopのシステム設計・運用のポイント
by
Cloudera Japan
PDF
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
by
Amazon Web Services Japan
PDF
CDH4.0.0のNameNode HAを触ってみて
by
NTT DATA OSS Professional Services
PDF
HDFS basics from API perspective
by
NTT DATA OSS Professional Services
PDF
大規模HDFS & ErasureCoding#yjdsw3
by
Yahoo!デベロッパーネットワーク
PDF
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
by
VirtualTech Japan Inc.
PDF
Hadoop book-2nd-ch3-update
by
Taisuke Yamada
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
by
Yahoo!デベロッパーネットワーク
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
by
Yahoo!デベロッパーネットワーク
PDF
Distributed data stores in Hadoop ecosystem
by
NTT DATA OSS Professional Services
PDF
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
by
OSSラボ株式会社
PPTX
HDFS (fsimage and edits) in CDH3,CDH4
by
Tatsuo Kawasaki
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
Apache Hadoopの未来 3系になって何が変わるのか?
by
NTT DATA OSS Professional Services
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
141030ceph
by
OSSラボ株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
Hadoopのシステム設計・運用のポイント
by
Cloudera Japan
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
by
Amazon Web Services Japan
CDH4.0.0のNameNode HAを触ってみて
by
NTT DATA OSS Professional Services
HDFS basics from API perspective
by
NTT DATA OSS Professional Services
大規模HDFS & ErasureCoding#yjdsw3
by
Yahoo!デベロッパーネットワーク
OSSラボ様講演 OpenStack最新情報セミナー 2014年6月
by
VirtualTech Japan Inc.
Hadoop book-2nd-ch3-update
by
Taisuke Yamada
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
by
Yahoo!デベロッパーネットワーク
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
by
Yahoo!デベロッパーネットワーク
Distributed data stores in Hadoop ecosystem
by
NTT DATA OSS Professional Services
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
by
OSSラボ株式会社
HDFS (fsimage and edits) in CDH3,CDH4
by
Tatsuo Kawasaki
More from Yifeng Jiang
PDF
Sub-second-sql-on-hadoop-at-scale
by
Yifeng Jiang
PDF
Hadoop Present - Open Enterprise Hadoop
by
Yifeng Jiang
PDF
Nifi workshop
by
Yifeng Jiang
PDF
Hive spark-s3acommitter-hbase-nfs
by
Yifeng Jiang
PDF
Spark Security
by
Yifeng Jiang
PDF
Real-time Analytics in Financial
by
Yifeng Jiang
PDF
Kinesis vs-kafka-and-kafka-deep-dive
by
Yifeng Jiang
PPTX
Hive present-and-feature-shanghai
by
Yifeng Jiang
PDF
introduction-to-apache-kafka
by
Yifeng Jiang
PDF
Hortonworks Data Cloud for AWS 1.11 Updates
by
Yifeng Jiang
PDF
Introduction to Streaming Analytics Manager
by
Yifeng Jiang
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
PDF
HDF 3.0 IoT Platform for Everyone
by
Yifeng Jiang
PDF
Introduction to Hortonworks Data Cloud for AWS
by
Yifeng Jiang
PDF
Hive2 Introduction -- Interactive SQL for Big Data
by
Yifeng Jiang
PDF
Apache Ambari Overview -- Hadoop for Everyone
by
Yifeng Jiang
PDF
Data Science on Hadoop
by
Yifeng Jiang
PDF
Yifeng spark-final-public
by
Yifeng Jiang
Sub-second-sql-on-hadoop-at-scale
by
Yifeng Jiang
Hadoop Present - Open Enterprise Hadoop
by
Yifeng Jiang
Nifi workshop
by
Yifeng Jiang
Hive spark-s3acommitter-hbase-nfs
by
Yifeng Jiang
Spark Security
by
Yifeng Jiang
Real-time Analytics in Financial
by
Yifeng Jiang
Kinesis vs-kafka-and-kafka-deep-dive
by
Yifeng Jiang
Hive present-and-feature-shanghai
by
Yifeng Jiang
introduction-to-apache-kafka
by
Yifeng Jiang
Hortonworks Data Cloud for AWS 1.11 Updates
by
Yifeng Jiang
Introduction to Streaming Analytics Manager
by
Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
HDF 3.0 IoT Platform for Everyone
by
Yifeng Jiang
Introduction to Hortonworks Data Cloud for AWS
by
Yifeng Jiang
Hive2 Introduction -- Interactive SQL for Big Data
by
Yifeng Jiang
Apache Ambari Overview -- Hadoop for Everyone
by
Yifeng Jiang
Data Science on Hadoop
by
Yifeng Jiang
Yifeng spark-final-public
by
Yifeng Jiang
HDFS Deep Dive
1.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHDFS Deep DiveYifeng JiangSolutions Engineer, Hortonworks, inc.March 29, 2015
2.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved自己紹介蒋 逸峰 (Yifeng Jiang)• Solutions Engineer @ Hortonworks Japan• HBase book author• ⽇日本に来て10年年経ちました…• 趣味は⼭山登り• Twitter: @uprush
3.
© Hortonworks Inc.
2011 – 2015. All Rights Reservedアジェンダ• HDFSのガチな内容• Erasure Code in HDFS• Hadoop on EC2 少し深堀り
4.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedJAWSUG DAYS 2015http://goo.gl/9ZjNoh
5.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHDFSのガチな内容Architecture, Erasure CodePage 5
6.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedWhat is HDFS?• Hadoop Distributed File System• 分散ファイルシステム• ⾼高い安定性、可⽤用性、スループット• データ ローカリティ• めっちゃスケールできる: 数千台クラスタの実績
7.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHDFSの主要な新機能• Namenode HA• スナップショット• Tiered Storage• HDFS NFS Gateway• たくさんのPerformance改善– DataNode cache, short circuit local read, etc.• Erasure Code (WIP)
8.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHDFS Architecture
9.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedNamenode• In-‐‑‒memory file system– Directory– File– FSのメタデータ処理理: mkdir, rm, …• Edit log• Checkpoint• Block管理理
10.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedDatanode• 実際のデータ(block)を保存– ローカルFS上に保存– dfs/data/current/…/blk_̲1073741825• Namenodeとやり取り
11.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedNamenodeとDatanodeのやり取り• ストレージレポート– ディスクのタイプ、利利⽤用率率率• Heart beat– 死活管理理– NNがレスポンスにコマンドを送る。o 例例:block削除• Block report: のちほど詳しくDN1 DN2NamenodeI am aliveDelete blk1
12.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedFiles & Blocks• Fileはblocksとして保存されます– /home/yifeng/foo.txt: {b1, b2, b3}• BlockはDatanodeに分散して保存– 同じblockは3つのDNに複製– Block sizeは初期値128MB• Blockの配置は重要– データ ローカリティ– 対障害/home/yifeng/foo.txtb1 | b2 | b3128MB 128MB
13.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedBlock Management• Namenodeはblock locationを保持– b1: {dn1, dn3, dn4}• NamenodeはDatanodeが保存しているすべてのblockのリストを保持– dn1: [b1, b2]/home/yifeng/foo.txtb1 | b2 | b3DN1b1DN2DN3 DN4b1b1b2b2b2b3b3b3
14.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedBlock Report• NNとDNのblock情報の突き合わせ(diff)– Full report: DNが定期的にNNに送る– Incremental report: block変更更があるたび• Diffが合った場合– NNがメモリ上のblock mapを更更新か– NNがDNに命令令を出すo 例例:block削除DN1b1DN2b2b2b3{ dn1: [b1, b2] dn2: [b2, b3]}{ b1: [dn1, dn3, dn4]b2: [dn1, dn2, dn4]}Namenodeb4I have [b1,b2]I have [b2,b3, b4]
15.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedWrite Operation15• Client: NNに書込み要求• NN: write lockをかけ、インメモリのFS変更更、lock解除• NN: edit log sync• NN: audit log sync• NN: clientにレスポンス• Client: write pipeline 的にデータ書込み
16.
© Hortonworks Inc.
2011 – 2015. All Rights Reservedrack1Write Pipeline16DN1Namenodeclientswitchrack2DN3switchDN2switch1. Add block2. Res [dn1, dn2, dn3]3. client write to dn14. dn1 to dn25. dn2 to dn3• Rack認識識– Dn1: rack1– Dn2, dn3: rack2• 書込みはpipeline– Client -‐‑‒> dn1 -‐‑‒> dn2 -‐‑‒> dn3– データを受取ったら次にパス– Ackは逆順
17.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedData Read• Client: NNに読込み要求• NN: read lockをかけ、インメモリFSを取得、clientにレスポンス、lock解除• Client: DNにデータ取得• Rack認識識17rack1DN1Namenodeclientswitchrack2DN3switchDN2switch1. Get block location2. Res [dn1, dn2, dn3]3. Client read from DNx
18.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedData Replication• HDFSはデータを3つのDNに複製• メリット– 障害時データを失わない– ローカリティ:ローカル、あるいは同じrackのデータを処理理– コピーだけなのでシンプル• デメリット– ストレージコストが⾼高い– オーバーヘッドは2倍:1PBのストレージは実質0.33PBのデータしか保存できない18
19.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code in HDFSPage 19
20.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code• エラー修復復の技術• 元データ(N)はより⻑⾧長いメッセージ(N+M)にencodingされ、障害が発⽣生時decodeしデータを復復元できます• RAIDと異異なり、復復元は任意のM個(すべてではなく)のデータブロックでできる• 可⽤用性は⾮非常に⾼高い– NとMは調整可能。(10, 4)か(6, 3)がよく使われる N Symbols N SymbolsM Symbolsencode
21.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code in HDFS• (6,3)-‐‑‒Reed-‐‑‒Solomon– データが6のdata blockと3のparity blockにencodingする– 任意の6のblock (data or parity)でデータ復復元できる• HDFSレイアでの実装• Intel ISA-‐‑‒L library利利⽤用:通常の10倍早い• 想定ユースケース– ⼤大きい(GB~∼)ファイル:節約効果が⾼高い– データ可⽤用性を⾼高めつつ、ストレージコストを抑えたい– 頻繁にアクセスしないデータ:データローカリティがなくなる21HDFS-7285
22.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedReplication vs. Erasure Code
23.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code in HDFS: Writec1c2c3c4c5c6Incoming datac7c8c9…b1b2b3b4b5b6b1b2b3c1p1p2p3NamenodeEC Client1. Add block group2. Res [dn1, dn2, dn3, …, dn9]DN1DN2DN3…DN93. Write c1 to DN13. Write c2 to DN23. Write c3 to DN33. Write cx to DNx3. Write p3 to DN964KB64KBEncode (6, 3) EC
24.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code in HDFS: Readc1c2c3c4c5c6c7c8c9…p1p2p3NamenodeEC Client1. Get block group2. Res [dn1, dn2, dn3, …, dn6]DN1DN2DN3…DN63. Read 64k from DN13. Read 64k from DN23. Read 64k from DN23. Read 64k from DNx3. Read 64k from DN6Decode (6, 3) ECif data block is unavailableResponse
25.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedErasure Code in HDFS: Recovery• Namenodeはblockの欠損を検出し、EC Reconstructionをスケジューリング• EC Reconstructionは負荷が高い– CPU, I/O消費が多い– 1 block障害: 無視(書込み中)か低い優先度で– 2 blocks障害: 低い優先度で– 3 blocks障害: 高い優先度で
26.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHadoop on EC2すこし深堀りPage 26
27.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedBest Practices常時稼働Hadoopと⼀一時的Hadoop(例例: EMR)の要件が違う(常時稼働)Hadoop on EC2の基本的な考え⽅方• ローカルストレージがポイント• データノードのデータはインスタンス ストアのみ利利⽤用• マスタノードのデータはEBSに• データはS3にバックアップ• ディストリビューション(HDP)を使う• 運⽤用管理理ツール、可⽤用性、セキュリティなぜ?
28.
© Hortonworks Inc.
2011 – 2015. All Rights Reservedなぜインスタンスストア?• HDFSはスループットが重要• ⼤大きいブロックサイズ(128MB)使っている• ディスクseekを減らし、Sequence IOに最適化• データローカリティが重要• インスタンスストアが⾼高速、かつ無料料。データ冗⻑⾧長化はHDFS任せ• EBSはお勧めしない• ネットワークI/Oがボトルネック• Random I/Oに最適
29.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHDD vs. SSD• Hadoopはほとんどの場合はHDDがベスト• 大量のHDD (12本~)、1本あたり数TBのインスタンスストアがあるEC2インスタンスタイプが望ましいHDD SSDRandom IOPS 100 ~ 180 20,000MB/s 160 ~ 200 400TB 4 ~ 6 1.2Cost $200 $1000$/TB/(MB/s) Low High$/TB/IOPS High LowRDBHDFS
30.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedなぜS3にバックアップ?• EC2のtopologyは取れない、コントロールできない• 同じHWなのか?同じRackなのか?• Placement GroupはRackとみなすべき?• バックアップ⽅方法• Batch: Distcp, Falcon• Double-‐‑‒write: Kinesis / Kafka + StormでS3とHDFSに両⽅方書込み
31.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedまとめPage 31
32.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedHadoop Trends and Hadoop on EC2• Hadoopは常に早く進化しています• 次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現• Hadoopはより効率率率、安全、早くなっています• Hadoopの深堀りはする価値がある• Hadoop on EC2は効率率率や柔軟性が⾼高い
33.
© Hortonworks Inc.
2011 – 2015. All Rights ReservedThank youYifeng Jiang, Solutions Engineer, Hortonworks@uprush
Download
[8]
ページ先頭
©2009-2025
Movatter.jp