業界トップ のエンタープライズHadoop 企業 Cloudera に入社しましたhttp://www.cloudera.co.jp/
今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。
そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。
Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。
「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」というタイトルもいかついですが、その分量たるや、なんと375ページ。
その量でさえ、内容に比べれば大したことではありません。
とにかく内容が濃いです。
Hadoopの入門書や入門ページには書かれてないような構築・運用・チューニングの話が盛りだくさんなのです。
まず、2章では渋滞解析アプリケーションの開発事例が紹介されています。
車や携帯からのGPS情報を集積して渋滞情報を解析するシステムの事例です。クラウドマガジンVol.2の特集4に全く同じ話が書かれていたので読んだ方も多いかと思います*1。
題材としても十分面白いのですが、この章ではデータの収集方法・解析方法の説明から、MapReduce処理の設計を丁寧に解説し、さらに Mapper, Reducer だけでなく Comparator などの必要なソースコードの全てを載せて解説しています。
ここまで詳しく書かかれた事例はそうそうないです。
3章以降は読まなくても、2章だけでは読んでおくといいと思います。
とはいえ、すごいのは3章からです。まだ私もざっとしか読んでいませんが、すごいと思った箇所を列挙していきます。
これでも全然書き足りないぐらいですね。とにかく分量がものすごいです。
ものすごいお金がかかってるなと思ったと同時に、なんとなく血と汗と涙の匂いがただよってくる感じがしました。実際の案件かなりこなしてないと書けない気がします。運用規約の話なんて頭だけじゃ絶対思いつかないですよ。
この報告書は、Hadoop本の次に読む2冊目のドキュメントとして非常にいいんじゃないかなと思いました。入門書としては全く不向きだと思いますけど。いきなりこれ読まされたら「こんなん作れるか!」って投げ出したり、「こんな大規模構成関係ないし」ってそっぽ向かれそうです。
まだざっとしか読んでませんので、これからじっくり読むことにします。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。