Movatterモバイル変換


[0]ホーム

URL:


アットマーク・アイティ ITエキスパートのための問題解決メディア
@IT >Java Agile > 次世代Hadoopの特徴は、MapReduce 2とGiraph
このエントリーをはてなブックマークに追加





増え続けるHadoop活用企業

 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウルシステムズ、ファーウエイ・テクノロジーズなど、さまざまな企業が活用している。

 今回、Hadoopの開発者でありHadoopの代表的な支援企業の1つ米ClouderaのチーフアーキテクトであるDoug Cutting(ダグ・カッティング)氏が来日し、Hadoopの利用状況や次期Hadoopについて話を聞く機会を得た。その興味深い内容を紹介する。

大量データの分析が優れた結果につながる


 Hadoopが注目されている背景には、大量のデータを分析することで優れた“結果”が得られやすいからという理由がある。また、分析すべきデータの量は1台のPCで捌けるようなレベルをはるかに超えるケースが増えており、複数のPCを使って処理を実施する必要がある。Hadoopのような分散処理が可能な実装系がなくてはデータ分析を実現できないという現実もある。

 「日本におけるHadoopの活用事例はよく分からないが、グローバルに最もよく使われるシーンはログデータの解析だ。集めたデータを集計して分析することで、Webサイトの品質を上げる資料として活用したり、運用予測のためのデータとして利用できる。もう1つ良く使われるのはインデックス化だ。データを集積してきて分類および整形を実施し、データベースで利用できる形へ加工する」(カッティング氏)

 「Hadoopはバッチ処理にも使われているが、アドホックな(特定の目的のための)処理にもよく活用されている。いわゆる“リサーチ”目的としてトライ&エラーを繰り返して処理をしていくということも行われている」(カッティング氏)

 データ分析に使われるHadoopだが、開発者や技術者が通常の計算用途でも活用している点に注目しておきたい。MapReduceの扱い方が分かっていれば、Hadoopは高速に処理を実施するための便利なプラットフォームとして活用できる。

Hadoopといえば米Cloudera - 日本は米国に次ぐ第2の市場

 「われわれのビジネスはRed HatがLinuxで行っていることとよく似ている。HadoopならCloudera、ということだ。サービスやサポートなど、Hadoopなどのソフトウェアに価値を与えるといったことをやっている。トレーニングも提供しており、バグ修正といったソフトウェアサポートも提供している。企業は自分たちでバグを直したいとは考えないものだからだ」(カッティング氏)

http://www.cloudera.com/

 米Clouderaの主要市場は米国だが、同社にとって次に大きな市場は日本だという。たしかに、すでに米Clouderaは日本の企業とリセラー契約を結んでおり、2011年9月からは日本語によるトレーニングも開始される。

 「これは、あくまでも推測であって決定事項ではないが、日本の次に重要になる市場は欧州、特にイギリスとドイツ辺りではないかと考えている。アジアで日本以外ではどこが次の市場になるのかは分からない。大きな人口があり大きな市場があったとしても、それが次の市場になるとは限らないからだ」(カッティング氏)

 またカッティング氏はこう続ける。「われわれは顧客をベンダロックインの状態にはしたくないという想いがある。このため、すべてのAPIはオープンソースという形で公開している。われわれは同時にモニタリングソフトウェアの販売もしているが、これはHadoopとは切り離したビジネスとなっている」

プロダクト販売ではなく、価値を高めるサービスを提供

 米ClouderaはHadoopを含むいくつかのオープンソースプロダクトをまとめたプラットフォーム「CDH(Cloudera's Distribution including Apache Hadoop)」を提供している。Hadoopを実際に活用できる形にまとめあげたプロダクトだ。「CDH」のようなプロダクトを活用することで簡単に効率の良い処理環境を構築できるという。

 「われわれのオープンソースプロダクトであるCDHは多くのユーザーが活用している。オープンソースで提供しているため正確な数は分からないが、数百から場合によっては数千のユーザーが使っていると見られる」(カッティング氏)

 「どの程度の顧客がいるのかは、なかなかお伝えできないのだが、われわれは顧客が増えた分だけ従業員を雇うという哲学を持っている。すでに100人を超える従業員を雇用している。日本では5名ほどの従業員が業務に従事している。従業員が少ないと感じるかもしれないが、これは日本にはNTTデータなどのリセラーがすでに存在しているからだ」(カッティング氏)

次期Hadoopは大幅にパフォーマンス・アップ

 すでにHadoopを利用している開発者や運用者としては、2012年に登場するとみられる次期Hadoopでどういった変更があるのかが気になるところだ。カッティング氏に次期Hadoopや次期CDHに関する特徴を教えてもらった。

 「来年登場することになるHadoopでは多くの新機能が追加される。まず、『HDFS(Hadoop Distributed File System)』のパフォーマンスが改善される。特に、読み込みに関するパフォーマンスが向上する。読み込みが頻繁に実施される『HBase』といったアプリケーションの性能向上が期待できる。HDFSのもう1つの改善はネームノードの冗長化にある。これによって可用性が向上することになる」(カッティング氏)

http://hadoop.apache.org/common/docs/current/hdfs_design.html

 「MapReduceに関しては、『MapReduce 2』と呼ばれる完全に書き換えられた実装が導入される。MapReduce 2では、既存の実装を“ジョブの実行”と“スケジューリング”という2つへの分離が実施されている。MapReduce 2を導入することで、1つのクラスタでMapReduce以外のアルゴリズムも実行できるようになる。その例はグラフアルゴリズムの処理などだ。具体的には大規模グラフ処理を実現する『Giraph』が導入されることになるだろう。ソーシャルグラフであるとかWebページのリンクであるとか、いわゆる『グラフ構造』を処理するためのものだ」(カッティング氏)

 「次期CDHに関して、おそらく最も大きな変更は『Apache Bigtop』の採用にある。Bigtopは試験からビルドまでを自動化する機能。この機能を利用してCDHに自由に機能を組み込めるようにする。そもそも次期CDHはBigtopを使って構築されることになる。恐らく2012年の前半には次期CDHをリリースできるだろう。同梱される配布物はすべて最新版にアップデートされることになる」(カッティング氏)

Asakusaフレームワーク、初めて知ったけど興味深いね

 日本におけるHadoopといえば「Asakusa」フレームワークを思い浮かべるユーザーも多いだろう。最後に、カッティング氏にAsakusaフレームワークについてたずねてみた。

http://www.ulsystems.co.jp/asakusa-index.html

 「日本に来るまでAsakusaフレームワークについて知らなかったのだが、この数日間、いろんな人からAsakusaフレームワークについて話を聞いて興味を持っている。発想がとても興味深く、もっと知りたいと思っている」(カッティング氏)








Java Agile フォーラム 新着記事

注目のテーマ

Java Agile 記事ランキング

本日月間

転職/派遣情報を探す


お問い合わせプライバシーポリシー利用規約著作権・リンク・免責事項サイトマップ広告案内


Copyright © ITmedia, Inc. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp