Movatterモバイル変換

fubar_foo id:fubar_foo

hadoopに関するfubar_fooのブックマーク (29)

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
fubar_foo2017/07/10
全くユースケースがないとは思わないけど、hadoopが最適なユースケースってそこまで多くはなさそうな印象。
hadoop
リンク
Apache Sparkのご紹介（後半：技術トピック）
第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（後半：技術トピック）NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark
fubar_foo2015/08/17
spark
hadoop
big data
リンク
Hadoop Pig の使いどころ - Tech-Sketch
「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで
fubar_foo2014/08/19
hadoop
hive
リンク
Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした
Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした：Databaseテクノロジレポート（1/4 ページ） 2012年10月24日に発表されたばかりのHadoop用リアルタイムクエリエンジンをいち早くレビュー。次期CDHに組み込まれる予定の新機能をどう使いこなす？ Impalaとは Impalaは、Googleが社内で利用しているDremelとF1にインスパイアされて開発されたオープンソースソフトウェアで、HDFS（Hadoop Distributed File System）あるいはApache HBaseに保存されているデータを対象に、アドホックなクエリを実行するためのツールです。Hadoopのディストリビューションベンダとして有名なClouderaが開発しています*1。 Hadoopファミリのソフトウェアは基本的にJava言語で開発されていますが、Imp
fubar_foo2014/07/15
hadoop
hive
リンク
SQLライクにHadoop Hiveを使い倒す!
データの保存：INSERT 検索結果を画面に表示するだけでは先に進まないので、次にデータを保存する方法を説明します。 Hiveではデータを保存するためにINSERT文を使います。これはSQLのINSERT文と大きく異なる部分で、テーブルのデータを更新するのではなく、次々と新しいテーブルやファイルを作って処理を進めていきます。具体的には、次の3つの方法があります。 Hiveのテーブルにデータを直接インサート HDFS注のファイルとして保存注のファイルとして保存ユーザーが直接扱う（普通の）ファイルとして保存以降でそれぞれを見ていきましょう。
fubar_foo2014/04/02
hadoop
リンク
Treasure Dataのサービスはクラウド上でどう構築されているのか（後編）～July Tech Festa 2013
Treasure Dataのサービスはクラウド上でどう構築されているのか（後編）～JulyTech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJulyTech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか（前編）～JapanTech Festa 2013」の続きです。データを解析する「Plazma」の仕組みデータを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。
fubar_foo2013/08/05
big data
hadoop
リンク
ConcurrentがHadoop向け機械学習DSLのPatternをリリース
あなたにとって重要なトピックや同僚の最新情報を入手しましょう最新の洞察とトレンドに関する最新情報を即座に受け取りましょう。継続的な学習のために、無料のリソースに手軽にアクセスしましょうミニブック、トランスクリプト付き動画、およびトレーニング教材。記事を保存して、いつでも読むことができます記事をブックマークして、準備ができたらいつでも読めます。
fubar_foo2013/07/11
hadoop
machine learning
リンク
【17-E-3】オンライン機械学習で実現する大規模データ処理
Hadoop Summit 2012 - Hadoop and Vertica: The Data Analytics Platform atTwitter
fubar_foo2012/02/24
hadoop
machine learning
jubatus
リンク
Hadoop＋Hive検証環境を構築してみる
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
fubar_foo2012/02/06
hadoop
リンク
『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011
『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1
fubar_foo2012/02/01
hadoop
machine learning
リンク
第5回　大規模データを扱うためのHBaseとCassandra | gihyo.jp
どんなところに使える？ HBaseやCassandraはどちらもRDBMSで扱いきれないような大規模なデータの扱いに力を発揮します。強力なスケーラビリティも備えているため、データが増えても処理速度はそれほど低下しません。また、列指向データベースの強みを活かして、大量のデータを更新するようなバッチ処理のストレージとして利用しても有用でしょう。具体的な利用シーン大規模なデータをスケーラブルに処理する必要がある場合大量データをバッチ処理する際のストレージとしての利用 HBaseのインストール本稿では、実際にHBaseを使ってみましょう[1]⁠。まずは1台のサーバ上で環境を整えます。わかりにくかもしれないので、以下の手順を参考にしてください。JDK6およびHadoopのインストールが必要です。プロンプト1　HBaseのインストール＆起動の手順 # http://java.sun.com
fubar_foo2012/01/21
nosql
hadoop
リンク
ビッグデータ時代に熱望される3つのスキル｜【Tech総研】
今年になって「ビッグデータ」という言葉がクローズアップされるようになった。今後、大量なデータを保管するだけではなく、効率的な分散処理、そして分析によってビジネスにどう活用していくかが重要視されている。本格的なビッグデータ時代を迎える今、必要とされるエンジニアについて探ってみたい。ビッグデータとはその名の通り、大量のデータを指す。その定義は人により異なるが、一般的には数百テラバイトからペタバイト級以上のデータを指すことが多い。しかし最近になってなぜ、「ビッグデータ」というキーワードが注目を集めるようになったのか？その理由について、ビッグデータ関連の記事を寄稿するなど、ビッグデータ事情に詳しい栗原氏によると、「ビジネスパーソンの注目が集まった」ことだという。「大容量データをどう効率的に処理・保管するか、というビッグデータ類似のコンセプト自体は10年以上前からありました。しかし、データ管理
fubar_foo2012/01/10
big data
hadoop
nosql
リンク
Jubatus : Distributed Online Machine Learning Framework¶
Jubatus EnglishJapanese
fubar_foo2011/10/30
machine learning
hadoop
リンク
NoSQLとHadoopを、オラクルは企業が使うデータベースとしてどう位置づけようとしているのか？
「NoSQLはソーシャルメディアのようなネットアプリケーション向けであり、企業内のデータベースとしては向かない」。これまでNoSQLデータベースは一般にそう思われていました。しかしオラクルは今月、サンフランシスコで開催した「Oracle OpenWorld 2011」でビッグデータ市場への参入を表明。製品として、企業向けデータベースとしてキーバリュー型データストア「Oracle NoSQL Database」と「Apache Hadoop」を搭載した「Oracle Big Data Appliance」を発表しました。オラクルは企業が使うデータベースとしてNoSQLやHadoopをどのように位置づけようとしているのでしょうか？昨日10月25日に都内で開催された日本オラクル主催のイベント「Oracle Database/Exadata Summit」において、米オラクルでデータベース製
fubar_foo2011/10/26
生のビッグデータはNoSQL、分析はリレーショナルDB
nosql
oracle
hadoop
リンク
Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム：テキストマイニングで始める実践Hadoop活用（最終回）（1/3 ページ） Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上前回の「実践！「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと
fubar_foo2011/10/03
hadoop
machine learning
リンク
実践！「MapReduceでテキストマイニング」徹底解説
「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
fubar_foo2011/07/21
mapreduce
hadoop
data mining
machine learning
リンク
ビッグデータにこれから起きること11の予想
ビッグデータの登場とその分析は、いまのIT業界の大きなトピックの1つです。Hadoopのような大規模分散ソフトウェアに注目が集まり、オラクルのExadataなどデータウェアハウス専用ハードウェアが次々に登場し、またIBMによるNetezzaの買収、EMCによるGreenplumの買収、ヒューレット・パッカードによるVerticaの買収などはすべて、ビッグデータをめぐる動きだといってよいでしょう。 11 Big-Data Analytics Predictions for 2011 -- TDWI - The Data Warehousing Institute そのビッグデータの分野で2011年になにが起きるのか？ Ingres CorporationのシニアバイスプレジデントKetan Karia氏がThe Data Warehouse Instituteに掲載された記事「11 Big-
fubar_foo2011/05/29
hadoop
nosql
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevanttechno logies such as generativeAI, data science,AI, and open source.
fubar_foo2011/05/24
hadoop
リンク
分散データベース「HBase」の安定運用を目指して - Preferred Networks Tech Blog
1年経ってiPhone4の電池がヘタってきた、太田です。指数関数的にエントリ数が少なくなってきた本ブログですがw、景気付けのためにエントリを投稿したいと思います！本日はHBaseについてです。Linux と Hadoop と HBase と ZooKeeper に詳しいあなた！あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。ま
fubar_foo2011/05/09
nosql
hadoop
file system
リンク
リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey
米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY
fubar_foo2010/12/03
mapreduce
hadoop
リンク
12次のページ