3大ボトルネックを解消すれば終わり、ではない これまでの連載では、ディスクI/O、CPU、ネットワークI/Oの3つの観点で、大規模データを処理するときのボトルネックの傾向と改善点について説明しました。それらの改善策をすべてを実施すれば、もう何も心配する必要はないのでしょうか? 残念ながら、よかれと思って実施したチューニングがほかの箇所に影響を与える可能性があります。最終回となる今回は、その具体例を見ていきましょう。 データを圧縮した場合、CPUボトルネックが生じやすくなる 大規模データを扱うときは、データの総量を小さくしてストレージ装置のコストを削減するため、圧縮機能の利用を検討することが多いです。 データを圧縮する場合、RDBMSの機能を利用するのが一般的です。たとえばOracleDatabaseには、以下のように何種類かの圧縮機能があります。 標準圧縮機能 OLTP圧縮機能(Adva
初心者にも分かりやすいと人気のHead Firstシリーズのデータ解析バージョン。大量で複雑なデータを分析し、意味のある適切な情報にまとめて把握し、効果的に見せる手法は、ビジネスでも研究でも必須のスキルです。本書ではデータの収集、整理、視覚化、解析、そしてプレゼンテーションというデータ解析の手順に沿って、実際に手を動かしながらやさしく解説します。エクセルやRをはじめさまざまなデータ解析ツールを使って効果的なデータの提示方法が身につくように構成されています。『Head First Statistics』とともに読むとさらに効果的。実践で役立つ情報が満載の一冊です。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施され
みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King atAmazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています
本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー:技術評論社発売日: 2014/08/22メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見る ということで、僕が生まれて初めて執筆した書籍が恥ずかしながら8月22日(予定)に発売されることになりました。詳しくはgihyo様の公式サイトをご覧いただきたいのですが、このブログで唯一はてブ1000超えを達成したエントリ(Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くData Scientistのブ
ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。 しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。 それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根本的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。 一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは
クラウド上でデータウェアハウスを構築するAmazon Redshiftが公開。あらゆるデータ処理をクラウドへと誘う戦略 大規模なストレージとサーバなどのコンピュータリソースが必要となるデータウェアハウスを、クラウドで提供するサービス「Amazon Redshift」が、昨年秋以来の限定公開を終了し、一般ユーザーからも利用可能になったことが発表されました。Amazon Redshiftは昨年開催されたイベント「re:Invent」で発表された大型の新サービス。Amazon Web Services シニアバイスプレジデント Andy Jassy氏は、「典型的なオンプレミスのデータウェアハウスが1テラバイトあたり年間1万9000ドルから2万5000ドルかかるのに対して、Redshiftでは1000ドルしかかからない計算になる。ここには10倍以上の開きがあり、圧倒的な違いだ。」と、Amazon
2013/10/19 "第30回 データマイニング+WEB @東京 ( #TokyoWebmining 30th) −機械学習活用・マーケティング 祭り−"を開催しました。 第30回 データマイニング+WEB@東京 ( #TokyoWebmining 30th) ー機械学習活用・マーケティング 祭り−: EventbriteGoogle グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者Twitter List:Twitter List TokyoWebmining 30th 参加者セキココ:第30回 データマイニング+WEB @東京 セキココ (作成してくれた [
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー:技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学
はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、
最近、講演や勉強会などで、必ず伝えている内容を簡単に紹介します。アクセス解析に限らず、分析全般に期待を抱いているケースが多く、その幻想をぶち壊すぜ!!!というわけではないのですが、アクセス解析や分析を、ビジネスゴールにポジティブな影響を与えるために知っておいてほしい、5つの内容を紹介いたします。 Image fromFlickr 1.仮説無ければデータを見ても意味が無い アクセス解析ツールを利用する上で最もやっていけないことは「なんとなくレポートを1つずつ見ていく」という事です。時間の無駄なだけではなく、特にツールを使いはじめた方にとっては出てくる用語の多さやレポートの量に、すぐに解析ツールが嫌いになってしまいます。何の目的もなく携帯電話の説明書を(最近は紙の説明書は少ないですが)最初から最後まで読むようなものです。データを見る前に仮説を立て、その仮説を確認するためにどのレポートを見れば
CEDEC2013にて発表させていただいた内容の一般公開用スライドです。 ネットサービスの基本中の基本とされるKPI 「DAU(Daily Active Users)」。売上の分解にも使いやすく、複数のサービスを比較するときには必須の指標です。しかし、運営の現場では「ノイズが多くて使いにくい」「経営者(えらい人)にサービスの状況の誤解を与える」という扱いを受けがちな指標でもあります。 セッションの内容 :本セッションでは、ソーシャルゲームのDAUを題材に、測り方にほんの少し工夫(工夫の方法は汎用的なものです)を加えることで、DAUを現場の肌感覚にもあう指標に変身させる方法、特に、運営期間が長くなったサービスにおける課題抽出に活用する方法をご紹介します。 発表日時 : 2013年8月23日(金) 16:30~17:30 詳細URL : http://cedec.cesa.or.jp/201
ネットで面白いコピペを発見したので貼り付けておきますね。 山岡「こちらが我々の考える究極のデータサイエンティストです。」 京極「なんやて、経済学部出身やないか!ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」 山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか本当は必要ない、経済学の手法が求められているんだ。」 京極「なんやてっ!」 山岡「ビッグデータといっても、小売りの場合大きくて1千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推
平素よりイベントカレンダー+ログをご利用いただき、誠にありがとうございます。 イベントカレンダー+ログは「IT・製造業・ビジネス関係のイベント(セミナー・展示会・勉強会・コンテスト・Webイベントなど)を開催する企業・コミュニティが登録したイベント情報のポータルサイト」として約7年間運営をしてきました。これまでサービスを続けることができたのは、イベントカレンダー+ログのコンセプトに共感をいただき、適切なイベント情報をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、イベント情報の入手方法の多様化やイベント紹介サービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年6月30日(火)15:00をもちましてイベントカレンダー+ログのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知ら
2. Meta Information • 2006.4 – 2012.3 – Keio University • Artificial Intelligence, Semantic Web, Ontology Engineering • 2011.2 – 2012.3 – CTO at Trippiece, Inc. • Software Engineering • 2012.4 – – Engineer at adingo, Inc. • Data Analysis, Operation Engineeringtwitter: @suzu_v http://blog.kentasuzuki.net
【6月27日 データをわかりやすく可視化する「データビジュアライゼーション」勉強会 矢崎裕一さんプレゼン資料】 https://www.facebook.com/events/645728912170926/ オープンデータやビックデータなどの言葉を最近目に、耳にする機会が増えました。 LOCALGOOD YOKOHAMAでは「データを公開する・つかう・つくる」など私たちの身の回りにあふれてきた、そしてこれからもっと近くにやってくるだろう「データ」と、組織や個人としてどのように付き合っていくか考えていきたいとおもいます。 今回は、LOCALGOOD YOKOHAMAのサイト内「データを見る」でコンテンツのひとつともなっている『データをわかりやすく可視化するデータビジュアライゼーション』に関する勉強会を開催します。 この勉強会を経て、7月20日の「データビジュアライズソン」を開催します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く