大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCIMachine Learning RepositoryPublic Data Sets :Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social DataNetwork forGovernmentdata.gov.uk | Opening upgovernmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
ソーシャル(特にソシャゲ)界隈の業界では未だによく聞こえてくる話が、 「毎日毎週施策を打つたびにしっかりKPIが上がってるのは見えてるのに、半年後とかの数字見るとなーんか芳しくないんだよね。何でだろう?」 という不思議な愚痴。このブログを初期の頃から読んでいる人なら知っての通り、それを聞くなり「平均への回帰」とか「見せかけの回帰」とかにやられてるよなー、と僕なんかは思うわけですが。最近またそういう話を業界内で見聞きする機会が増えてきたので、改めてまとめてみます。 何でこうなってしまうのか? ここでは一つありがちなパターンを見てみましょう。例えばDAUか何かのKPIを想像してみます。施策をA, B, Cと3種類ぐらい持っていて、コストや工数を考えながら投入していく感じです。 施策A1、施策A2を打てばそれなりにDAUが上がって、ここで有効期間の長い施策B1を打ってみたら右肩上がりに上がった!
NRNB and Cytoscape Introduction to the National Resource forNetwork Biology How to Cite Cytoscape Cytoscape project needs your support! Please cite the original Cytoscape paper when you use Cytoscape. This is critical to sustaining our federal funding. Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T. Cytoscape: a software environment for integrated mod
ニコニコの動画のタグネットワークを描画してみました。 今回の調査には、「(株)ドワンゴと国立情報学研究所が提供しているデータ」を利用させていただきました。 前回からのおさらい 前回、「ニコニコ動画のタグの傾向を見てみた」こういう記事を書きました。 その続きとして、今回はタグネットワークを描画してみました。特にこれといった発見はないんですが、せっかくなので紹介します…(^^) タグネットワークの定義 今回のタグネットワークは大雑把に以下のように定義しました。 2012年9月29日に投稿された動画(1900.dat)のデータを利用した 各タグがノードに対応する 一つの動画に一緒に使わているタグにエッジがあると見なす 一度しか出現しないタグは取り除く エッジは全て無方向 利用回数が多すぎるタグ(ノード)は取り除く
2013/05/18に#TokyoWebminingで話した資料です。 大人の都合でグラフの縦軸と横軸がありません。 基本的には横軸は時間(day)と、縦軸はUUです。
データマイナーに必要そうな知識や考えたことを記載するブログ2012-10-22 データマイニングを仕事にする人の生態系 「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmaz
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

現在、あなたがお使いのブラウザは、Cookie(クッキー)をブロックする設定になっています。 リクナビNEXTでは、個人情報保護と利便性の観点からクッキーの使用をお願いしています(個人情報収集等の目的では使用しておりません)。お手数ですが、ブラウザの設定を変更してください。
こんにちは、 @doryokujin です。週に2、3回は更新しようと思いつつ、今週はこの1エントリーのみです…頑張ります。本日のエントリーは僕の考える「解析者の立ち位置」について書いています。僕は自分の立ち位置(=役割)を明確にすることが、仕事で成果を出すための重要な要素かなと思っています。ところで、僕のこれから話す「解析者」というのは一般に認知されているような、いわゆる大企業の研究機関、「**研究所」と名のつく機関で解析に関する新しく高度な「手法」を生み出し、大規模解析基盤を構築し、論文もばりばり書き、手法や基盤それ自身が価値を持ち売上げになるようなエクセレントな人々の事を指すわけではありません。100人にも満たないwebベンチャーで、より現場に近い所でログ解析に携わる仕事をする人を指します。本日の内容 新しいタイプの解析者が求められる時代に 解析者の仕事って何だろう 解析者の立ち
第3回では、これまで触れてきた「ネット時代のデータマイニングへの要望」と、それを受けた「ツールの変容」という流れを受けて、新しいインプットデータ(分析対象データ)について書いてみたいと思います。 インターネットが普及することで、企業に蓄積されるデータが増えてきたと再三書いてきましたが、大きく分けて以下の3種類の要因に大別できます。 企業が生活者と直接コミュニケーションとることになったために新しくコンタクトの履歴が残るようになった(新規のコミュニケーションの発生) 従来から企業と生活者の間に接触はあったが、ネットにより手段が簡便化したことで、コミュニケーションの量が増えた(コミュニケーションをとる人間と、頻度の増加) 従来の単純な履歴(「○○を送付した」「△△に反応があった」「□□を買った」など)に加えて、サイト上でのユーザーの行動情報(「▲▲を見ていた」「■■を買おうとした」)が新規に収集

連載2回目は、ネット時代の要請を受けて、データマイニングを取り巻くツール環境がどのように変化(進化)をしているかを、ご紹介させていただきます。 現在、企業内のDWH(データウェアハウス≒巨大なDB)に蓄積された膨大なデータは、例えればダムに貯められた水です。ただ水門を開け閉めするだけでは、膨大な水量(データ量)が流出してしまい、現実的に意思決定の材料としては機能しません。まさに消防ホースから水を飲むようなもので、受け手の処理能力を軽く超えてしまうのです。そこで、処理が可能な適切な量・質に情報を絞り込んで取り出す「蛇口」が必要となり、その機能がデータマイニングに求められています。 しかし、現実問題として、そのマイニング自体が非常に高度で職人的な作業であるため、属人的な制約をうけることになります。つまり、分析者の能力と人数に限界があるため、結果として処理できる件数とデータ量にもすぐに限界が来て

これから5回の連載にわたって、「ネット時代の大容量データマイニング」と題しまして、昨今のデータマイニングを取り巻く環境や、トレンド、適応用途についてご紹介をさせていただきたいと思います。 まず、第1回目として、その技術の概要と、インターネットの普及によって生み出された膨大な容量のデータ活用に求められる新しいデータマイニング像について解説します。 そもそも「データマイニング」とは、統計学や機械学習といったデータ解析技術によって、大量のデータから、意味のあるパターンや構造を見つけ出すプロセス(や作業)を指して使われる用語です。決して新しい言葉ではなく1990年代から使われていたのですが、ITの技術用語であり通常の生活の中で利用される単語ではないため、聞きなじみがない方も多いかもしれません。AmazonやGoogleで使われているデータマイニング ただ、聞いたことがないからといって、私たちの生

第11回 マイニング伝説 2007年9月28日IT コメント: トラックバック (0) (これまでの増井俊之の「界面潮流」はこちら) データが大量にあるとき、特殊な計算を行なうことによって隠れた有用な情報を引き出せる可能性があります。大量のデータから有益な情報を抽出する手法はデータマイニングと呼ばれています。 データマイニングの効果に関してはビールと紙オムツの逸話が有名です。米国の大手スーパーで商品の購入の相関を調査したところ、週末の夜には何故かビールと紙オムツが同時に売れるということが判明したため、両者を同じ売場に置いたところ売上が大きく増加したというもので、スーパーでオムツを買って帰れと奥さんに言われた旦那がついでにビールも買って帰るのだと説明されることが多いようです。 販売データから自動的にこのような関係を計算できるというのは面白い話で、データマイニングの威力を示す好例として有名な
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く