京都大学の梅野健教授と新谷健修士課程学生は、世界中の様々なビッグデータに現れる「べき則」の普遍性を説明する新しい統計法則を発見した。この統計法則は「超一般化中心極限定理」と呼べるもので、データ上に普遍的に現れるという。これにより世界の様々な現象の統計モデルの構築が期待される。 今回の研究では、現実のデータを反映した、従来の統計則である極限定理では捉えることができない、異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。 この極限定理は、統計学の基本法則である中心極限定理をべき則に一般化した一般化中心極限定理を、さらに異なるべき則の和の極限に拡張したもので、「超一般化中心極限定理」と呼ぶことができる。より一般化された状況でも成立する極限定理としての統計学的な意義があるととも

本日、民間事業者から提供された、登山者の移動経路情報などを活用して登山道を修正した地形図を、地理院地図ではじめて公開しました。 地形図の登山道がより正確になることで、登山者の安全や利便性の向上が図れます。 国土地理院では、地形図の登山道をより正確にするため、登山者の移動経路情報などのビッグデータの提供に関する協力協定を民間事業者(株式会社ヤマレコ、株式会社ヤマップ)と昨年12月に締結しました。 今回、協力協定を締結した民間事業者から提供されたビッグデータを活用して、「上高地」及び「八ヶ岳」地域の主な登山道を修正した地形図を、本日はじめて国土地理院のウェブ地図「地理院地図」で公開しました。 地理院地図URL https://maps.gsi.go.jp/ 今回の地形図の修正は、登山者が多く大量の移動経路情報が利用できた上高地及び八ヶ岳地域の主な登山道を対象とし(参考資料―1)、登山者の移動経

ももひこ97 @momohiko97 #タモリ倶楽部 24時20分~24時50分 今夜遂に大公開!!痴の巨人が解析したデリヘル・ビッグデータ!…最新分析ソフトがたたき出すお宝データ!!この言葉で紹介されているデリヘル嬢は「当たり」!? 2018-01-13 00:12:03

登山者のスマートフォンなどで記録された移動経路の情報を利用し、登山道の正確な位置を地図に描くプロジェクトを、国土地理院が始めた。 インターネットで登山経路を掲載するサイトの運営者などに参加を呼びかけ、データを集める。膨大な量の電子情報「ビッグデータ」で地図を修正する試みは初めてという。 登山道の多くは、同院の2万5000分の1地形図などに掲載されている。しかし地形の変化などでルートが変わることがある。同院はこれまで、主に現地調査で変化を確認してきたが、労力と時間がかかる。航空写真で確認する方法もあるが、登山道が森林に隠れて見えない場合も多い。 そこで同院は、登山者がスマホや携帯型の全地球測位システム(GPS)で得た移動経路データを集めて掲載するウェブサイトに着目した。これらのデータを統計学的に分析すると、登山道の正確な位置を割り出せることを確認した。

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

地域経済分析システム(RESAS:リーサス)は、地方創生の様々な取り組みを情報面から支援するために、経済産業省と内閣官房新しい地方経済・生活環境創生本部事務局が提供する、地域の人口や産業構造、人流、事業所立地、POSなど官民のビッグデータを可視化するシステムです。

センサなどによる詳細な観測で得たビッグデータにより、人間は他者からどのような法則で、影響を受けるのかが明らかになっているという。それを可能にしたのが「社会物理学」という新しい分野。 かつて『データの見えざる手』で話題を呼び、著者のペントランド教授と共同研究をした経験も持つ矢野和夫さん(日立製作所研究開発グループ)に「社会物理学」について解説いただきました。(HONZ編集部)本書は、Alex ‘Sandy’ Pentland教授の Social Physics: HowGood Ideas Spread-The Lessons from a New Science (2014)の全訳である。 ビッグデータに関しては、最近ではたくさんの書籍が出版されている。 それらの中で『ソーシャル物理学』に書かれていることは、他書の追随を許さない高みにある。どこが違うのか。著者本人には書きにくいことも含

リクルートホールディングスは2015年4月1日、新規事業開発機関「Recruit Institute ofTechnology」を人工知能の研究所として再編したと発表した。一方では米MITメディアラボとスタンフォード大学に客員研究員を派遣するなど、R&D拡張の動きが活発だ。 弊誌では今回、昨年12月よりMITに出向し、ビッグデータ分析の世界的権威であるアレックス(サンディ)・ペントランド教授とともに研究を進めている客員研究員の数原良彦氏に話を聞くことができた。 数原氏は、2008年に慶應義塾大学大学院の修士課程を修了し、同年NTT研究所に入社。以来6年間、情報検索と機械学習に関わる研究開発に携わった後、昨年9月にリクルートに加わった。 数原氏はどのような思いを持ち、どのような研究をしているのか。そのミッションと構想を語ってもらった。人工知能は意思決定をどこまでサポートできるのか? 数原

21世紀初頭に「IT革命」という言葉が世の中を席巻してから、インターネットはもはや車やガスなどと同じ社会的なインフラになったと言っても過言ではないのではないでしょうか。 そんな中、データサイエンティストという仕事に注目が集まっています。年収1000万円を越えることも夢ではない職業です。そんなデータサイエンティストにとって不可欠なデータ解析に関する知識を無料で学べる「UDACITYonEdmaps」の使い方を紹介します。 UDACITYonEdmapsとは何か UDACITYとはアメリカ発のオンライン学習サービスの一つで、無料でデータサイエンスが学べるツールです。アメリカでスタートしたこのサービスは、リクルートホールディングスとの契約締結を経て、現在日本ではUDACITYonEdmapsとして展開しています。 UDACITYonEdmapsの前身であるUDACITYでは各企業の開発者などが講

ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について The sad state of sysadmin in the age of containers コンテナー時代のシステム管理者の惨状 システム管理は惨劇に見舞われている。現状は悲惨だ。 筆者は昔気質のシステム管理者に不満はない。システムの稼働を維持し、アップデートし、アップグレードする方法を知っている者達だ。 この憤りは、コンテナーと構築済みVMと、それらがもたらす、「信頼」や「アップグレード」の欠如による悲惨な惨劇に対するものだ。 例えば、Hadoopを見てみろ。誰もHadoopをスクラッチからビルドする方法を知っているようには見えないぞ。依存性とバージョンとビルドツールが悲惨なほどに絡まりあっている。 この手のイケてるツールの中で、古典的なmake
情報処理における全国のエキスパートが一堂に会したリクルート主催の「春の情報処理祭」。人々が日常的に大量のデータを生成・消費するに伴い、「ビッグデータ」の重要性が高まっていると語る、大阪大学准教授の原隆浩氏。「ビッグデータを制する者が世界を制する」とまで言われ、その研究に注目が集まるデータベース分野の歴史と可能性について解説します。(春の情報処理祭in京都より) 高校生の頃まで、パソコンが苦手だった原隆浩氏:まず、今日データベース研究会のほうから代表ということで来ましたので、自己紹介を兼ねてお話したいと思います。私は今、大阪大学で准教授をしていまして、42歳になります。なので、大学を卒業してちょうど20年経っているぐらいです。 研究の専門分野は、あんまりデータベースっぽくなくて、どちらかというとネットワークとデータベースの境界領域みたいなことをやって、アドホックとかセンサーネットワークにデー

はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、AmazonEMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。RDBMSからデータをHadoopにインポートするSQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。 このような問題を解決するには、
この2つの技術は、グーグル独自の技術というわけではない。しかし、ハードウェアから構築している、既存のグーグルのクラウド技術を活用し、パブリックなクラウドサービスとして提供可能なレベルの実装になっている点がGoogle BigQueryの強みとなっている。 BigQueryの特徴 他の類似サービスとの比較 巨大データを処理する技術としては、同じグーグルが使ってきたMapReduceというものがある。MapReduceとBigQueryを比べると、MapReduceが巨大なデータを安定的に処理できるプログラミングモデルであることに対し、BigQueryはアドホックにトライ&エラーしながらクエリを実行するサービスであることが異なっている。MapReduceは、非構造化データを、プログラミングモデルを通して扱うことができ、巨大なテーブルの結合や巨大な出力結果のエクスポートも可能である半面、処理時
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く