Movatterモバイル変換


[0]ホーム

URL:


Kazutaka Tomita, profile picture
Uploaded byKazutaka Tomita
PPTX, PDF5,234 views

Apache cassandraと apache sparkで作るデータ解析プラットフォーム

Cassandra Summit Tokyo 2015 発表スライド

Embed presentation

Downloaded 31 times
Apache Cassandraと Apache Sparkで作るデータ解析プラットフォーム株式会社INTHEFOREST
自己紹介冨田 和孝(@railute)株式会社INTHEFOREST 代表取締役社長Cassandra商用サポート、Cassandraコンサルティング他Python歴7年、最近はJavaが中心。PHP、Ruby、JavaScript、Perl、Cは業務経験有り。職種:本職はDB・インフラ系エンジニア以前、某レストランサーチのDBA高負荷・大容量・大規模のOracleRACとPostgreSQLとMySQLに苦しめられ続けた経験あり。最近のトレンドはかつての専攻「認知意味論」をベースにしたNLP
AgendaIoTのデータとはCassandraの普遍性Sparkの力まとめ
IoTデータとはIoTとM2MInternet of ThingsMachine to Machineマシンツーマシン(Machine-to-Machine)とは、コンピュータネットワークに繋がれた機械同士が人間を介在せずに相互に情報交換し、自動的に最適な制御が行われるシステムを指す。一意に識別可能な「もの」がインターネット/クラウドに接続され、情報交換することにより相互に制御する仕組みである
IoTデータとは例1)iBeaconBLE(Bluetooth low Energy)を使える端末(スマートフォンなど)を発信器として、その端末の持つエリアへの入出検知や距離計測を行える仕組み(東京駅構内ナビなど)データの性質:人数×回数×拠点数×時間1時間に1000人の人が2回通過ID等:100b拠点数:50箇所増加率 1mb/h24mb/d720mb/m4.32gb/hm
IoTデータとは例2)Industrial Internet産業用機器とITの融合に関するコンセプト。高機能の機器、低コストのセンサー、インターネット、ビッグデータ収集・分析技術などを組み合わせ故障率検地など機器の効率的な運用を行う。インターネットデータの性質:センサー数×回数×拠点数×時間10秒間に10000個のセンサーが1回通信ID等:100b拠点数:3箇所増加率 6mb/h144mb/d864mb/m5.184gb/hm
IoTデータとは024681012データ増加率iBeacon Industrial Internetgb
IoTデータとは従来のデータ解析仮説 検証サンプリング全量データ解析検証仮説生成解析検証最近のデータ解析
Cassandraの普遍性リニアにスケールするCassandra50ノードから300ノードへのスケーリングベンチマークテスト
Cassandraの普遍性IoT向けデータベースとしてのCassandraの特徴• 書込みに強い。• 書込み先が分散化されているので同時多数書込みに強い(秒間100万書込み等)• 結果整合性による柔軟な書込み精度を選択可能• 解析ツールとの親和性• 多彩なドライバ(ODBC、JDBC、PHP、Ruby、Perl等)• Apache Hadoop、Apache Spark、Presto等の多彩な解析ツールを利用可能• マルチベンダー• Windows、Linux、各種クラウド、JVMが稼働すれば使用する事が出来ます。Windowsでの採用実績もあります。
Sparkの力Cassandraは横断検索が苦手RowKeyベースのConsistent Hashingの為、連続したKeyが同じノードに存在するとは限らないので連続した領域のデータ取得はCassandra単体では苦手データ解析は総当たりの逐次処理
Sparkの力Sparkとは高速なデータ分析のための新たな手段Sparkの特徴 RDD(Resilient Distributed Dataset・弾性分散データセット) 不変(イミュータブル) 分割・分散配置 インメモリー 遅延評価 Hadoop連携 HDFS自動連携 YARN連携
Sparkの力システム構造CassandraSparkHadoopYARNRM、NNレンジ範囲内の逐次処理CassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARN
Sparkの力アプリケーションScala、Java(7,8)、Pythonでアプリケーションを作成可能。データ解析に適したLibraryを適時利用することにより迅速に業務アプリケーションを作成可能。
Sparkの力Sparkのライブラリ• Spark Streamingデータの逐次時系列処理• Spark SQL• SQLライクなQuery言語• GraphX• グラフとグラフ並列計算API• MLLib• 機械学習アルゴリズムAPI
Sparkの力• Spark Streamingデータの逐次時系列処理Spark Streaming with CassandraソーシャルストリームSparkStreaming CassandrastoreHello WorldHelloWorldHelloWorld※短時間のShortBatchを逐次実行可能。
Sparkの力• Spark SQLSQLライクなDSL言語Spark SQL with CassandraSpark SQL Cassandravar rdd = cc.sql("SELECT * from test2.words a jointest2.phrase b on a.word = b.phrase")
Sparkの力■インタラクティブspark-shellSpark向けScala用のインタラクティブシェル。Scalaでその場でロジックを実行可能SparkSQLも実行可能、インタラクティブなデータ問い合わせが可能。
Sparkの力• GraphXグラフとグラフ並列計算APIGraphX with CassandraGraphX CassandraCassandraソーシャルグラフ解析・テキスト解析など
Sparkの力• MLLib• 機械学習アルゴリズムAPIMLLib with CassandraData typesBasic statisticssummary statisticscorrelationsstratified samplinghypothesis testingrandom data generationClassification and regressionlinear models (SVMs, logistic regression, linear regression)naive Bayesdecision treesensembles of trees (Random Forests and Gradient-Boosted Trees)isotonic regressionCollaborative filteringalternating least squares (ALS)Clusteringk-meansGaussian mixturepower iteration clustering (PIC)latent Dirichlet allocation (LDA)streaming k-meansDimensionality reductionsingular value decomposition (SVD)principal component analysis (PCA)Feature extraction and transformationFrequent pattern miningFP-growthOptimization (developer)stochastic gradient descentlimited-memory BFGS (L-BFGS)最新ではアルゴリズムの数が格段に増えました。大量にためる→機械学習この組合せに最適Tweet 3000万件のClusteringなど
Sparkの力CassandraSparkHadoopYARN実際のシステム構成fluentdCassandraSparkHadoopYARNCassandraSparkHadoopYARNSpark + CassandraクラスターCassandraSparkHadoopYARNSparkJobServerWebServerBatchServer
まとめ• IoTデータは爆発しやすい• Cassandraは大規模データの管理に親和性がある• Cassandraはデータストレージなので機能そのものはさほど多くない• SparkはCassandraの足りないところを上手に補ってくれる。

Recommended

PDF
SparkとCassandraの美味しい関係
PDF
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
PPT
インフラエンジニアのためのcassandra入門
PPT
Cassandra(no sql)によるシステム提案と開発
PPTX
Cassandra3.0
PPT
Webアプリケーションから見たCassandra
by2t3
 
PPTX
Pythonで入門するApache Spark at PyCon2016
PDF
Apache Sparkの紹介
PPT
はやわかりHadoop
PDF
(LT)Spark and Cassandra
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
PPTX
Pysparkで始めるデータ分析
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PDF
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PPTX
Cassandra Meetup Tokyo, 2016 Spring
PPTX
Apache Sparkを使った感情極性分析
PDF
Spark徹底入門 #cwt2015
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PPTX
Bluemixを使ったTwitter分析
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PDF
Hadoop 基礎
PDF
Datastax Enterpriseをはじめよう
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
Apache sparkとapache cassandraで行うテキスト解析
PDF
Apache Cassandra Multi-Datacenter Essentials (Julien Anguenot, iLand Internet...

More Related Content

PDF
SparkとCassandraの美味しい関係
PDF
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
PPT
インフラエンジニアのためのcassandra入門
PPT
Cassandra(no sql)によるシステム提案と開発
PPTX
Cassandra3.0
PPT
Webアプリケーションから見たCassandra
by2t3
 
PPTX
Pythonで入門するApache Spark at PyCon2016
PDF
Apache Sparkの紹介
SparkとCassandraの美味しい関係
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
インフラエンジニアのためのcassandra入門
Cassandra(no sql)によるシステム提案と開発
Cassandra3.0
Webアプリケーションから見たCassandra
by2t3
 
Pythonで入門するApache Spark at PyCon2016
Apache Sparkの紹介

What's hot

PPT
はやわかりHadoop
PDF
(LT)Spark and Cassandra
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
PPTX
Pysparkで始めるデータ分析
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PDF
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PPTX
Cassandra Meetup Tokyo, 2016 Spring
PPTX
Apache Sparkを使った感情極性分析
PDF
Spark徹底入門 #cwt2015
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PPTX
Bluemixを使ったTwitter分析
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PDF
Hadoop 基礎
PDF
Datastax Enterpriseをはじめよう
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
はやわかりHadoop
(LT)Spark and Cassandra
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Pysparkで始めるデータ分析
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
HBaseとSparkでセンサーデータを有効活用 #hbasejp
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Apache Spark の紹介(前半:Sparkのキホン)
Cassandra Meetup Tokyo, 2016 Spring
Apache Sparkを使った感情極性分析
Spark徹底入門 #cwt2015
RDB開発者のためのApache Cassandra データモデリング入門
Bluemixを使ったTwitter分析
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
Hadoop 基礎
Datastax Enterpriseをはじめよう
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)

Viewers also liked

PPTX
Apache sparkとapache cassandraで行うテキスト解析
PDF
Apache Cassandra Multi-Datacenter Essentials (Julien Anguenot, iLand Internet...
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PPTX
事例で学ぶApache Cassandra
PPTX
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
PDF
RDBからの脱却: 新ERP"HUE"におけるCassandra
by2t3
 
Apache sparkとapache cassandraで行うテキスト解析
Apache Cassandra Multi-Datacenter Essentials (Julien Anguenot, iLand Internet...
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
事例で学ぶApache Cassandra
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
RDBからの脱却: 新ERP"HUE"におけるCassandra
by2t3
 

Similar to Apache cassandraと apache sparkで作るデータ解析プラットフォーム

PDF
Cassandraとは -Cassandra Summit Tokyo 2017-
PPTX
Apache Cassandra 入門編
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
PDF
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
PDF
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
PDF
OSSとクラウドによるコンピューティングモデルの変化
PPTX
Apache cassandra 最前線
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
PDF
Yifeng spark-final-public
PPTX
2016/4/16 Softlayer Bluemix Community Festa 2016講演資料
PDF
Cassandra Meetup Tokyo, 2016 Spring
PPTX
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
PPT
Quick Overview of Upcoming Spark 3.0 + α
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
Cassandraとは -Cassandra Summit Tokyo 2017-
Apache Cassandra 入門編
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
OSSとクラウドによるコンピューティングモデルの変化
Apache cassandra 最前線
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Yifeng spark-final-public
2016/4/16 Softlayer Bluemix Community Festa 2016講演資料
Cassandra Meetup Tokyo, 2016 Spring
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
Quick Overview of Upcoming Spark 3.0 + α
db tech showcase2019 オープニングセッション @ 石川 雅也

More from Kazutaka Tomita

PPTX
The rethinkingofrepair
PPTX
Apache cassandra nio
PDF
Cassandra2017
PPTX
Cassandra compaction
PPTX
米国の事例で学ぶCassandra
PDF
Cassandra12to20
PPTX
Cassandraのバックアップと運用を考える
PPTX
What is row level isolation on cassandra
PPT
Cassandra0.7
PPTX
Gossip事始め
PPTX
Consistency level
The rethinkingofrepair
Apache cassandra nio
Cassandra2017
Cassandra compaction
米国の事例で学ぶCassandra
Cassandra12to20
Cassandraのバックアップと運用を考える
What is row level isolation on cassandra
Cassandra0.7
Gossip事始め
Consistency level

Recently uploaded

PDF
EspressReport Enterprise Server ホワイトペーパー
PPTX
KNIMEで奈良の気温を調べてみた_2026_0207_KNIMEST.pptx
PPTX
【Qlik 医療データ活用勉強会】医療の質可視化アプリの公開-その2- 20260128
PPTX
KNIMEは地味だが役に立つ_2026_0207_DojoMeeting_Kansai_#1.pptx
PPTX
What's New In Qlik ~ 2025年12月&2026年1月リリース最新機能のご紹介 ~
PDF
研究資料ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
EspressReport Enterprise Server ホワイトペーパー
KNIMEで奈良の気温を調べてみた_2026_0207_KNIMEST.pptx
【Qlik 医療データ活用勉強会】医療の質可視化アプリの公開-その2- 20260128
KNIMEは地味だが役に立つ_2026_0207_DojoMeeting_Kansai_#1.pptx
What's New In Qlik ~ 2025年12月&2026年1月リリース最新機能のご紹介 ~
研究資料ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

Apache cassandraと apache sparkで作るデータ解析プラットフォーム


[8]ページ先頭

©2009-2026 Movatter.jp