Movatterモバイル変換


[0]ホーム

URL:


Kazutaka Tomita, profile picture
Uploaded byKazutaka Tomita
PPTX, PDF5,233 views

Apache cassandraと apache sparkで作るデータ解析プラットフォーム

Cassandra Summit Tokyo 2015 発表スライド

Embed presentation

Downloaded 31 times
Apache Cassandraと Apache Sparkで作るデータ解析プラットフォーム株式会社INTHEFOREST
自己紹介冨田 和孝(@railute)株式会社INTHEFOREST 代表取締役社長Cassandra商用サポート、Cassandraコンサルティング他Python歴7年、最近はJavaが中心。PHP、Ruby、JavaScript、Perl、Cは業務経験有り。職種:本職はDB・インフラ系エンジニア以前、某レストランサーチのDBA高負荷・大容量・大規模のOracleRACとPostgreSQLとMySQLに苦しめられ続けた経験あり。最近のトレンドはかつての専攻「認知意味論」をベースにしたNLP
AgendaIoTのデータとはCassandraの普遍性Sparkの力まとめ
IoTデータとはIoTとM2MInternet of ThingsMachine to Machineマシンツーマシン(Machine-to-Machine)とは、コンピュータネットワークに繋がれた機械同士が人間を介在せずに相互に情報交換し、自動的に最適な制御が行われるシステムを指す。一意に識別可能な「もの」がインターネット/クラウドに接続され、情報交換することにより相互に制御する仕組みである
IoTデータとは例1)iBeaconBLE(Bluetooth low Energy)を使える端末(スマートフォンなど)を発信器として、その端末の持つエリアへの入出検知や距離計測を行える仕組み(東京駅構内ナビなど)データの性質:人数×回数×拠点数×時間1時間に1000人の人が2回通過ID等:100b拠点数:50箇所増加率 1mb/h24mb/d720mb/m4.32gb/hm
IoTデータとは例2)Industrial Internet産業用機器とITの融合に関するコンセプト。高機能の機器、低コストのセンサー、インターネット、ビッグデータ収集・分析技術などを組み合わせ故障率検地など機器の効率的な運用を行う。インターネットデータの性質:センサー数×回数×拠点数×時間10秒間に10000個のセンサーが1回通信ID等:100b拠点数:3箇所増加率 6mb/h144mb/d864mb/m5.184gb/hm
IoTデータとは024681012データ増加率iBeacon Industrial Internetgb
IoTデータとは従来のデータ解析仮説 検証サンプリング全量データ解析検証仮説生成解析検証最近のデータ解析
Cassandraの普遍性リニアにスケールするCassandra50ノードから300ノードへのスケーリングベンチマークテスト
Cassandraの普遍性IoT向けデータベースとしてのCassandraの特徴• 書込みに強い。• 書込み先が分散化されているので同時多数書込みに強い(秒間100万書込み等)• 結果整合性による柔軟な書込み精度を選択可能• 解析ツールとの親和性• 多彩なドライバ(ODBC、JDBC、PHP、Ruby、Perl等)• Apache Hadoop、Apache Spark、Presto等の多彩な解析ツールを利用可能• マルチベンダー• Windows、Linux、各種クラウド、JVMが稼働すれば使用する事が出来ます。Windowsでの採用実績もあります。
Sparkの力Cassandraは横断検索が苦手RowKeyベースのConsistent Hashingの為、連続したKeyが同じノードに存在するとは限らないので連続した領域のデータ取得はCassandra単体では苦手データ解析は総当たりの逐次処理
Sparkの力Sparkとは高速なデータ分析のための新たな手段Sparkの特徴 RDD(Resilient Distributed Dataset・弾性分散データセット) 不変(イミュータブル) 分割・分散配置 インメモリー 遅延評価 Hadoop連携 HDFS自動連携 YARN連携
Sparkの力システム構造CassandraSparkHadoopYARNRM、NNレンジ範囲内の逐次処理CassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARNCassandraSparkHadoopYARN
Sparkの力アプリケーションScala、Java(7,8)、Pythonでアプリケーションを作成可能。データ解析に適したLibraryを適時利用することにより迅速に業務アプリケーションを作成可能。
Sparkの力Sparkのライブラリ• Spark Streamingデータの逐次時系列処理• Spark SQL• SQLライクなQuery言語• GraphX• グラフとグラフ並列計算API• MLLib• 機械学習アルゴリズムAPI
Sparkの力• Spark Streamingデータの逐次時系列処理Spark Streaming with CassandraソーシャルストリームSparkStreaming CassandrastoreHello WorldHelloWorldHelloWorld※短時間のShortBatchを逐次実行可能。
Sparkの力• Spark SQLSQLライクなDSL言語Spark SQL with CassandraSpark SQL Cassandravar rdd = cc.sql("SELECT * from test2.words a jointest2.phrase b on a.word = b.phrase")
Sparkの力■インタラクティブspark-shellSpark向けScala用のインタラクティブシェル。Scalaでその場でロジックを実行可能SparkSQLも実行可能、インタラクティブなデータ問い合わせが可能。
Sparkの力• GraphXグラフとグラフ並列計算APIGraphX with CassandraGraphX CassandraCassandraソーシャルグラフ解析・テキスト解析など
Sparkの力• MLLib• 機械学習アルゴリズムAPIMLLib with CassandraData typesBasic statisticssummary statisticscorrelationsstratified samplinghypothesis testingrandom data generationClassification and regressionlinear models (SVMs, logistic regression, linear regression)naive Bayesdecision treesensembles of trees (Random Forests and Gradient-Boosted Trees)isotonic regressionCollaborative filteringalternating least squares (ALS)Clusteringk-meansGaussian mixturepower iteration clustering (PIC)latent Dirichlet allocation (LDA)streaming k-meansDimensionality reductionsingular value decomposition (SVD)principal component analysis (PCA)Feature extraction and transformationFrequent pattern miningFP-growthOptimization (developer)stochastic gradient descentlimited-memory BFGS (L-BFGS)最新ではアルゴリズムの数が格段に増えました。大量にためる→機械学習この組合せに最適Tweet 3000万件のClusteringなど
Sparkの力CassandraSparkHadoopYARN実際のシステム構成fluentdCassandraSparkHadoopYARNCassandraSparkHadoopYARNSpark + CassandraクラスターCassandraSparkHadoopYARNSparkJobServerWebServerBatchServer
まとめ• IoTデータは爆発しやすい• Cassandraは大規模データの管理に親和性がある• Cassandraはデータストレージなので機能そのものはさほど多くない• SparkはCassandraの足りないところを上手に補ってくれる。

Recommended

PDF
SparkとCassandraの美味しい関係
PDF
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
PDF
Apache Sparkの紹介
PPT
Webアプリケーションから見たCassandra
by2t3
 
PPT
インフラエンジニアのためのcassandra入門
PPTX
Cassandra3.0
PPTX
Pythonで入門するApache Spark at PyCon2016
PPT
Cassandra(no sql)によるシステム提案と開発
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PDF
Datastax Enterpriseをはじめよう
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PPTX
Apache Sparkを使った感情極性分析
PDF
Spark徹底入門 #cwt2015
PPTX
Pysparkで始めるデータ分析
PDF
Hadoop 基礎
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PDF
(LT)Spark and Cassandra
PPTX
Cassandra Meetup Tokyo, 2016 Spring
PDF
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
PPTX
Bluemixを使ったTwitter分析
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPT
はやわかりHadoop
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
PPTX
Apache sparkとapache cassandraで行うテキスト解析
PPTX
事例で学ぶApache Cassandra

More Related Content

PDF
SparkとCassandraの美味しい関係
PDF
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
PDF
Apache Sparkの紹介
PPT
Webアプリケーションから見たCassandra
by2t3
 
PPT
インフラエンジニアのためのcassandra入門
PPTX
Cassandra3.0
PPTX
Pythonで入門するApache Spark at PyCon2016
PPT
Cassandra(no sql)によるシステム提案と開発
SparkとCassandraの美味しい関係
DB Tech showcase Tokyo 2015 Works Applications
by2t3
 
Apache Sparkの紹介
Webアプリケーションから見たCassandra
by2t3
 
インフラエンジニアのためのcassandra入門
Cassandra3.0
Pythonで入門するApache Spark at PyCon2016
Cassandra(no sql)によるシステム提案と開発

What's hot

PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PDF
Datastax Enterpriseをはじめよう
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PPTX
Apache Sparkを使った感情極性分析
PDF
Spark徹底入門 #cwt2015
PPTX
Pysparkで始めるデータ分析
PDF
Hadoop 基礎
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PDF
(LT)Spark and Cassandra
PPTX
Cassandra Meetup Tokyo, 2016 Spring
PDF
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
PPTX
Bluemixを使ったTwitter分析
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPT
はやわかりHadoop
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
RDB開発者のためのApache Cassandra データモデリング入門
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark の紹介(前半:Sparkのキホン)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Datastax Enterpriseをはじめよう
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Apache Sparkを使った感情極性分析
Spark徹底入門 #cwt2015
Pysparkで始めるデータ分析
Hadoop 基礎
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
(LT)Spark and Cassandra
Cassandra Meetup Tokyo, 2016 Spring
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Bluemixを使ったTwitter分析
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
はやわかりHadoop
HBaseとSparkでセンサーデータを有効活用 #hbasejp
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

Viewers also liked

PPTX
Apache sparkとapache cassandraで行うテキスト解析
PPTX
事例で学ぶApache Cassandra
PDF
RDBからの脱却: 新ERP"HUE"におけるCassandra
by2t3
 
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PPTX
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
PDF
Apache Cassandra Multi-Datacenter Essentials (Julien Anguenot, iLand Internet...
Apache sparkとapache cassandraで行うテキスト解析
事例で学ぶApache Cassandra
RDBからの脱却: 新ERP"HUE"におけるCassandra
by2t3
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Apache Cassandra Multi-Datacenter Essentials (Julien Anguenot, iLand Internet...

Similar to Apache cassandraと apache sparkで作るデータ解析プラットフォーム

PPTX
Apache Cassandra 入門編
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
PDF
OSSとクラウドによるコンピューティングモデルの変化
PDF
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
PPTX
Apache cassandra 最前線
PDF
Yifeng spark-final-public
PDF
Cassandraとは -Cassandra Summit Tokyo 2017-
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
Cassandra Meetup Tokyo, 2016 Spring
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
PDF
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
PPTX
2016/4/16 Softlayer Bluemix Community Festa 2016講演資料
PPTX
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
PPT
Quick Overview of Upcoming Spark 3.0 + α
Apache Cassandra 入門編
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
OSSとクラウドによるコンピューティングモデルの変化
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
Apache cassandra 最前線
Yifeng spark-final-public
Cassandraとは -Cassandra Summit Tokyo 2017-
db tech showcase2019 オープニングセッション @ 石川 雅也
Cassandra Meetup Tokyo, 2016 Spring
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
2016/4/16 Softlayer Bluemix Community Festa 2016講演資料
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
Quick Overview of Upcoming Spark 3.0 + α

More from Kazutaka Tomita

PPTX
Cassandra compaction
PPTX
Cassandraのバックアップと運用を考える
PDF
Cassandra12to20
PPT
Cassandra0.7
PPTX
The rethinkingofrepair
PPTX
米国の事例で学ぶCassandra
PDF
Cassandra2017
PPTX
Apache cassandra nio
PPTX
Consistency level
PPTX
Gossip事始め
PPTX
What is row level isolation on cassandra
Cassandra compaction
Cassandraのバックアップと運用を考える
Cassandra12to20
Cassandra0.7
The rethinkingofrepair
米国の事例で学ぶCassandra
Cassandra2017
Apache cassandra nio
Consistency level
Gossip事始め
What is row level isolation on cassandra

Apache cassandraと apache sparkで作るデータ解析プラットフォーム


[8]ページ先頭

©2009-2025 Movatter.jp