Movatterモバイル変換


[0]ホーム

URL:


Kazutaka Tomita, profile picture
Uploaded byKazutaka Tomita
PPTX, PDF1,077 views

Apache sparkとapache cassandraで行うテキスト解析

Cassandra Summit Tokyo 2017

Embed presentation

Download to read offline
Apache SparkとApache Cassandraで行うテキスト解析株式会社 INTHEFOERST 冨田 和孝
自己紹介冨田 和孝肩書き: 株式会社INTHEFOREST 代表取締役社長CassandraコンサルティングCassandra Conference in Tokyo / Cassandra Summit JPNOrganizerCassandra勉強会主宰2か月に一度程度開催。第38回まで開催しています。職種:DB・インフラ屋以前、某レストランサーチのDBA高負荷・大容量・大規模のOracleRACとPostgreSQLとMySQLに苦しめられ続けた経験あり。元々は社会言語学(日本語)専攻(言語認知)
自己紹介Tim BerglundGlobal Director of TrainingCOMPLETEDHAS COMPLETEDKazutaka Tomitaas a part of the:DataStax Certificat ion Pr ogram.Apache CassandraTMProfessional Certifica t ionSEPTEMBER82016Tim BerglundGlobal Director of Training
Agenda 自然言語解析とは 日本語の特徴 Apache Spark ML + Apache Cassandra
自然言語解析とは自然言語とは人間がお互いにコミュニケーションを行うための自然発生的な言語を指します。自然言語処理とは、人間が日常的に使っている自然言語をコンピューターに処理させる為の一連の技術です。
自然言語解析とは ネガポジ判定等(回帰分析) ラベリング(クラス分類) 傾向分析(クラスタリング)
ネガポジ判定等(回帰分析) 特定の単語をポジティブ(プラス値)、ネガティブ(マイナス値)に設定し、その単語を持つ文章のポジションを計算し、ある一定の閾値の上下に座標が配置されることにより文章としてのネガティブポジティブを判定嬉しい: +1笑顔:+1泣く:0怒った:0
ラベリング(クラス分類) どのようにラベル付けするかのデータを用意し、入力された文章がどのラベルの文章に近いか判断しラベルの付けを行う今日の朝は寒かった:「天気」私は元気です。:「あいさつ」おはよう。:「あいさつ」明日の午後3時に会いましょう:「約束」
傾向分析(クラスタリング) 文章に含まれる要語を基準に似た要語を含む文章を集約し含まれる用語の特徴などから傾向を分析する昨日楽しいお話をした。合コンをしたい。女子会の予定は明日です。こ汚いおっさんが隣に座って辛い。さえない日々を送ってる。徹夜明けでラーメンを食べに行こう。尾行をしていたら凄い場面に出会った。拳銃の取引の現場を抑えた。
日本語の特徴日本語のように単語間に空白文字が無い言語の場合、単語と単語の区切りを判定し、文字を分割する特別な前処理が必要となる。この処理を「形態素解析」という。私 は 朝 ご飯 を 食べ た。形態素を座標点に文章のベクトル化を行うのが一般的
日本語の特徴助詞・助動詞によって、文章の意味が異なってしまう。以下の三つの文章を比較した場合私は朝ご飯を食べた。私は朝ご飯を食べない。私は朝ご飯を食べなかった。
日本語の特徴形態素で切り分けた場合、、助詞・助動詞の中でも膨大な数の言葉が存在し、座標点が多くなりすぎる。私 は ご飯 を 食べ た 。私 は ご飯 を 食べ なかっ た 。私はご飯を食べた。私はご飯を食べなかった。
日本語の特徴私は ご飯を 食べた。私はご飯を食べた。私 は ご飯 を 食べ た。私は ご飯を 食べなかった。私はご飯を食べなかった。私 は ご飯 を 食べ なかっ た。一歩進めて文節を座標にしてみた。
Sparkとは 2009年のUC Berkeleyでの研究プロジェクト 高速かつ汎用のクラスタコンピューティングシステム API:Scala、Java、Python、およびR 200社以上の企業の1,000人以上の開発者が開発
Cassandraとは オープンソース 単一障害点(SPOF)がない リニアなスケーラビリティ性能 すべてがアクティブな設計 透過的にエラーを検出、回復 マルチデータセンター レプリケーション CQL (Cassandra Query Language)Amazon Dynamoの分散ハッシュテーブル(DHT)とGoogle Big TableのKVSの2つの特徴を併せ持つビッグデータ用分散データベース
SparkとCassandraSpark ClusterCassandra ClusterDriverExecutortaskslottasktasktaskslotExecutortaskslottasktasktaskslotExecutortaskslottasktasktaskslotNode Node NodeSparkでは,タスクの割り当ての際にデータアクセスの局所性(ローカリティ)が考慮される
機械学習実行方法Fulldatasetトレーニングデータテストデータfeatures ラベルモデル精度 予測新規入力
機械学習実行方法私は ご飯を 食べた私はお肉を食べた食べなかった私は ご飯を 食べなかったS1:S2:あなたは お肉を 食べなかったS3:座標点:P1:P4:P3:P5あなたは :P2ご飯を:P6座標S1:{P1,P3,P5}S2:{P1,P3,P6}S3:{P2,P4,P6}
言語解析と機械学習 ロジスティック回帰 二項分類 ロジスティック関数 ナイーブベイズ分類器 多項分類 ベイズの定理 ゼロ頻度問題
ロジスティック回帰ロジスティック関数2値ロジスティック回帰ある前提に対応する状態を特定など「ポジティブ=1」と「ネガティブ=0」xの値が大きくなると値が1に近づく(分母が1に近づくので)xの値が小さくなると値が0に近づく(分母が∞に近づくので)xが0の時に値は1/2になる。
ナイーブベイズ分類器ベイズの定理ある事象Bが起こる条件下で、別の事象Aが起こる確率のこと。ゼロ頻度問題ある単語の生起する確率を、学習データに利用したコーパス全体の中でその単語が出現した相対頻度によって推定すると、学習データ中に出現しなかった単語(組)の出現確率が0になってしまう問題のことである。
テキストビジュアライゼーション類型分類したラベル毎に強い言葉を抽出ワードクラウド
まとめ 自然言語解析 ネガポジ判定等(回帰分析) ラベリング(クラス分類) 傾向分析(クラスタリング) Spark と Cassandra 機械学習 データビジュアライゼーション

Recommended

PPTX
Spark GraphX で始めるグラフ解析
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
PDF
pg_bigmを触り始めた人に伝えたいこと
PDF
20160127三木会 RDB経験者のためのspark
PDF
20151205 Japan.R SparkRとParquet
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
PPTX
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
PDF
Sparkのクエリ処理系と周辺の話題
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
PDF
Apache Sparkの紹介
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
PDF
最新版Hadoopクラスタを運用して得られたもの
PDF
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PDF
Apache Hadoopの現在と未来
PDF
NetflixにおけるPresto/Spark活用事例
PDF
pg_bigmと類似度検索
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PPTX
Big datauniversity
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PPTX
Bluemixを使ったTwitter分析
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
PDF
Spark Summit 2015 参加報告
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PPTX
Tokyo r45 beginner_2
PPTX
Pigのインストール
PDF
PostgreSQLレプリケーション(pgcon17j_t4)
PDF
PGroonga 2 - PostgreSQLでの全文検索の決定版

More Related Content

PPTX
Spark GraphX で始めるグラフ解析
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
PDF
pg_bigmを触り始めた人に伝えたいこと
PDF
20160127三木会 RDB経験者のためのspark
PDF
20151205 Japan.R SparkRとParquet
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
PPTX
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
PDF
Sparkのクエリ処理系と周辺の話題
Spark GraphX で始めるグラフ解析
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
pg_bigmを触り始めた人に伝えたいこと
20160127三木会 RDB経験者のためのspark
20151205 Japan.R SparkRとParquet
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Sparkのクエリ処理系と周辺の話題

What's hot

PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
PDF
Apache Sparkの紹介
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
PDF
最新版Hadoopクラスタを運用して得られたもの
PDF
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PDF
Apache Hadoopの現在と未来
PDF
NetflixにおけるPresto/Spark活用事例
PDF
pg_bigmと類似度検索
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PPTX
Big datauniversity
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
PPTX
Bluemixを使ったTwitter分析
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
PDF
Spark Summit 2015 参加報告
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PPTX
Tokyo r45 beginner_2
PPTX
Pigのインストール
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache Sparkの紹介
Sparkを用いたビッグデータ解析 〜 前編 〜
最新版Hadoopクラスタを運用して得られたもの
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
Apache Hadoopの現在と未来
NetflixにおけるPresto/Spark活用事例
pg_bigmと類似度検索
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
Big datauniversity
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Bluemixを使ったTwitter分析
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Summit 2015 参加報告
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
HBaseとSparkでセンサーデータを有効活用 #hbasejp
Tokyo r45 beginner_2
Pigのインストール

Viewers also liked

PDF
PostgreSQLレプリケーション(pgcon17j_t4)
PDF
PGroonga 2 - PostgreSQLでの全文検索の決定版
PDF
PHP Version Up と AWS への移行
PDF
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
PDF
片手間MySQLチューニング戦略
PPTX
Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化
PDF
著名PHPアプリの脆弱性に学ぶセキュアコーディングの原則
PDF
ネットワーク自動化ツール紹介(Ansible・NAPALM編)
PDF
モバイルするハニーポット無線LANアクセスポイント
PDF
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
PDF
Docker最新動向2017秋+セキュリティの落とし穴
PostgreSQLレプリケーション(pgcon17j_t4)
PGroonga 2 - PostgreSQLでの全文検索の決定版
PHP Version Up と AWS への移行
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
片手間MySQLチューニング戦略
Zabbixによるオートスケーリングクラスタ監視とオペレーション自動化
著名PHPアプリの脆弱性に学ぶセキュアコーディングの原則
ネットワーク自動化ツール紹介(Ansible・NAPALM編)
モバイルするハニーポット無線LANアクセスポイント
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
Docker最新動向2017秋+セキュリティの落とし穴

More from Kazutaka Tomita

PPTX
Apache Cassandra 入門編
PPTX
Cassandra compaction
PPTX
Cassandraのバックアップと運用を考える
PDF
Cassandra12to20
PDF
Cassandra2017
PPTX
米国の事例で学ぶCassandra
PPTX
Cassandra3.0
PPTX
Apache cassandra 最前線
PPTX
The rethinkingofrepair
PPTX
Apache cassandra nio
PPT
Cassandra0.7
PPTX
Consistency level
PPTX
Gossip事始め
PPTX
What is row level isolation on cassandra
Apache Cassandra 入門編
Cassandra compaction
Cassandraのバックアップと運用を考える
Cassandra12to20
Cassandra2017
米国の事例で学ぶCassandra
Cassandra3.0
Apache cassandra 最前線
The rethinkingofrepair
Apache cassandra nio
Cassandra0.7
Consistency level
Gossip事始め
What is row level isolation on cassandra

Apache sparkとapache cassandraで行うテキスト解析

Editor's Notes

  • #17 クラスターが 複数のエグゼキューター(-num-executors) とそれらが持つ 複数個のコア(-executor-cores)と、それぞれのタスクのための複数個のCPU(spark.task.cpus) とするとクラスターの実行されるスロットの数は E * C / T になります。

[8]ページ先頭

©2009-2025 Movatter.jp