こんにちわ、7月に入社したばかりの@emorinsです。 題名の通りですが分散データベース『Apache Cassandra』を紹介したいと思います。 少し前はHadoop(とHBase)と比較されることの多かったCassandraですが、最近はHadoopの人気に押されつつあるようにも感じます。 しかし、CassandraとHadoopは特徴が異なり、よく言われるのがCassandraはリアルタイム処理に向き、一貫性のかわりに可用性を重視し、またHadoopとは違って単一障害点もありません。 今日はそんなHadoopとは違った魅力のある分散データベース『Apache Cassandra』をはじめてみましょう。 目次 Cassandraとは アーキテクチャ Cassandraの特徴 コンシステンシレベル データモデル MemtableとSSTable セットアップ storage-conf
https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theaterTwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景 4億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。 ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet (「Hadoop用のカラムナストレージフォー
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く