なぜデータサイエンティストやデータエンジニアがPandasの代替としてScalaとSparkを使うことを考えるべきなのか、どのように使い始めるのか ソース: https://unsplash.com/photos/8IGKYypIZ9k PandasからScala + Sparkへの移行は思うほど大変なことではなく、結果としてお使いのコードが高速になり、おそらくより良いコードを書くことになるでしょう。 データエンジニアとしての私の経験を通じて、Pandasでデータパイプラインを構築すると、増加するメモリーの使用量についていくために定期的にリソースを増強することが多くの場合必要となることを知りました。さらに、予期しないデータ型やnullによって多くの実行時エラーに遭遇しました。代わりにScalaとSparkを用いることで、ソリューションはより堅牢なものとなり、リファクタリングや拡張が容易にな

2015年5月30日 前回まででRaspberry Pi 2単独でのApache Sparkの動作確認は完了したので、次はいよいよ2台のRaspberry Piを使った並列分散処理を試したいと思います。引き続き、以下のページを参考にさせていただきます。 Setting up a standalone Apache Spark cluster of Raspberry Pi 2 ここでは”standalone”と言われるクラスタモードで動作確認をします。クラスタモードについては、ここに記述があります。 Cluster Mode Overview “standalone”というのクラスタマネージャの一つで、Sparkにパッケージングされている、シンプルなクラスタマネージャのようです。クラスタマネージャは、リソースの割り当てを行うもの。クラスタマネージャとしては、他に”Apache Mesos”

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで

概要 例えば下記のようなJSONファイルを読み込み、任意のスキーマに修正した後でパースしたい。 調査したところあまり情報を見かけなかったため、記事にすることにした。 import org.apache.spark.sql.Row import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import com.fasterxml.jackson.databind.ObjectMapper import com.fasterxml.jackson.module.scala.DefaultScalaModule val df = spark.read.text("改行を含まない、かつ最上位が

概要 提供されたデータがSparkの対応する形式であれば、特に問題なく処理可能だ。 しかしzipで圧縮されていた場合はあらかじめ解凍しておくか、少し工夫する必要がある。 この記事ではzipに格納されたJSONファイルをzipのまま読み込み、データフレーム化する方法を紹介する。 前提条件 ファイルのエンコードがUTF-8であることzipファイルに格納されたJSONファイルのスキーマが全て同一であること ※今回使用したzipファイル target ├── foo.zip │ ├── test1.json │ └── test2.json └── bar.zip ├── test1.json └── test2.json importjava.io._ importjava.nio._ importjava.util.zip.ZipEntry importjava.util.z

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く