性能計測してみました どんなデータを使って計測したか 以下のようにJupiterNotebookを使ってサンプルコードを作成しています。 データのバリエージョンは、 カーディナリティの低い数値 カーディナリティの低い文字列 ランダムな数字 ランダムな文字列 ソートされた数字 ソートされた文字列 実際に動かし読み書きにかかった時間を集計して、読み取りのパフォーマンスを計測しています。 圧縮について計測 Parquetでは透過的に様々な圧縮アルゴリズムが利用可能 現時点の0.9では snappy, gzip, brotli にて検証しました 今後、0.10では lz4, zstd をサポートしそう データの量やデータの性質によって、圧縮率と読み書きの速度はどう変わるか?(対CSVで計測) 計測環境はMacBook 2017(メモリ16GB、SSD)、Python3.5 スワップが生じない範囲で

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く