久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover WashingtonJr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース


リスト(Python標準)、ndarray(NumPy)、Series(Pandas)、DataFrame(Pandas)間での変換についてまとめる。 はじめに、前提として下記のインポート、データ定義等があるとする。 import numpy as np import pandas as pd _1dlist = [1, 2, 3] _2dlist = [[1, 2, 3], [4, 5, 6]] # NumPy _1darray = np.array([4, 5, 6]) _2darray = np.array([[1, 2, 3], [4, 5, 6]]) _3darray = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]], [[9, 10], [11, 12]], [[13, 14],[15, 16]]]) # Pandas _series

概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日本語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32


決定木とは 目的変数に属する確率を複数の説明変数の組み合わせで算出する方法。 イメージは以下で、Yes/Noなどの条件に属するかどうかで確率を算出する。 ランダムフォレストとは ランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。 決定木を複数集めて使うので、木が集まってフォレスト(森)として使う。 やってみる(sklearnでの決定木) データ用意 ランダムに作ったデータを用意する。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn %matplotlib inline from sklearn.datasets import make_blobs # ダミーデータの生成用 X, y = make_blobs(n_samples=5


academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?


1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く