iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

この広告は、90日以上更新していないブログに表示しています。

2016-09-24

t-SNE の実装はどれを使うべきなのか？

scikit-learn の問題点

scikit-learn 信者としてはとりあえず scikit-learn の実装を使いたくなるが、scikit-learn の実装はおすすめできないらしい。

-https://www.red dit.com/r/MachineLearning/comments/47kf7w/scikitlearn_tsne_implementation/ （はてなブログはred ditのURLを貼るとbad requestになり投稿できない謎仕様）

Besides being slower, sklearn's t-SNE implementation isfine once you realize the default learning rate is way too high for most applications. The definitive bh_tsne implementation by the author sets the learning rate to 200, and the original 2008 paper describes setting it to 100, while sklearn is set to 1000.

遅い
デフォルト値の learning rate が大きすぎる

とのこと。それに加えて、自分の経験としては、Barnes Hut 木を指定してもメモリをもりもり確保して（即 Θ(n^2) のメモリを確保してる気がする）メモリ不足で死ぬ。だめ。

公式実装に基づくものたち

GitHub - lvdmaaten/bhtsne: Barnes-Hut t-SNE
- 公式実装。軽いPython ラッパーも入っている。プロセスを起動する感じ。バイナリの置き場所を考えないといけないので面倒。
GitHub - danielfrg/tsne: A python wrapper for Barnes-Hut tsne
- 公式実装を中に置いてる。reddit でおすすめされている。
- pip install tsne → エラーが起きてインストールできず。Issue を見るとPython 3 系では動かなそう。
GitHub - dominiek/python-bhtsne: Python module for Barnes-Hut implementation of t-SNE (Cython)
- 同じく公式実装を中に置いている。動きました。
- max_iter 等の一部のパラメータが設定できない……

自分の結論

$ pip install bhtsne

からの

import sklearn.baseimport bhtsneimport numpyas npclassBHTSNE(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):def__init__(self, dimensions=2, perplexity=30.0, theta=0.5, rand_seed=-1):        self.dimensions = dimensions        self.perplexity = perplexity        self.theta = theta        self.rand_seed = rand_seeddeffit_transform(self, x):return bhtsne.tsne(            x.astype(np.float64), dimensions=self.dimensions, perplexity=self.perplexity, theta=self.theta,            rand_seed=self.rand_seed)

« numpy の行列乗算：matmul, dot, @ バイナリ探偵をする時に使うコマンド »

リンク

検索

Movatterモバイル変換

scikit-learn の問題点

公式実装に基づくものたち

自分の結論