これはなに? デジタルマーケター 兼 プロダクトマネージャー 兼 データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。 自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。 目次 プロローグ Kaggleへの興味の芽生え 初参戦 → 即撤退 ガチ参戦に向けた修行 初ガチコンペデビュー 初ガチコンペ…、のはずが。 初ガチコンペ参戦 ベースモデル作成 特徴量エンジニアリング

今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。github.com アルゴリズムの概要Pythonでの例 可視化のためのパッケージ読み込み サンプルデータの生成 可視化 K近傍を用いた特徴量抽出 可視化 iris での例 追記20180624 実装の修正はてなホットエントリ入り アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。 とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とする とあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の

2018/5/9(水)に表題のイベントに参加してきました。 kaggle関連の催しは初めてなのでワクワク。 お話を聞きながらタイピングしてそのまま載せているので、多少間違っているところがあるかもしれません。あらかじめご容赦下さい。 メルカリコンペの趣旨海外から入賞者を招き、同時通訳を用意するなどしてイベントのために1000万かけた。 日本人のkaggler少ないな、もっと活性化したい! という想いで、ハウツーを共有するためにイベントを開催した。 第一部 1位のお二人 3つの異なるデータセット データセットにつき4つのモデル いくつか使った方が品質が上がる スコアを高くするためにも色々な施策を試した Sparseのデータセットを使って、4モデルを同時に学習させた テキストの結合をさせることが大事だった 宣言型と命令型の前処理をした とても複雑なコードを使ったので理解しづらくなっている 前処

週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

Kaggle Competition: How I Ranked in theTop 15 with My First Attempt Kaggle competitions are a fantastic way to learn data science andbuild your portfolio. I personally used Kaggle to learn many data science concepts. I started out with Kaggle a few months after learning basicPythonprogramming, and later won several competitions. Doing well in a Kaggle competition requires more thanjust knowin

Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneuralnetのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf.Rossmann) 特徴量はN * M(N:ID, M:要素数)の数
Model ensembling is a very powerfultechnique to increase accuracy on a variety of ML tasks. In this article I will share my ensembling approaches for Kaggle Competitions. For the first part we look atcreating ensembles from submission files. The second part will look atcreating ensembles through stacked generalization/blending. I answer why ensembling reduces the generalizationerror. Finally I
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く