The growth of data on the web has madeit harder toemploy manymachine learning algorithms on the full data sets. For personalization problems in particular, where data sampling is often not an option, innovating on distributed algorithm design isnecessary to allow us to scale to these constantly growing data sets. Collaborative filtering (CF) is one of the important areas where this applies. CF


本記事は、Spark,SQL on Hadoopetc. Advent Calendar 2014の8日目の記事だったはずの原稿です。 Movielensデータセットを使って、HivemallにおけるMatrix Factorizationの実行方法を解説します。 はじめに 以前、Hadoop Conference 2014で発表させて頂いたときに聴衆の方にアンケートをとったところレコメンデーションの需要が(クラス分類か回帰分析と比べて)非常に高いという傾向がありました。Hivemallのv0.3以前もminhashやk近傍法を用いたレコメンデーション機能をサポートしておりましたが、v0.3からはMatrix Factorizationもサポート致しました。本記事では、HivemallにおけるMatrix Factorizationを用いた評価値の予測方法を紹介します。 Matrix

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く