Netflixにおける推薦システム

機械学習技術確率的生成モデルサポートベクトルマシンスパースモデリング人工知能技術デジタルトランスフォーメーション技術一般的な機械学習とデータ分析 Clojure 推薦技術本ブログのナビ

Netflixの推薦システム

Netflixの推薦システムは、ユーザーの視聴履歴、評価、検索履歴、閲覧時間、およびお気に入りリストなどの情報を基にして、そのユーザーにとって最適なコンテンツを提案することを目的としたものとなる。このシステムは、機械学習とアルゴリズムの組み合わせを使用している。

具体的には、過去の視聴履歴をもとに、そのユーザーが好きなジャンル、俳優、監督などを特定し、同様の要素を含むコンテンツを提案し、また、そのユーザーが選んだ作品を評価することで、そのユーザーが好む傾向に合わせたコンテンツを提供するためのデータを収集することができるものとなっている。

さらに、Netflixは、他の類似サービスにおける単純なカテゴリー分類にとどまらず、より精巧なアルゴリズムを使用して、コンテンツを分析しており、たとえば、音楽、色、撮影方法などのさまざまな要素を分析して、そのユーザーに最適な映像体験を提供することを可能としている。

Netflixの推薦アルゴリズムの進化の歴史

初期のNetflixのレコメンドシステムは、映画のジャンルや俳優、公開年などの入手可能なデータを使ういわゆるコンテンツベースのレコメンドであったが、ジャンルや出演俳優が似ていても、視聴するユーザー層が全く違うということが多々あり、あまり納得感がいくレコメンドになっていなかった。

そこで次に、Amazonが採用していた協調フィルタリングという手法を使って、レコメンドエンジンを作った。Amazonでは共通の購買行動をもとに、この商品を買った人はこの商品も買っていますというおすすめを出しているものとなる。

この手法をNetflixに適用すると、２つの作品を観たからといって、その２つが好きであったかは分からず、仮に、片方の作品は好きだけど、もう片方はイマイチだった場合に、単純にレンタル履歴のデータだけを使ってレコメンドエンジンを作ると、片方の作品を観た人には、もう片方の作品がおすすめされてしまうという問題点が出てきた。

そこで、ユーザーに映画を星で５段階評価してもらい、そのデータをもとにレコメンドエンジンを作るものとした。

そして、2000年に「CineMatch(シネマッチ)」というレコメンドエンジンが完成し、ユーザーのレンタル履歴やお気に入り作品から、その人が気に入りそうで、かつ、在庫にある映画を薦めてくれるレコメンドエンジンになった。

2006年には、Netflixのユーザー数が400万人を超え、ユーザーの増加に伴い、レビューも増えていき、レコメンドエンジンの性能も向上していった。Netflixユーザーの予約リストに入っている映画のうち実に70%がシネマッチによる推薦作品となる。

CINEMATCHについて

CINEMATCHは、協調フィルタリング（Collaborative Filtering）アルゴリズムをベースにした推薦システムとなり、以下のようなアルゴリズムで動作している。

ユーザーベースの協調フィルタリング：CINEMATCHは、類似した嗜好を持つユーザーをグループ化し、グループ内で高い評価を得たコンテンツを推薦する方法を用いている。具体的には、ユーザーが評価したコンテンツの評価値をもとに、そのユーザーと類似した嗜好を持つユーザーを検索し、そのユーザーが高く評価したコンテンツを、そのユーザーに推薦する。
アイテムベースの協調フィルタリング：CINEMATCHは、あるコンテンツを高く評価したユーザーが他にどのようなコンテンツを高く評価しているかを分析し、そのコンテンツと似たようなコンテンツを推薦する方法を用いている。具体的には、あるコンテンツを高く評価したユーザーがよく視聴するコンテンツを分析し、そのユーザーに関連するコンテンツを推薦している。
マトリックス分解（Matrix Factorization）：CINEMATCHは、ユーザーが評価したコンテンツの評価値を行列として表し、その行列を分解することで、ユーザーとコンテンツの特徴を抽出する方法を用いている。この特徴をもとに、類似した嗜好を持つユーザーとコンテンツを推薦することが可能となる。

以上のように、CINEMATCHは、複数のアルゴリズムを組み合わせることで、より高精度な推薦を実現しており、過去の評価データに加えて、ユーザーの視聴履歴、検索履歴、お気に入りリストなどのデータも分析することで、よりパーソナライズされた推薦も実現している。

Matrix Factorization

Netflixは推薦システムのコンテストであるNetflix Prizeを実施している。このコンテストは最終的に、世界186ヵ国から4万チーム以上が参加登録し、推薦システムの分野に大きな影響を与えたものとなっている。
Netflix Prizeでは、1億件にも及ぶ5つ星評価のデータが公開されたことで、さまざまな新しいレコメンド手法が産み出された。その中でも、優勝したAT&Tのチームが提案したMatrix Factorization(行列分解)と呼ばれる手法は、推薦システムの分野において、大きな変化点になったた。それ以降から現在に至るまで、行列分解をベースにした手法が数多く提案され、BigQueryやSparkなどでの推薦システムは、行列分解をベースにしている。

Matrix Factorization（マトリックス分解）は、推薦システムにおいて、ユーザーが評価したアイテム（映画、書籍、商品など）の評価値を行列として表現し、その行列を分解して、ユーザーとアイテムの特徴を抽出する手法となる。

具体的には、ユーザー数を行、アイテム数を列とした行列を考え、この行列の各要素には、ユーザーがアイテムに対して付けた評価値が入るものとなる。ただし、ユーザーが評価していないアイテムについては、評価値が不明となる。

この行列を分解することで、ユーザーとアイテムの特徴を抽出し、通常は、次元削減技術を用いて、元の行列を低次元の行列に分解する。これは例えば、2つの行列に分解する場合、一方はユーザーの特徴を表現する行列、もう一方はアイテムの特徴を表現する行列のようになる。この2つの行列を掛け合わせた結果が元の行列に近くなるように、特徴の数を調整しながら、行列を分解するものが基本的なアルゴリズムとなる。

分解された行列を用いることで、新たなユーザーやアイテムに対して、評価値を予測することができ、具体的には、ユーザーの特徴ベクトルとアイテムの特徴ベクトルを内積した結果が、評価値の予測値となる。また、この特徴ベクトルを用いて、類似度の計算なども行うことができる。

Matrix Factorizationを用いた推薦システムは、NetflixのCINEMATCHや、Amazonの商品推薦システムなどで採用されており、また、最近では、深層学習を用いたMatrix Factorizationも研究されて、より高度な推薦システムの開発が期待されたアルゴリズムとなっている。

深層学習を用いたMatrix Factorizationは、Matrix Factorizationの拡張手法であり、ニューラルネットワークを用いてより高度な特徴抽出を行う手法となる。従来のMatrix Factorizationと比較して、より柔軟で表現力の高いモデルを構築することができる。

深層学習を用いたMatrix Factorization

深層学習を用いたMatrix Factorizationは、通常のMatrix Factorizationと同様に、ユーザーとアイテムの特徴ベクトルを抽出するものとなる。しかし、その特徴ベクトルを抽出する際に、多層のニューラルネットワークを用いて特徴表現を学習している。通常のMatrix Factorizationでは、特徴ベクトルは線形結合で求められるが、深層学習を用いることで、非線形な特徴表現を学習することが可能となる。

深層学習を用いたMatrix Factorizationには、様々なモデルが存在している。代表的なものとしては、AutoRec、Neural Collaborative Filtering、DeepFMなどがある。

AutoRecは、自己符号化器（Autoencoder）を用いて、ユーザーとアイテムの特徴ベクトルを学習するもので、入力データを自己符号化し、再構成することで、入力データに含まれる重要な情報を抽出する手法となる。AutoRecでは、ユーザーが評価したアイテムのみを入力データとし、出力データを入力データと同じになるように、ユーザーの特徴ベクトルを学習している。

Neural Collaborative Filteringは、多層のニューラルネットワークを用いて、ユーザーとアイテムの特徴ベクトルを学習するもので、このモデルでは、通常のMatrix Factorizationと同様に、ユーザーとアイテムの特徴ベクトルを掛け合わせた結果を予測値としている。ただし、このモデルでは、特徴ベクトルの積のみでなく、特徴ベクトルの要素ごとの積も予測に用いられる。

DeepFMは、Factorization Machineに多層のニューラルネットワークを追加した手法となる。

実装例

Matrix Factorization基本的な考え方は、大きな行列を複数の小さな行列に分解し、そこから元の行列の近似を求める方法となる。以下に、Matrix FactorizationをPythonのnumpyライブラリを使って実装する簡単な例について述べる。

ここでは、ユーザーとアイテムの行列を分解し、潜在因子行列を学習して元の行列を近似する。

1. 必要なライブラリのインポート

import numpy as np

2. 行列の初期化: ユーザー×アイテム行列（例えば、ユーザーがアイテムに対して与えた評価値の行列）を例にする。欠損値（未評価）の部分はNaNとして処理する。

# 例: 5人のユーザーと4つのアイテム
R = np.array([[5, 3, np.nan, 1],
              [4, np.nan, np.nan, 1],
              [1, 1, np.nan, 5],
              [1, np.nan, np.nan, 4],
              [1, 0, np.nan, 4]])

# 行列のサイズ
num_users, num_items = R.shape

# 潜在因子の数（分解するランク）
K = 2

# ユーザーとアイテムの潜在因子行列の初期化
P = np.random.rand(num_users, K)  # ユーザーの潜在因子行列
Q = np.random.rand(num_items, K)  # アイテムの潜在因子行列

3. 行列分解の学習: ここでは、R の欠損値を無視し、行列の再構築を行うことで学習を行う。損失関数は平方誤差を使用し、勾配降下法で最適化する。

# 学習率と繰り返し回数
learning_rate = 0.01
iterations = 1000
lambda_reg = 0.02  # 正則化項

# 行列分解を行う
for iteration in range(iterations):
    for i in range(num_users):
        for j in range(num_items):
            if not np.isnan(R[i, j]):  # 欠損値でない場合のみ計算
                error_ij = R[i, j] - np.dot(P[i, :], Q[j, :].T)  # 誤差計算
                # 勾配降下法による更新
                for k in range(K):
                    P[i, k] += learning_rate * (2 * error_ij * Q[j, k] - lambda_reg * P[i, k])
                    Q[j, k] += learning_rate * (2 * error_ij * P[i, k] - lambda_reg * Q[j, k])

    # 途中で損失を表示（任意）
    if (iteration + 1) % 100 == 0:
        loss = 0
        for i in range(num_users):
            for j in range(num_items):
                if not np.isnan(R[i, j]):
                    loss += (R[i, j] - np.dot(P[i, :], Q[j, :].T)) ** 2
                    for k in range(K):
                        loss += (lambda_reg / 2) * (P[i, k] ** 2 + Q[j, k] ** 2)
        print(f"Iteration {iteration + 1}: loss = {loss}")

4. 行列の再構築: 学習後に、P と Q を掛け合わせることで、元の評価行列 R の近似を得ることができる。

/# 行列の近似
R_hat = np.dot(P, Q.T)

print("Reconstructed matrix:")
print(R_hat)

5. 結果: このコードを実行すると、R_hat は元の行列 R の近似行列になる。欠損値があった場所には予測された評価値が入ります。R_hat の値が実際の評価値に近づくように、P と Q が最適化される。

参考図書

Netflixの推薦システムに関連する参考書を以下に述べる。

1. “Recommender Systems: The Textbook”
– 著者: Charu Aggarwal
– 概要: この書籍は、推薦システムに関連する主要な技術とアルゴリズムを包括的に説明している。特に、協調フィルタリング、コンテンツベースの推薦、行列分解法（Matrix Factorization）、ディープラーニングを活用した推薦アルゴリズムなど、Netflixの推薦システムに関連する手法について深く掘り下げている。

2. “Mining of Massive Datasets”
– 著者: Jure Leskovec, Anand Rajaraman, Jeffrey Ullman
– 概要: 大規模データセットを用いた解析に特化した本で、Netflixのような大規模な推薦システムを構築する際に役立つ理論や技術が学べる。行列分解法やクラスタリング、最適化など、実用的なアルゴリズムを理解できる。

3. “Deep Learning for Recommender Systems”
– 著者: Alexandros Karatzoglou, Balázs Hidasi
– 概要: Netflixのような複雑な推薦システムにディープラーニングを適用する方法を扱った書籍。ディープラーニングを用いた推薦システムの設計や、ユーザーとアイテムの埋め込みを用いたアプローチに焦点を当てている。

4. “Recommender Systems Handbook”
– 編集: Francesco Ricci, Lior Rokach, Bracha Shapira
– 概要: このハンドブックは、推薦システムに関連する理論、技術、実装の詳細を広範に扱っている。特にNetflixのような実際の推薦システムの事例を紹介しながら、協調フィルタリングや行列分解の手法について深く掘り下げている。

5. “Collaborative Filtering: Recommender Systems”
– 概要: この書籍は、協調フィルタリング（Netflixの推薦システムのコア技術）のアルゴリズムに焦点を当てている。ユーザーとアイテムの間の関係を基にした推薦技術を中心に、個別の実装に役立つ理論と実用的なアプローチを提供している。

6. “Practical Recommender Systems”
– 著者: Kim Falk
– 概要: 実務で使える推薦システムの構築方法について書かれた本。推薦システムの設計から実装まで、実際のケーススタディと共に学ぶことができる。Netflixのような大規模なシステムを考慮した設計方法を学べる。

7. “Recommendation Systems: Challenges, Insights and Research Opportunities”
– 著者: Alberto Artuñedo, Juan José González, et al.
– 概要: この書籍では、推薦システムに関する現在の挑戦、理論的な洞察、そして将来の研究の方向性について詳しく解説しており、Netflixのようなシステムを効率的にスケールするための課題を扱っている。

Deux Ex Machina

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.