トピックモデルの理論と実装

機械学習:Machine Learning

2025.04.23 2021.12.17

機械学習技術自然言語技術人工知能技術デジタルトランスフォーメーション技術マルコフ連鎖モンテカルロ法深層学習技術確率生成モデル本ブログのナビ

トピックモデルの理論と実装

概要

トピックモデルとは、文書集合から潜在的なトピックを抽出し、文書の内容を理解するための確率的生成モデルとなる。トピックモデルを使うことである文書において、どのようなトピックが扱われているかを推定することができ、大規模なテキストデータ解析に適用すると、例えば大量のニュース記事やブログ記事などから、どのような話題が取り上げられているか、どのような傾向があるかを把握することができる。

このトピックモデルベースとなるモデルは”ユニグラムモデル“や”混合ユニグラムモデル“となる。これが拡張されて”Latent Dirichlet Allocation (LDA)“や”Probabilistic Latent Semantic Analysis (PLSA)”、また無次元への拡張として、”中華料理店過程(Chinese Restarant Process:CRP)“や”棒折過程(Stick Breaking Process:SBP)“、”階層ディリクレ過程(Hierarchical Direchlet Process:HDP)“等になる。

これらのモデルのアルゴリズムは”確率生成モデルについて“で述べている確率分布をベースとした機械学習モデルにより構築されている。

またトピックモデルは、テキスト分析だけでなく、音楽や画像、動画、バイオインフォマティクスなど多様な分野に応用される。

トピックモデルを用いることで以下のような応用に用いることができる、

ニュース記事の分析: ニュース記事のテキストデータをトピックモデルにかけることで、どのような話題が取り上げられているかを把握することができる。例えば、特定の時期にどのようなトピックが多かったのか、どのような政治家や企業が取り上げられたのかを分析することができまる。
ソーシャルメディアの分析: TwitterやFacebookなどのソーシャルメディアの投稿データをトピックモデルにかけることで、どのような話題が人気があるか、どのような感情表現が多いかを把握することができる。また、トピックモデルを用いて、特定のキーワードに関連する投稿を抽出することもできる。
レコメンデーション: トピックモデルを用いて、ユーザーが興味を持つトピックを推定することで、商品やコンテンツのレコメンデーションを行うことができる。例えば、ユーザーが読んだ本の内容から、どのようなジャンルの本に興味があるかを推定して、レコメンデーションを行うことができる。
画像分類: トピックモデルを用いて、画像の特徴量から潜在的なトピックを抽出し、画像を分類することができる。例えば、顔画像から潜在的な特徴を抽出し、顔の表情を分類することができる。
音楽ジャンル分類: トピックモデルを用いて、音楽の波形から潜在的なトピックを抽出し、音楽のジャンル分類を行うことができる。例えば、曲のリズムパターンや音の高低から、どのようなジャンルの曲であるかを分類することができる。

本ブログではこのトピックモデルに対して以下に詳細を述べている。

実装

トピックモデルの概要と様々な実装

トピックモデルの概要と様々な実装。トピックモデルは、大量のテキストデータからトピック(テーマやカテゴリ)を自動的に抽出するための統計的モデルとなる。ここでのテキストデータの例としては、ニュース記事、ブログ記事、ツイート、顧客レビューなどがある。トピックモデルは、データ内の単語の出現パターンを分析し、トピックの存在と各単語のトピックへの関連性を推定する原理となる。

ここではこのトピックモデルの概要と、主にpythonのライブラリを利用した様々な実装(ドキュメントからのトピックの抽出、ソーシャルメディアの分析、レコメンデーション、画像情報のトピック抽出、音楽情報からのトピックの抽出)について述べている。

ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について

ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について。ディリクレ過程(Dirichlet Process, DP)は、無限次元の確率分布を扱うための強力な道具で、ベイズ非パラメトリックモデルの中心的な役割を果たしており、クラスタリングやトピックモデリングなどに応用されるものとなる。

階層的ディリクレ過程 (HDP)の概要とアルゴリズム及び実装例

階層的ディリクレ過程 (HDP)の概要とアルゴリズム及び実装例。階層的ディリクレ過程 (Hierarchical Dirichlet Process, HDP) は、無限混合モデルを扱うためのベイズ非パラメトリック手法の一つであり、特に、複数のグループにまたがるデータに共通のクラスタを持たせつつ、各グループに独自のクラスタ構造を許容する際に使用されるものとなる。

中国料理店過程 (Chinese Restaurant Process)の概要とアルゴリズム及び実装例

中国料理店過程 (Chinese Restaurant Process)の概要とアルゴリズム及び実装例。中国料理店過程 (Chinese Restaurant Process, CRP) とは、”ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について“でも述べているディリクレ過程 (Dirichlet Process, DP) を直感的に説明するために用いられる確率モデルとなる。特にクラスタリング問題に頻繁に使われている。

棒切り分割プロセス(Stick-breaking Process)の概要とアルゴリズム及び実装例

棒切り分割プロセス(Stick-breaking Process)の概要とアルゴリズム及び実装例。棒切り分割プロセス (Stick-breaking Process) は、”ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について“でも述べているディリクレ過程 (Dirichlet Process, DP) を直感的に理解するための代表的な手法で、長さ1の棒を無限に繰り返しランダムに分割して、無限次元の確率分布を生成するアプローチとなる。これは、ディリクレ過程の離散的な確率測度を構成するための視覚的かつ数学的に美しい方法となっている。

変分ベイズ学習の概要と各種実装

変分ベイズ学習の概要と各種実装。変分法(Variational Methods)は、関数や確率分布の中で最適解を求めるために用いられ、機械学習や統計学などで広く使われる最適化手法の一つであり、特に、確率的生成モデルや変分自己符号化器(Variational Autoencoder, VAE)などの機械学習モデルにおいて重要な役割を果たしている手法となる。

変分ベイズ学習(Variational Bayesian Inference)は、ベイズ統計学における確率的モデリングの手法の一つであり、事後分布を解析的に求めることが難しい場合や計算コストが高い場合に利用されるものとなる。

ここでは、この変分ベイズ学習の様々なアルゴリズムの概要と、トピックモデル、ベイズ回帰、混合モデル、ベイズニューラルネットワークでのpythonの実装について述べている。

理論

生きた言葉をモデル化する自然言語の確率的モデリング(トピックモデルとWord2Vec)

生きた言葉をモデル化する自然言語の確率的モデリング(トピックモデルとWord2Vec) 。言葉を扱う学問は古典的には言語学であり、そこでは言語学者の経験と主観によって生み出された仮説を積み重ね、また反例を挙げて新説を生み出すことで研究が蓄積されきた。これに対し、言語を統計的に考える分野は統計言語学、または工学的な立場からは自然言語処理と呼ばれており、最近の電子テキストの増大とその処理の必要性によって、急速に研究が進んでいる分野となる。この分野は言語学の一部とも言えるが、純粋に客観的なデータから、統計的・数学的なモデル化と大規模な実験的検証を行う点が従来の言語学とは異なっている。言語を統計的に捉えることで、仏雑で膨大な言語現象を計算機で自動的にモデル化できると共に、規則ではとらえきれない曖昧性や例外、文脈構造を数学的に扱うことが可能となる。

ことばのモデル入門 (確率的なユニグラムモデルとベイズ推定)

ことばのモデル入門 (確率的なユニグラムモデルとベイズ推定)。言語処理の多くの分野では言語モデルというものが登場し、これが言語を処理する要諦になっている。この「言語モデル」とは教科書的な表現では「文字x∈Σの列からなる集合Σ*の部分集合Lを言語という」というような数学的な表現から始まるものがある。もう少し具体的なイメージでいうと、言語モデルとはことばを話すすべての人の中にあり、それを無意識に使い続けているような身近なものでもある。

階層的なトピックモデル

階層的なトピックモデル。客観的に見ると、言語とは記号列だと考えることができる。細かく見るとそれは文字からなっているが、ここでは英語の様に、言葉は単語からなっているとして話を進める。

言語の単語列を見てすぐにきづくことは、単語の頻度には大きな偏りがあるというものになる。ここで、単語の順位と頻度が反比例関係にあることはZipfの法則といわれ、1930年台に発見された基本的事実の一つとなる。これは近年では言語を超えて、自然界の多くの離散的現象に共通する冪乗法則として知られる様になっている。

この様な不確定性を表現するには、p自体の場所についての確率分布が必要になる。その最も簡単なものとして以下の式の様なディリクレ分布がある。

気づきと人工知能技術

気づきと人工知能技術。「気づく」とは、何かを注意深く観察したり、認識したりすることを指し、また、人が状況や物事に対して気付くということは、その人がある情報や現象を認識し、それに関する気持ちや理解を持つことを意味する。気づくことは、外界の変化や出来事に注意を払うことによって、新たな情報を得たり、理解を深めたりする重要な過程となる。今回は、この気づきとそれらに対する人工知能技術の適用について述べてみたいと思う。

機械学習プロフェッショナルシリーズトピックモデル読書メモ

機械学習プロフェッショナルシリーズトピックモデル読書メモ。

ユニグラムモデル

ユニグラムモデル。トピックモデルは、文書のための確率モデルとなる。確率モデルの考え方を理解するために、ここでは最も単純な文書のための確率モデルであるユニグラムモデルについて述べる。また、ユニグラムモデルを題材にして、確率モデルを推定する方法についても述べる。

混合ユニグラムモデル

混合ユニグラムモデル。今回はユニグラムモデルにトピックを導入した混合ユニグラムモデルについて述べる。

トピックモデル -最尤推定、変分ベイズ推定、ギブスサンプリングによる推定

トピックモデル -最尤推定、変分ベイズ推定、ギブスサンプリングによる推定。混合ユニグラムモデルでは一つの文書が一つのトピックを持つと仮定する。しかし、実際には一つの文書が複数のトピックを持つ場合もある。たとえば「医療に関する法案の国会での審議」に関する新聞記事は「医療」と「政治」の2つのトピックを持つ。また「オリンピックの経済効果」に関する新聞記事は「スポーツ」と「経済」の2つのトピックを持つ。このようなトピックの組み合わせを混合ユニグラムモデルで表現しようとすると、「医療+政治」、「スポーツ+経済」というトピックの組み合わせすべての単語分布を用意する必要がある。このとき推定すべき単語分布が膨大な数にになり、適切に推定できなくなるという問題が起こる。

この問題を解決するのが、一つの文書が複数のトピックを持つと仮定するトピックモデル(topic model)となる。混合ユニグラムモデルでは文書集合全体で一つのトピックモデルがあったのに対し、トピックモデルでは文書ごとにトピック分布θd=(θd1,…,θdK)がある。

トピックモデルの拡張(他の情報も活用する)(1)結合トピックモデルと対応トピックモデル

トピックモデルの拡張(他の情報も活用する)(1)結合トピックモデルと対応トピックモデル。前述までは文書に含まれる単語の情報のみが与えられた状況を想定したが、他の情報が与えられる場合もある。たとえば商品のレビュー記事には、商品カテゴリや評価点などの情報がついてくる。また学術論文には、著者や論文誌名、発行年などの情報がついてくる。このような単語以外の情報を補助情報(side information)と呼ぶ。ここでは補助情報がついて文書集合の生成モデルについて述べる。

補助情報がついて文書のトピックモデルとして結合トピックモデル(joint topic model)がある。結合トピックモデルでは、トピックごとに固有の補助情報分布があり、トピックに応じて補助情報が生成されると仮定する。

トピックモデルの拡張(他の情報も活用する)(2)ノイズあり対応トピックモデル、著者トピックモデル、トピック追跡モデル

トピックモデルの拡張(他の情報も活用する)(2)ノイズあり対応トピックモデル、著者トピックモデル、トピック追跡モデル。対応トピックモデルでは単語を生成したトピックを用いて補助情報が生成されていた。しかし、内容(単語)に関係ない補助情報がつけられている場合もある。特にウェブ上で自由にタグ(補助情報)をつけ共有することができるソーシャルブックマークの場合、「後で読む」というリマインダとして用いられるタグは、政治に関する記事にでも、芸能に関する記事にもつけられる。主観的な評価を示すタグ「これはすごい」や「***(星三つ)」もトピックに関係なくつけられる。また写真共有サービスの場合、写真に写っている物に関係なく「ニコン」や「キャノン」のような撮ったカメラの機種名が付けられたりする。

そこで内容に関係のない補助情報も扱えるトピックモデルとして、ノイズあり対応トピックモデル(nosiy correspondence topic model)がある。ノイズあり対応トピックモデルは対応トピックモデルの拡張となる。ノイズあり対応トピックモデルを用いることにより、内容と補助情報が関係あるかないかを自動的に判定でき、補助情報予測の精度向上や、補助情報を利用した検索の精度向上が期待できる。

トピックモデルの拡張(トピックに構造を入れる)相関トピックモデル、階層構造を入れたパチンコ分配モデル、低次元空間構造を入れた確率的潜在意味可視化

トピックモデルの拡張(トピックに構造を入れる)相関トピックモデル、階層構造を入れたパチンコ分配モデル、低次元空間構造を入れた確率的潜在意味可視化。さまざまなタスクを考える上で、トピックに相関がある場合が考えられる。たとえば新聞記事の場合、政治と経済の2つのトピックを持つ記事は多いが、政治と芸能の2つのトピックを持つ記事は少ない。通常のトピックモデルではこのようなトピック間の相関を扱えないが、相関トピックモデル(correlated topic model)は相関を扱うことができる。

相関トピックでは共分散行列を用いて2つのトピックの間の相関をモデル化した。パチンコ配分モデル(pachinko allocation model)は、トピックに階層構造を導入することによって、トピック間の関係をモデル化する。

トピックモデルを用いて文書やトピックを可視化するためのトピックモデルを確率的潜在意味可視化(probabilistic latent semantic visualization;PLSV)と呼ぶ。PSLVはトピックの似ている文書が近くに配置されるように可視化する。可視化によって、大規模データの全体像を把握できるようになり、また直感的な検索が可能になる。

トピックモデルの文書以外の情報への活用 -画像データ、グラフデータへの応用(確率的ブロックモデル、混合メンバ確率的ブロックモデル)

トピックモデルの文書以外の情報への活用 -画像データ、グラフデータへの応用(確率的ブロックモデル、混合メンバ確率的ブロックモデル)。文種以外でもBOW表現されているデータであればトピックモデルは適用できる。たとえば購買履歴の場合、ユーザーを文書、商品を語彙とみなせば、文書と同様に扱える。また画像のようにもともとBOW表現されていないデータであっても、BOW表現に変換することにより適用できるようになったり、ネットワークデータに関しても適用が可能となる。

ベクトル量子化(vector quantization)を用いることで、さまざまなベクトルの集まりをBOW表現に変換でき、トピックモデルが適用できるようになる。ベクトル量子化では、クラスタリング手法を用いてすべてのベクトルをクラスタリングし、ベクトルをクラスタラベルで書き換えることにより、BOW表現に変換する。

ネットワークの代表的確率モデルである確率的ブロックモデル(stochastic block model)について述べる。ネットワークはノード集合とノードの間にあるリンク集合からなる。ソーシャルネットワークの場合、人がノードで表され、友人関係がある場合に2つのノードがリンクで結ばれる。確率的ブロックモデルでは、それぞれのノードが一つのトピックを持ち、ノードのトピックに依存してリンクの有無が決まる。たとえばソーシャルネットワークの場合、各人が一つのグループに属し、ほかの人との友人関係は、どのグループに属しているかによって決まると考えるモデルとなる。

トピックモデルでのトピック数の推定 -ディリクレ過程、中華料理店過程、棒折り過程

トピックモデルでのトピック数の推定 -ディリクレ過程、中華料理店過程、棒折り過程。混合モデルのトピック数を推定するには、ディリクレ過程(Dirichlet process,DP)を用いることで行われる。ディリクレ過程は、基底分布(base distribution)Hと集中パラメータ(concentration parameter)αによって規定される。

ディリクレ課程を用いた無限個の要素モデルを持つ混合モデルは無限混合モデル(infinite mixture model)、もしくは”ディリクレ過程混合モデル（Dirichlet Process Mixture Model, DPMM）の概要とアルゴリズム及び実装例について“で述べているディリクレ過程混合モデル(Dirichlet process mixture model)と呼ばれる。

無限混合ユニグラムモデルを用いることにより、事前にトピック数を設定する必要がなく、データに適したトピック数を持つ混合ユニグラムモデルを推定できる。

無限混合モデルには無次元の混合比と無限個の要素モデルがあるが、中華料理店過程(Chinese restaurant process,CRP)を用いることにより、有限個の混合比、要素モデルを扱うだけで推定が可能となる。

ベイズ推論の応用モデルとしてのトピックモデルの概要と変分推論の適用

ベイズ推論の応用モデルとしてのトピックモデルの概要と変分推論の適用。トピックモデル(topic model)は主に自然言語で書かれた文書を解析するための生成モデルの総称であり、ここではその最もシンプルな例としてLatent Dirichlet allocation(LDA)について述べる。LDAでは、単語の羅列である文書に対して潜在的なトピック(政治、スポーツ、音楽など)が背後に存在していると考え、そのトピックに基づいて文書中の各単語が生成されていると仮定する。大量の文書データを使って学習されたトピックを利用することにより、ニュース記事の分類や推薦を行ったり、与えられた単語のクエリから意味的に関連の深い文書を検索することができるようになる。また近年ではLDAを自然言語処理だけではなく画像や遺伝子データに適用するような事例もある。

ベイズ推論の応用モデルとしてのトピックモデルでのギブスサンプリングによる推論

ベイズ推論の応用モデルとしてのトピックモデルでのギブスサンプリングによる推論。ここでLDAに対する崩壊型ギブスサンプリングについて述べる。混合モデルでは、確率モデルからパラメータを周辺化した新たなモデルを考え、潜在変数を一つずつサンプリングするという手法をとった。LDAにおいても全く同様の手続きでアルゴリズムを導くことができる。

その他

Malletを用いたトピックモデリング(外部リンク)

Malletを用いたトピックモデリング(外部リンク)。Java上で実装されたされるトピックモデルのOSSへのリンク。各種チュートリアルとさまざまな応用についての情報が記載されている。(Pythonで作業している場合は、AntoniakのLittle MalletWrapperを参照のこと)。Javaの言語および環境設定に関しては”汎用アプリケーション構築環境であるJavaとScalaとKoltlin“を参照のこと。

Clojureを使った中華料理店過程(Chinese resturant process:CRP)と混合ガウス分布への適用

Clojureを使った中華料理店過程(Chinese resturant process:CRP)と混合ガウス分布への適用。CRP (Chinese resturant process) は，ある特定のデータ生成過程を記述する確率過程である．数学的には，このデータ生成過程は，各ステップで，可能な整数の集合から新しい整数をサンプリングし，その特定の整数がこれまでにサンプリングされた回数に比例する確率で，これまで見たことのない新しい整数をサンプリングする一定の確率で，その整数をサンプリングするものとなる。

今回はこのCRPのClojureの確率的プログラミングのフレームワークであるAnglicanを用いた実装と混合ガウスモデルとの組み合わせについて述べる。

Topic model implementation in pyhton (external link)

Topic model implementation in pyhton (external link)。pythonでのトピックモデルのライブラリを集めたリンク。なおpythonの概要および環境設定に関しては”Pythonと機械学習“を参照のこと。

Pythonを用いたトピックモデルの実装と可視化(外部リンク)

Pythonを用いたトピックモデルの実装と可視化(外部リンク)。ここでは、トピックモデルのうち最も有名なLDA(潜在的ディリクレ配分法）について、簡単な概要とともにPythonを使ってどのように実装していくのかを紹介していきます。
また実装結果について、PyLDAvisやワードクラウドを使って可視化していきたいと思います。

Python Gensimでのトピックモデルの実装(外部リンク)

Python Gensimでのトピックモデルの実装(外部リンク)。トピックモデルは非常に難しい（と個人的に思う）手法ですが、Pythonではgensimというライブラリを使うことで簡単に使うことができます。この記事ではそんなgensimについて、その基本的な使い方をご紹介します

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類(外部リンク)

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類(外部リンク)。テキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。
理論的な部分はこちらの本。先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。

なおR言語の概要と環境設定に関しては”R言語と機械学習“を参照のこと。

自然言語の確率的モデル(階層ベイズ、トピックモデル、LDA) | Deus Ex Machina より:

2021年12月17日 7:52 AM

[…] 確率的生成モデルの中で、ベイズモデルの統計的なアプローチについて述べられている岩波データサイエンスシリーズ「ベイズモデリングの世界」より。前回は状態空間モデルとシミュレーションの観点から全体モデルと局所モデルについて述べた。今回は自然言語の確率的モデリングの中でトピックモデルについて述べる。 […]

返信
人工知能、機械学習に活用される確率的生成モデルについて | Deus Ex Machina より:

2021年12月21日 8:26 PM

[…] トピックモデルとは […]

返信
補助情報を加えたトピックモデルを作る結合/対応トピックモデル概要 | Deus Ex Machina より:

2021年12月29日 4:52 AM

[…] 人工知能技術の中の自然言語処理技術の中での重要な要素技術となる確率生成モデルを用いたトピックモデルの参考図書「機械学習プロフェッショナルシリーズトピックモデル」より。前回はトピックモデルの最尤推定、変分ベイズ、ギブスサンプリングによる推定について述べた。今回はトピックモデルの拡張として他の情報を利用したものについて述べる。 […]

返信
文書データの分類の為のトピックモデルの基礎、複合ユニグラムモデルとLDA | Deus Ex Machina より:

2021年12月29日 4:55 AM

[…] 人工知能タスクに用いられる自然言語処理技術の一つであるトピックモデル技術の参考図書機である械学習プロフェッショナルシリーズ「トピックモデル」より。前回はユニグラムモデルについて述べた。今回はそれらを発展させた混合ユニグラムモデルについてのべる。 […]

返信
DX,AI,MLのベースとなる自然言語処理の概要 | Deus Ex Machina より:

2022年1月22日 2:06 PM

[…] 人工知能技術サマリー　機械学習技術サマリー　トピックモデルサマリー　オントロジー技術サマリー　Clojureサマリー　Pythonサマリー […]

返信
プログミングとコンピューターの基本的なしくみと歴史 | Deus Ex Machina より:

2022年2月26日 6:57 PM

[…] 人工知能技術サマリー　機械学習技術サマリー　トピックモデルサマリー　オントロジー技術サマリー　デジタルトランスフォーメーションサマリー自然言語処理技術サマリー　知識情報処理サマリー Pythonサマリー […]

返信
自然言語のモデル化、ユニグラムモデルとベイズ確率的なモデルの適用 | Deus Ex Machina より:

2022年2月26日 9:50 PM

[…] 人工知能技術サマリー　機械学習技術サマリー　トピックモデルサマリー　オントロジー技術サマリー　デジタルトランスフォーメーションサマリー自然言語処理技術サマリー　知識情報処理サマリー […]

返信
プログラミング言語の概要、プログラムを書く前に考えるべきこと | Deus Ex Machina より:

2022年4月14日 8:12 PM

[…] 人工知能技術　機械学習技術　トピックモデル　オントロジー技術　デジタルトランスフォーメーション自然言語処理技術　知識情報処理 […]

返信
プログラミング言語概要、フロントエンド言語とバックエンド言語 | Deus Ex Machina より:

2022年4月14日 8:15 PM

[…] 人工知能技術　機械学習技術　トピックモデル　オントロジー技術　デジタルトランスフォーメーション自然言語処理技術　知識情報処理 […]

返信
Python言語の特徴とMIT Python教科書の目次 | Deus Ex Machina より:

2022年4月15日 5:07 AM

[…] 人工知能技術　機械学習技術　トピックモデル　デジタルトランスフォーメーション自然言語処理技術　知識情報処理 Python […]

返信
確率的ブロックモデルでの画像データやグラフデータのトピックモデル | Deus Ex Machina より:

2022年4月18日 3:34 PM

[…] 機械学習技術　人工知能技術　デジタルトランスフォーメーション技術　自然言語処理技術　マルコフ連鎖モンテカルロ法深層学習技術確率生成モデル　トピックモデル […]

返信
著者情報に依存したトピックモデルや、トピックの時間変化のモデル | Deus Ex Machina より:

2022年4月18日 3:38 PM

[…] 機械学習技術サマリー　人工知能技術サマリー　デジタルトランスフォーメーション技術サマリー　自然言語処理技術サマリー　マルコフ連鎖モンテカルロ法サマリー深層学習技術サマリー確率生成モデルサマリー　トピックモデルサマリー […]

返信
ソーシャルメディアの文字情報からのコンテキスト(位置情報等)抽出 | Deus Ex Machina より:

2022年4月29日 5:25 AM

[…] デジタルトランスフォーメーション　人工知能技術　機械学習技術　ユーザーインターフェース　地理空間情報処理　自然言語処理　トピックモデル […]

返信
自然言語の意味と説明できる機械学習を考えるための具体と抽象 | Deus Ex Machina より:

2022年4月30日 7:35 AM

[…] 自然言語処理技術　トピックモデル　オントロジー技術　デジタルトランスフォーメーション […]

返信
プログラミング技術概要 | Deus Ex Machina より:

2022年5月25日 3:34 PM

[…] 人工知能技術　機械学習技術　トピックモデル　オントロジー技術　デジタルトランスフォーメーション自然言語処理技術　知識情報処理 Clojureと関数型プログラミング Pythonと機械学習、PHPとウェブフレームワーク Prologと知識情報処理 LISPと人工知能技術 R言語と機械学習、C/C++と各種機械学習アルゴリズム Javascriptによるフロントエンド開発 CSSによるウェブデザイン […]

返信
プログラミング言語、自然言語処理の基礎となる形式言語学概要 | Deus Ex Machina より:

2024年2月12日 11:57 AM

[…] 確率的生成モデルサポートベクトルマシンスパースモデリングトピックモデル Python プログラミング技術深層学習自然言語処理 ITシステム […]

返信
文章の背後にある潜在的意味を捉えるトピックモデル | Deus Ex Machina より:

2024年3月19日 12:09 PM

[…] 文章からトピックを抽出する確率生成モデルであるトピックモデル | Deus Ex Machina より: 2023年6月1日 2:26 PM […]

返信
文書データの分類の為のトピックモデルの基礎、ユニグラムモデル | Deus Ex Machina より:

2024年3月19日 12:13 PM

[…] 文章からトピックを抽出する確率生成モデルであるトピックモデル | Deus Ex Machina より: 2021年12月17日 6:26 AM […]

返信
トピックモデルの、EM、変分ベイズ、ギブスサンプリングによる推定 | Deus Ex Machina より:

2024年3月19日 12:13 PM

[…] 文章からトピックを抽出する確率生成モデルであるトピックモデル | Deus Ex Machina より: 2022年1月31日 6:26 PM […]

返信
ディリクレ過程、中華料理店過程、棒折り過程を用いたトピックモデル | Deus Ex Machina より:

2024年3月19日 12:15 PM

[…] 文章からトピックを抽出する確率生成モデルであるトピックモデル | Deus Ex Machina より: 2021年12月28日 10:40 AM […]

返信
文のトピックを抽出する確率生成モデルを使ったトピックモデル | Deus Ex Machina より:

2024年3月19日 12:15 PM

[…] マルコフ連鎖モンテカルロ法深層学習技術確率生成モデルトピックモデル […]

返信
Dynamic Graph Neural Networks（D-GNN）の概要とアルゴリズム及び実装例について | Deus Ex Machina より:

2024年9月5日 4:22 AM

[…] 確率的生成モデルアルゴリズム自然言語処理技術深層学習技術トピックモデルマルコフ連鎖モンテカルロ法 python R言語異常検知・変化検知技術 […]

返信
ベイズ構造時系列モデルの概要と適用事例及び実装例について | Deus Ex Machina より:

2025年3月27日 4:50 AM

[…] 確率的生成モデルアルゴリズム自然言語処理技術深層学習技術トピックモデルマルコフ連鎖モンテカルロ法 python R言語異常検知・変化検知技術 […]

返信
トピックモデルの概要と様々な実装 | Deus Ex Machina より:

2025年7月17日 3:56 AM

[…] マルコフ連鎖モンテカルロ法深層学習技術確率生成モデルトピックモデル […]

返信

トピックモデルの理論と実装

概要

実装

トピックモデルの概要と様々な実装

ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について

階層的ディリクレ過程 (HDP)の概要とアルゴリズム及び実装例

中国料理店過程 (Chinese Restaurant Process)の概要とアルゴリズム及び実装例

棒切り分割プロセス(Stick-breaking Process)の概要とアルゴリズム及び実装例

変分ベイズ学習の概要と各種実装

理論

生きた言葉をモデル化する 自然言語の確率的モデリング(トピックモデルとWord2Vec)

ことばのモデル入門 (確率的なユニグラムモデルとベイズ推定)

階層的なトピックモデル

気づきと人工知能技術

機械学習プロフェッショナルシリーズ トピックモデル 読書メモ

ユニグラムモデル

混合ユニグラムモデル

トピックモデル -最尤推定、変分ベイズ推定、ギブスサンプリングによる推定

トピックモデルの拡張(他の情報も活用する)(1)結合トピックモデルと対応トピックモデル

トピックモデルの拡張(他の情報も活用する)(2)ノイズあり対応トピックモデル、著者トピックモデル、トピック追跡モデル

トピックモデルの拡張(トピックに構造を入れる)相関トピックモデル、階層構造を入れたパチンコ分配モデル、低次元空間構造を入れた確率的潜在意味可視化

トピックモデルの文書以外の情報への活用 -画像データ、グラフデータへの応用(確率的ブロックモデル、混合メンバ確率的ブロックモデル)

トピックモデルでのトピック数の推定 -ディリクレ過程、中華料理店過程、棒折り過程

ベイズ推論の応用モデルとしてのトピックモデルの概要と変分推論の適用

ベイズ推論の応用モデルとしてのトピックモデルでのギブスサンプリングによる推論

その他

Malletを用いたトピックモデリング(外部リンク)

Clojureを使った中華料理店過程(Chinese resturant process:CRP)と混合ガウス分布への適用

Topic model implementation in pyhton (external link)

Pythonを用いたトピックモデルの実装と可視化(外部リンク)

Python Gensimでのトピックモデルの実装(外部リンク)

[R] トピックモデル(LDA)を用いた大量文書の教師なし分類(外部リンク)

コメント

生きた言葉をモデル化する自然言語の確率的モデリング(トピックモデルとWord2Vec)

機械学習プロフェッショナルシリーズトピックモデル読書メモ