保護中: ユニグラムモデル

このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。

コメント

  1. […] 前回機械学習プロフェッショナルシリーズ「トピックモデル」よりトピックモデルの概要とユニグラムモデルのモデル式までを述べた。今回はそれらを使った最適化について述べる。 […]

  2. […] 上記のアプローチは「非負行列分解(non-negative matrix decomposition)」と呼ばれる。このアプローチはトピック抽出のアプローチの一つでもある。 […]

  3. […] トピックモデル(1) ユニグラムモデルの概要 […]

  4. […] ここでユニグラムモデルでは語順を考慮しないので「今日はいい天気です」と「です今日はいい天気」が同じ確率になる。これは日本語らしさという観点では不自然に感じるが、モデルの特徴である「目的に反しない範囲で問題を単純化する」という観点で考えると、例えば「文の話題に応じてカテゴリに分類する」という問題では、仮に「ホームラン」という単語があればその文は「スポーツ」や「野球」などのカテゴリに属する確率が高いと考えられ、その文が「ホームランを打った○○選手は・・」とか「ホームランは値千金の一打だった」のようなことまで分かる必要はなく、ユニグラムでも十分に目的を果たせると考えられる。これが問題が「適当な文を生成する」といったものであれば、単語の順番は無視できず、ユニグラムモデルを使うことは不適当であるということになる。 […]

  5. […] 文章の中の単語の分布を、「トピック」と呼ばれる潜在的な構造(モデル)から推定するものはトピックモデルと呼ばれる。トピックモデルは文章の中で、それぞれのジャンルは、個々の確率分布を持ち、例えば経済欄に書かれてある”提携”とか”日経平均”とかの単語の出方は、家庭欄に書かれてある”ご飯”や”ニット”などの単語とは異なっているとの仮説のもとで作られたモデルとなる。 […]

  6. […] トピックモデル(1) ユニグラムモデルの概要 […]

  7. […] まずヒストグラム密度推定について。ヒストグラム密度推定を用いた特徴として、Bag of Visual Words(BoVW)が広く利用されている。BoVWは文書特徴を計算するモデルであるBag of Words(BoW)のアナロジーから生まれた特徴で、BoVWを用いることで、テキスト分類のテクニックをそのまま画像分類に適用することが可能となったものとなる。 […]

  8. […] トピックモデル(1) ユニグラムモデルの概要 […]

  9. […] このトピックモデルのベースとなるモデルは”ユニグラムモデル“や”混合ユニグラムモデル“であり、これが拡張されて”Latent Dirichlet Allocation (LDA)“や”Probabilistic Latent Semantic Analysis (PLSA)”、また無次元への拡張として、”中華料理店過程(Chinese Restarant Process:CRP)“や”棒折過程(Stick Breaking Process:SBP)“、”階層ディリクレ過程(Hierarchical Direchlet Process:HDP)“等になる。 […]

タイトルとURLをコピーしました