説明できる機械学習

人工知能技術 機械学習技術 オントロジー技術 デジタルトランスフォーメーション技術 知識情報処理技術 オンライン学習技術 強化学習技術 確率的生成モデル技術 自然言語処理技術 本ブログのナビ

説明できる機械学習について

説明できる機械学習(Explainable machine learning)とは、機械学習アルゴリズムが出力する結果を、その理由や根拠を説明可能な形式で提示できるようにすることを指す。

従来の機械学習アルゴリズムは、データから複雑なパターンを抽出して予測を行うため、そのプロセスが不透明で、予測結果が正確かどうかを確認することが難しかったり、説明が困難であった。そのため現実のタスクでは、高精度の機械学習結果が得られても、人間の意思決定にそれらを用いることができないケースが多く、機械学習モデルが人間の意思決定をサポートするために、機械学習アルゴリズムが出力する結果を説明可能な形式で提示することが求められていた。

「説明する」という行為には、(1)原因をつきとめること、(2)一般的な仮説からより特殊な仮説を導くこと、(3)正体を突き止めることの3つのパターンがあり、機械学習の結果を説明可能な形式で提示するということは、原因をつきとめ、結果に影響を与えている仮説を明確にする、つまり予測されたパターンを人に理解できる粒度までシンプル化することになる。

説明できる機械学習の現在の技術的なトレンドとしては、(A)解釈可能な機械学習モデルによる解釈、(B)後付け解釈モデル(モデル非依存の解釈手法)の2つのアプローチが主流となる。

この内解釈可能な機械学習モデルによる解釈としては、例えば以下のようなモデルを使ったアプローチがある。

  • 決定木モデル:決定木は、データを木構造に変換し、それを解析することで、分類や予測を行うモデルであり、決定木を用いることで、モデルがどのような規則に基づいて予測を行ったかを解釈する。
  • ロジスティック回帰モデル:ロジスティック回帰は、線形分類のためのモデルであり、分類結果を確率で表現する。このモデルを用いることで、予測を行う際の変数の重要度を解析することができる。
  • ランダムフォレスト:ランダムフォレストは、複数の決定木を組み合わせたアンサンブルモデルであり、モデルの解釈性を向上させることができる。

また後付け解釈モデル(モデル非依存の解釈手法)としては、以下のようなものがある。

  • 特徴量の統計的性質を使ったアプローチ : 特徴量の分布(平均や分散)や、特徴量同士の相関係数、特徴量の重要度、データの可視化等での分析により特徴量の影響を定量化してモデルの解釈性を上げる
  • サロゲートモデルを使ったアプローチ : 元の機械学習モデルよりもシンプルなモデルで代替したモデル(サロゲートモデル)を使い、元のモデルと同じ入出力を設定して、シンプルなモデルで説明する。
  • バンディット問題によるアプローチ : 特徴量ごとに異なるアームを用意し、各アームの報酬を特徴量の重要度に対応させ、モデルが出力した予測に対して、各特徴量が選択されたアームに対応する報酬を加算することで、各特徴量の重要度を推定し、この重要度を基に、どの特徴量が結果に影響を与えているかを説明する
  • ゲーム理論を使ったアプローチ : 学習データセット中の各データポイントをエージェントと見なし、各エージェントが取る行動(Action)を特徴量の値とする。そして、モデルが出力する予測結果を報酬(Reward)と捉え、各エージェントが報酬を最大化するための戦略を定義することで各特徴量の重要度を推定する

本ブログではそれらに対する詳細な内容について述べる。

実装

説明可能な機械学習(Explainable Machine Learning)は、機械学習モデルの予測や意思決定の結果を理解可能な形で説明する手法やアプローチのことを指す。実世界の多くのタスクでは、モデルの説明性が重要となることが多い。これは例えば、金融向けのソリューションでは、モデルがどの要素に基づいて信用スコアを判断しているのかを説明する必要があったり、医療診断向けのソリューションでは、患者に対する予測の根拠や理由を説明することが重要であることなどからもわかる。

ここでは、この説明可能な機械学習に対して、様々なアルゴリズムとpythonを用いた実装例について述べている。

Meta-Learnersを用いた因果推論は、機械学習モデルを用いて因果関係を特定し、推論するためのアプローチを改善する方法の一つであり、因果推論は、ある変数が別の変数に対して直接的な因果関係を持つかどうかを判断することを目指すが、これには従来の統計的方法だけでなく、機械学習を活用することでより高度な推論が可能となる。Meta-Learnersは、異なる因果推論タスクに対して迅速に適応する能力を持つモデルを構築するために使用され、これにより、以下のような問題を効率的に解決できるようになる。

敵対的攻撃(Adversarial Attack)は、機械学習モデルに対する攻撃手法の一つであり、特に画像やテキスト、音声などの入力データに対して広く用いられるものとなる。敵対的攻撃は、わずかな摂動(ノイズや操作)を加えることにより、機械学習モデルの誤認識を引き起こすことを目的としている。このような攻撃は、セキュリティの脆弱性を明らかにし、モデルのロバスト性を評価するのに役立つ

グラフニューラルネットワーク(GNN)を用いた反実仮想学習(counterfactual learning)は、グラフ構造を持つデータに対して「もし〜だったら」という仮定のもとで、異なる条件下での結果を推論する手法となる。反実仮想学習は因果推論と密接に関連しており、特定の介入や変更が結果に与える影響を理解することを目的としている。

決定木(Decision Tree)は、機械学習やデータマイニングのための予測モデルとして使用され、木構造を持つ分類・回帰手法となる。決定木ではデータの特徴(特徴量)に基づいて、クラス(分類)や数値(回帰)を予測するための条件分岐のルールを木の形で構築できるため、”説明できる機械学習“で述べられている様に機械学習の結果をホワイトボックス化することができる。ここでは、この決定木に関して様々なアルゴリズムとその具体的な実装例について述べている。

Causal Forestは、観測されたデータから因果効果を推定するための機械学習モデルであり、ランダムフォレストをベースにしており、因果推論に必要な条件に基づいて拡張されたものとなる。ここでは、このCausal Forestの概要と適用事例およびRとPythonによる実装について述べている。

統計的な仮説検定(Statistical Hypothesis Testing)は、統計学の中で、ある仮説が真であるかどうかを確率的に評価する手法であり、統計手法の評価に用いられるだけではなく、機械学習においても、予測の信頼性評価やモデルの選択と評価に用いられたり、”説明できる機械学習“でも述べているような特徴選択の評価に用いられたり、”異常検知と変化検知技術“で述べている様な正常と異常の判別性能の検証などで用いられるなど、基本的な技術となっている。ここでは、この統計的な仮説検定に関して、様々な手法とそれらの具体的な実装例について述べている。

GNN(Graph Neural Networks)は、グラフ構造データを扱うためのニューラルネットワークであり、ノードとエッジ(頂点と辺)の情報を利用して、グラフデータ内のパターンや構造を捉え、ソーシャルネットワーク分析、化学構造の予測、推薦システム、グラフベースの異常検知などに適用される手法となる。

技術トピック

ここでは科学的に考えるとはどういうことなのか?について述べている。

まずファーストステップとして、「科学が語る言葉」と「科学を語る言葉」の2つの違いを明確にする。「科学が語る言葉」はDNAやエントロピーなどの「科学的概念」でありそれらは科学的理論の中で定義される。これに対して、「科学を語る言葉」は理論、仮説、法則、方程式などの様々な理論に現れる「メタ科学的概念」であり、科学的に考えるためにはこの意味を正確に理解しなければならないものとなる。

それらの「メタ科学的概念」の中でまず取り上げられるのが「理論」と「事実」となる。科学の理論や仮説は、世界は不確定で曖昧であるという前提のもとに(100%の真実は存在しないか、あるいは一生かかってわからない)、1か0の絶対的なものではなく、より良い理論/仮説かどうかという相対的な視点で作られている。

ここで科学に期待される機能をあげると「予測する」「応用する」「説明する」等が挙げられる。これらの中で前述でも頻繁に現れる「説明する」について述べる。

この「説明する」には以下に示すような3つのパターンがある。

    1. 原因をつきとめること
    2. 一般的・普遍的な仮説/理論からより特殊な仮説/理論を導くこと
    3. 正体を突き止めること

「気づく」とは、何かを注意深く観察したり、認識したりすることを指し、また、人が状況や物事に対して気付くということは、その人がある情報や現象を認識し、それに関する気持ちや理解を持つことを意味する。気づくことは、外界の変化や出来事に注意を払うことによって、新たな情報を得たり、理解を深めたりする重要な過程となる。今回は、この気づきとそれらに対する人工知能技術の適用について述べてみたいと思う。

IT(情報技術)の発達に伴い膨大なデータが集積されるようになり、この「ビッグデータ」を分析して新しい知見や価値を生み出す試みが広がりを見せている。そうした中で、ビッグデータを分析する手法として「プリスクリプティブ分析」が注目されるようになってきた。「指示的分析」、「処方的分析」などと訳される分析手法で、複雑な条件の組み合わせの中から「目的」に対する最適な解を導こうというものだ。多くのビッグデータ分析で使われている「説明的分析」、「予測的分析」との違いや、適用でメリットが得られる範囲など、プリスクリプティブ分析の特徴をひもといてみた。

機械学習エンジニアの人は、分類や回帰などの課題に取り組むにあたって、偉い人や導入先の部門から「その予測どれぐらい外れるの?」「学習モデルの予測に対してどうリスク評価をすればいいの?」と尋ねられることはありませんか? そのような場面で活躍するかもしれないQuantile Regression(分位点回帰)のお話をします。Quantileとは、日本語で四分位のことです。データをソートして区切った場合、それぞれのデータが上位何%に位置するのかを表現するときに使います。

まず「線形回帰」のケースについて。線形回帰モデルは予測値を特徴量の重み付き和として表す。これは、特徴量 x が目的変数 y にどれくらい依存するかをモデリングするもので1つのデータ i に対して以下のように表すことができる。

線形回帰モデルはその重みの部分に対して解釈が行われる。まず特徴量が量的な場合は、その値の増減が結果に反映される。これがカテゴリ特徴量の場合は、そのものの量ではなくデータの分散(線形モデルによってどの程度バラつきが説明されているか)によって評価される。

線形回帰モデルは分類するために、直線や超平面を当てはめて距離を最小化するアルゴリズムであるのに対して、ロジスティック回帰モデルでは、ロジスティック関数を用いて、0と1の間に線型方程式の出力を変形する(確率に変換する)。

このようにロジスティック回帰モデルの出力は0から1の確率で表される為、重みの解釈が異なってくる。これらを解釈するためオッズという概念を導入する。オッズはイベントが起きる確率を起きない確率で割ったものであり、オッズの対数をとったものを対数オッズと呼ぶ。

線形モデルはシンプルなモデルの解釈が可能という利点がある反面、現実の問題(結果が正規分布に従わなかったり、特徴量間に相互作用があったり、あるいは、特徴量と結果の間の真の関係が非線形であったりするような場合)に対応することが困難であるという欠点がある。これらの課題に対応する為、一般化線形モデル(GLM:General Linear Models)や、一般化加法モデル(GAM:General Additive Model)が提案されてきた。

結果が正規分布に従わないモデルに対しては、一般化線形モデル (GLMs:Generalized Linear Models)が用いられる。これは特徴量がカテゴリであったり、機械が故障するまでの時間等少数のとても大きな数が存在する偏った出力であったりする場合に適用される。GLMのコアとなる概念は特徴量の重み付き和を保持するが、結果の分布の非正規性を許容し、この分布の平均と重み付き和をある非線形関数で関連づけること」にある。

線形モデルの拡張としてはGAM(Generalized Additive Model:一般化加法モデル)がある。これは普通の線形モデルが値を1増やすと、常に同じ効果を予測結果に与えるのに対して、例えば気温が10度から11度に上がったのと、40度から41度に上がった時で予測結果に与える効果が異なるようにするものとなる。

単純な線形回帰モデルロジスティック回帰モデルでは、特徴量と結果が非線形の時や、特徴量の間に相互作用がある場合には推定に失敗する。決定木を用いたモデルを用いることで、これらに対する解を見つける事ができる。

木をベースとしたモデルは、特徴量を、あるカットオフ値に基づいて複数回データを分割していき、この分割を通して、データセットを異なる部分集合にしていく。それぞれのインスタンスはこの部分集合の一つに所属することとなる。ここで、最後の部分集合は終端ノード(terminal node)または葉(leaf node)と呼ばれ、中間の部分集合は内部ノード(internal node)または、分岐ノード(split node)と呼ばれる。

決定木を成長させる為のアルゴリズムにはさまざまなものがある。これらは、基本的には(1)決定木の構造(例:ノードあたりの分岐数)、(2)分岐を見つける為の指標、(3)いつ分岐を見つけるのか、(4)どのようにして葉の中で簡単なモデルを予測するのか、(5)停止基準等がある。

決定木をもちいることで、データの特徴量間の相互作用を捉える事ができ、透明性を持った解釈をすることが確認できる。しかしながら、決定木は、入力特徴量と結果の関係を分岐されてつくられたステップ関数で近似する為、滑らかさが欠如し、入力特徴量の僅かな変化が予測結果に対して大きく影響を与えるケースが出てくる。また決定木はかなり不安定で、学習データがわずかに変わっただけで、全く異なった決定木が作られることもある。さらに木の深さが深くなると木の決定規則を理解する事が困難になるという課題がある。

決定規則は、条件(前提とも呼ばれる)と予測値からなる単純なIF-THEN文となる。例えば、今日雨が降っていて4月であるならば(条件)、明日あめが降るだろう(予測)というものになる。予測は単一の決定規則もしくは、いくつかの決定規則の組み合わせで行われる。

データから規則を学習する方法として以下の3つが挙げられる。(これら以外にもたくさん存在する)

    1. OneR: 単一の特徴量から規則を学習する。OneRの特徴は、単純かつ理解しやすいことにある。
    2. Sequential covering: 繰り返し規則を学習していき、新しい規則でカバーされるデータ点を削除するという手法。
    3. Bayesian Rule Lists: ベイズ統計を用いて、あらかじめ発見された頻出パターンを決定リストに統合する。事前に発見されたパターンを使用することも、多くの規則を学習するアルゴリズムでよく使われるアプローチとなる。

FriedmanとPopescuにより2008年に提案されたRuleFitアルゴリズムは、元の特徴量と決定規則である多数の新しい特徴量を用いて、スパース線形モデルを学習することで、特徴間の相互作用を結合したスパース線形モデルの学習に使われる。生成される特徴量は、決定木から分割された決定を結合し、規則とすることで、木を通る各パスを決定規則に変換することで自動的に生成される。

RuleFitでは、ランダムフォレストのような手法を使って多数の木を生成し、それぞれの木からスパース線形回帰モデル(Lasso)で使用される追加の特徴量である決定規則に分解される。

後付け解釈モデル(モデル非依存の解釈手法)では、先述の解釈可能なモデルと比較して、予測モデルを柔軟に選び、予測精度を高く保ったまま解釈を行えるという利点がある。モデル非依存な解釈手法に、期待できる性質は次のようになる

    • モデルの柔軟性 (Model flexibility) モデルの解釈手法がランダムフォレストやディープニューラルネットワークといったあらゆる機械学習モデルに対して使用できること。
    • 説明の柔軟性 (Explanation flexibility) モデルの説明が特定の形式に制限されることがないこと。線形の関係を持つことが役に立つかもしれないし、特徴量の重要度を可視化することが有用な場合もある。
    • 表現の柔軟性 (Representation flexibility) 説明のシステムは、説明対象のモデルとは異なる特徴量の表現を使用できるべき。抽象的な単語埋め込みベクトルを使用したテキスト分類に対しては、個々の単語を用いて説明することが好ましい。

まず最初のモデル非依存の解釈モデルとしてPartial dependence plot (PDP, PD plot)がある。PDPは一言で言うと、1つ、または2つの特徴量が機械学習モデルの予測結果に与える周辺効果 (marginal effect) を示すものとなる。また、入力と出力の関係が線形か、単調か、より複雑かどうかを表現できる。これは、例えば、線形回帰モデルに適用した場合、partial dependence plot は常に線形の関係を示すものとなる。

特徴量の平均的な効果に関する partial dependence plot は、特定のインスタンスではなく、全体的な平均に注目しているため、大域的な方法と言える。個々のインスタンスに対する PDP と等価な手法は、individual conditional expectation (ICE) plot と呼ばれる。ICE plot はインスタンスごとの、ある特徴量が予測に与える影響を別々に可視化する。partial dependence plotでは、全体に対して1本の線で表現していたが、ICE plot では、1つのインスタンスにつき1本の線で表現される。PDP は ICE plot の線を平均したものと一致する。

PDP の代わりに個々の予測を見るポイントは、PDP は相互作用によって生まれる不均一な関係を見えなくしてしまうことがあるが、ICE plot は相互作用がある場合に多くの洞察を与えてくれる。

今回はAccumulated local effects(ALE) plotsについて述べたいと思う。ALE plotは、特徴量が機械学習モデルの予測に対して、平均的にどの程度影響を与えているか示す。ALE plot は、partial dependence plot (PDP) と比べて高速で偏りがない。特徴量が相関しているものにPDPを適用すると、現実に起こり得ないインスタンスの予測結果が含まれてしまう。これが、特徴量の効果を推定するときの大きなバイアスになる。PDPのどこが問題なのか実際のステップを追いながら説明する。

今回は特徴量の相互作用について述べたいと思う。予測モデルにおいて特徴量の相互作用がある場合、ある特徴量は他の特徴量の値に影響を受けるため、予測は単に特徴量の影響の和では表現できなくなる。機械学習モデルが2つの特徴量に基づいて予測する場合、この予測は定数項、1つ目の特徴量、2つ目の特徴量、2つの特徴量の相互作用の4つの項に分解できる。2つの特徴量の相互作用は個々の特徴量の効果を考慮したのち、特徴量を変化させることによって生じる予測の変化を指す。

前回はモデル非依存の解釈のうち特徴量の相互作用について述べた、今回はPermutation Feature Importanceについて述べたいと思う。Permutation feature importance は、特徴量の値を並び替えることで、特徴量と真の結果との関係性を壊し、これによる予測誤差の増加を測定する。概念はとても単純で、 特徴量を並び替えたあとのモデルの予測誤差の影響を計算することで、特徴量の重要度を計算する。 特徴量の値を入れ替えるとモデル誤差が増加する場合、モデルは特徴量に依存した予測をしているので、その特徴量は「重要」となる。 特徴量の値を入れ替えてもモデル誤差が変わらない場合、特徴量は「重要ではない」と言える。 permutation feature importance は、Breiman (2001)34によってランダムフォレストのために導入された。

グローバルサロゲートモデル (global surrogate model) は、ブラックボックスモデルの予測を近似するよう学習された解釈可能なモデルとなる。 サロゲートモデルを解釈することによって、ブラックボックスモデルについて結論を導き出せる。サロゲートモデルは、工学の分野でも用いられている。 興味のある結果を得るのが高価であったり時間がかかったり、そもそも計測が困難である場合 (複雑なコンピュータシミュレーションに依存するなど) には、代わりに安価で高速なサロゲートモデルの結果で代替される。 工学の分野で用いられるサロゲートモデルと解釈可能な機械学習で用いられるサロゲートモデルの違いは、モデルはシミュレーションではなく、解釈可能な機械学習モデル (シミュレーションではなく) あるということになる。 (解釈可能な) サロゲートモデルの目的は、元のモデルの予測をできるだけ正確に近似し、同時に解釈可能にすることとなる。 サロゲートモデルのアイデアは近似モデル、メタモデル、応答曲面モデル、エミュレータなど、様々な名称として見つけることができる。 

今回はLocal Surrogate(LIME)について述べたいと思う。ローカルサロゲートモデルは解釈可能なモデルであり、ブラックボックスな機械学習モデルの個々の予測を説明するために用いられる。 Local interpretable model-agnostic explanations (LIME)36という論文の中で、具体的に局所的なサロゲートモデルの実装が提案されている。 サロゲートモデルは根底にあるブラックボックスモデルの予測を近似するように学習される。 グローバルなサロゲートモデルを学習する代わりに、LIME は個々の予測を説明するためにローカルサロゲートモデルを学習することに焦点を当てている。

Anchor は、予測を “固定” するのに十分な決定規則を見つけることにより、ブラックボックスの分類モデルの個々の予測結果を説明するものとなる。 他の特徴量の値が変わっても予測に影響がない場合、ルールにより予測は固定される。 Anchor は、強化学習とグラフ探索アルゴリズムを組み合わせて、モデルの呼び出し回数を最小限に抑えながら、局所最適解に陥るのを回避できる。 このアルゴリズムは、2018年に Ribeiro、Singh、Guestrinらにより提案された。

LIME と同様に、Anchor は、ブラックボックスな機械学習モデルの予測に対して局所的な説明をするためにデータに摂動を与える方法を採用している。 ただし、LIME が説明のためにサロゲートモデルを用いるのに対し、AnchorではAnchorと呼ばれる、より理解しやすいIF-THENルールが用いられる。 これらのルールはスコープ化されているので再利用が可能となる。つまり、Anchor はカバレッジの概念が含まれており、それが他のインスタンス、もしくはまだ見ぬインスタンスに適用されるかを正確に示している。 Anchor を見つけることは、強化学習の分野に由来する探索または多腕バンディット問題を伴う。

今回はシャープレイ値(sharpley value)について述べたいと思う。予測は、インスタンスの特徴量の値が “プレイヤー”で、予測が報酬であるようなゲームを想定して説明できる。 シャープレイ値(協力ゲーム理論の手法)は、特徴量の間で “報酬” を公平に分配する方法を教えてくれる。シャープレイ値について考える為、以下のシナリオを想定する。

今回はSHAP (SHapley Additive exPlanations)について述べたいと思う。Lundberg and Lee (2016)による SHAP (SHapley Additive exPlanations)は、個々の予測を説明する手法となる。 SHAP はゲーム理論的に最適な シャープレイ値 に基づいている。これはローカルサロゲートモデル(local surrogate models)から着想を得たカーネルベースのシャープレイ値の代替的な推定手法となる。

前回はゲーム理論をベースとしたシャープレイ値(sharpley value)の拡張であるSHAP (SHapley Additive exPlanations)について述べた。今回は、統計的因果推論と因果探索について“で述べている因果推論をベースとした反事実的説明でのアプローチについて述べる。

今回は敵対的サンプル (Adversarial Examples)とセキュリティについて述べる。

prototypeは、すべてのデータの代表であるデータインスタンスとなる。 criticismは prototypeの集まりではうまく表現できないデータインスタンスであり、criticismの目的は、特に、prototypeが良く表現できないデータ点について、prototypeとともに見識を提供することとなる。 prototypeとcriticism は、データを記述するのに機械学習モデルとは独立に使用可能だが、解釈可能なモデルを作成したり、ブラックボックスモデルを解釈可能にするために使用できる。

CNNによって学習された表現は、それらが「視覚概念の表現」であるため、可視化に非常に適している。2013年以降、それらの表現を可視化/解釈するための手法は幅広く開発されている。今回はそれらの中で最も利用しやすく有益なものを3つ取り上げる。

(1)CNNの中間出力(中間層の活性化)の可視化:CNNの一連の層によって入力がどのように変換されるかを理解し、CNNの個々のフィルタの意味を理解するものとなる。(2)CNNのフィルタの可視化:CNNの各フィルタが受け入れる視覚パターンや視覚概念がどのようなものであるかを把握できる。(3)画像におけるクラス活性化のヒートマップの可視化:画像のどの部分が特定のクラスに属しているかを理解でき、それにより、画像内のオブジェクトを局所化できるようになる。

    以前述べたベイズ推定の応用としてベイジアンネットがある。ベイジアンネットは様々な事象間の因果関係(厳密には確率的な依存関係)をグラフ構造で表現するモデリング手法の一つで、故障診断や気象予測、医療的意思決定支援、マーケティング、レコメンドシステムなど様々な分野で利用や研究が行われている。

    これを数学的に表現すると、有限個の確率変数X1,..XNをノードとする有効グラフと各ノードに付随する条件付き確率表(conditional probability table:CPT)からなり、X1,..,XNの同時分布 P(X1=x1,..XN=xn) を以下のようなグラフ構造で表す。

    前回は北米で発達したSRL(stastical relational learning 統計的関係学習)について述べた。今回はヨーロッパの対抗馬であるPLL(probabilistic logic learning;確率論理学習)について述べる。

    前述したPRM(probabilistic relational model 確率的関係モデル)やMLN(Markov logic network;マルコフ論理ネットワーク)等のSRLは関係式や論理式を使い確率モデルを豊かにしようという発想に基づいており、関係式や論理式を使うものの、術後論理を確率によって豊かにすることは直接の目的ではない。一方、人工知能の分野では術後論理による知識表現が古くから研究されており、そこに確率を取り入れて、常に成り立つ論理的知識だけでなく確率的な知識も表現しようとする試みが統計的機械学習がブームになる以前からあった。

    決定木学習器は、フューチャーとして得られる可能性のある結果の関係をモデリングするために、木構造(tree structure)を使う強力な分類器となる。

    決定木アルゴリズムの大きな特徴は、フローチャート風の木構造が必ずしも学習器内部専用になるわけではなく、モデルの出力結果を人間が読んで、特定のタスクのためにモデルが上手く機能する(あるいはしない)理由やメカニズムについて大きなヒントになるところにある。

    このような仕組みを用いることで、法的な理由で分類メカニズムが透明なものでなければならない場合や、組織間での商慣行を明示するために他者と結果を共有する場合に特に有効になる。

    前回は決定木のアルゴリズムの概要について述べた。今回はRを使ったクラスタリングについて述べる。利用するデータはドイツの金融信用調査のデータ(1000件のインスタンス(データ)、17変数)

    モデル性能を改善するために「アダブースト(adaptive boosting)」を行う。これはC.4.5アルゴリズムより改善されているポイントで、多数の決定木を作り、それらの決定木が個々のインスタンスについて最良となるクラスに投票するというアルゴリズムとなる。

    今回はルール分類器を使ったルールの抽出について述べる。

    分類ルールは、ラベルの付けられていないインスタンスにクラスを与える論理if-else文という形で知識を表現する。これらは「前件(antexedent)」と「後件(consequent)」として指定され、「これが起きたら、あれが起きる」という仮説を形成する。単純な規則は「ハードディスクがカチカチ音を立てているなら、まもなくエラーを起こす」のように主張する。前件はフィーチャー値の特定の組み合わせから構成されるのに対し、後件は規則の条件が満たされたときに与えられるクラス値を指定する。

    分類ルール学習は、決定木学習と同様に使われることが多い。分類ルールは具体的には次のような将来の行動のための知識を生成するアプリケーションで使える。

      • 機械装置のハードウェアエラーを引き起こす条件の識別
      • 顧客セグメントに属する人々のグループの主要な特徴の記述
      • 株式市場の株価の大幅な下落、または上昇の前触れとなる条件の抽出

    分類ルール学習と、決定木学習の相違点は、上から下に順番に決定を重ねなければならないの決定木なのに対して、分類ルールは事実の記述と全く同じように読める提案になっているところにある。

    今回はRを使ったルールの抽出について述べる。ルールを抽出するデータとしてはきのこが食べられるか?毒か?を判定するルールを抽出するものとなる。

    アルゴリズムとしてはRWekaのRIPPERアルゴリズムでの評価を行う

    ユビキタスな非意味的ウェブには、HTML文書のような非構造化情報が膨大に含まれている。セマンティックウェブは、手作業で構築されたオントロジーや意味認識データベースのような、より構造化された知識を提供します。ウェブのセマンティックな部分と非セマンティックな部分の両方の力を最大限に活用するために、ソフトウェアシステムは両方の種類の情報に対して推論できる必要がある。構造化情報と非構造化情報の両方を利用するシステムは、その結果をユーザに信じさせようとするとき、重要な課題に直面する。すなわち、ソースとソースに適用される推論の種類は、その性質と信頼性において根本的に異なる。我々の研究は、構造化された情報源と非構造化情報源の組み合わせから導かれる結論を説明することを目的としている。我々は、結論の正当性を単一のフォーマットで符号化できるインフラストラクチャを提供する我々のソリューションを提示する。この統合は、テキストやHTML文書へのアクセス、抽出に使用される分析プロセスの記述、オントロジーや標準的な演繹を含む多くの種類の情報操作プロセスの記述など、知識導出プロセスのエンドツーエンドの記述を提供するものである。抽出と推論のプロセスの統一的なトレースを、推論された情報の出自を符号化するためのOWLベースのフォーマリズムであるProof Markup Language (PML) で作成する。PMLを閲覧するためのブラウザを提供し、ユーザがPMLを閲覧することを可能にする。ある結論がどのように導かれたかを理解することができる。

    大域的(global)な説明:複雑な機械学習モデルを、可読性の高いモデルで置き換えて説明すること、局所的(local)な説明:複雑な機械学習モデルの、ある入出力例の周辺に対する挙動を(可読性の高いモデルなどを使って)説明すること

    説明性は、人工知能(AI)システムの構想以来の目標であり、ヘルスケアなどの重要なハイステークス環境でより複雑なAIモデルがますます使用されるにつれて、説明性の必要性が高まっています。説明は、原則のない事後的な方法でAIシステムに追加されることがよくあります。これらのシステムの採用が進み、ユーザー中心の説明可能性に重点が置かれているため、説明可能性を主要な考慮事項として扱い、エンドユーザーのニーズを特定の説明タイプとシステムのAI機能にマッピングする構造化された表現が必要です。説明オントロジーを設計して、説明の役割、プロセスにおけるシステムとユーザー属性の説明、およびさまざまな文献由来の説明タイプの範囲の両方をモデル化します。オントロジーがヘルスケアの領域での説明に対するユーザー要件をどのようにサポートできるかを示します。システム設計者向けの一連のコンピテンシー質問を使用してオントロジーを評価します。システム設計者は、システム設計設定とリアルタイムの両方で、ユーザーのニーズとシステムの機能の組み合わせを考慮して、オントロジーを使用してどの説明タイプを含めるかを決定できます。操作。このオントロジーを使用することで、システム設計者は、AIシステムが提供できる説明と提供すべき説明について、情報に基づいた選択を行うことができます。システム設計設定とリアルタイム操作の両方で。このオントロジーを使用することで、システム設計者は、AIシステムが提供できる説明と提供すべき説明について、情報に基づいた選択を行うことができます。システム設計設定とリアルタイム操作の両方で。このオントロジーを使用することで、システム設計者は、AIシステムが提供できる説明と提供すべき説明について、情報に基づいた選択を行うことができます。

    コメント

    1. […] それらに対して、近年大規模なルールを学習するツールとそれらを検証する「説明できる機械学習」ツールが提案され、大規模なエキスパートシステム構築への道が開かれつつある。 […]

    2. […] データサイエンティストのクリストフ・モルナル(Christoph Molnar)氏が著した『解釈可能な機械学習──ブラックボックス化したモデルを説明可能にするためのガイド』の日本語訳がWeb上で無料公開されている。前回はその前半部分の「説明する」とはから始まり、「人に優しい説明」に関してまとめた。今回は実際のデータやアルゴリズムを使った説明について述べる。 […]

    3. […] 岩波データサイエンスシリーズ「スパースモデリングと多変量データ解析」より。説明できる機械学習にもつながるモデルの当てはまりと予測性能の違いについて […]

    4. […] 岩波データサイエンスシリーズ「スパースモデリングと多変量データ解析」より。前回は説明できる機械学習にもつながるモデルの当てはまりと予測性能の違いについて述べた。今回はlassoを用いたスパース推定について述べる。 […]

    5. […] 機械学習技術サマリー 説明できる機械学習サマリー […]

    6. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    7. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー R言語サマリー  説明できる機械学習サマリー […]

    8. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    9. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    10. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    11. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    12. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    13. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 異常検知技術サマリー  説明できる機械学習サマリー […]

    14. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー  画像情報処理技術サマリー 説明できる機械学習サマリー […]

    15. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー  画像情報処理技術サマリー 説明できる機械学習サマリー […]

    16. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    17. […] 機械学習技術サマリー スパース性を用いた機械学習サマリー 自然言語処理サマリー  説明できる機械学習サマリー […]

    18. […] デジタルトランスフォーメーションサマリー 人工知能技術サマリー 異常検知・変化検知技術サマリー 機械学習技術サマリー スパース性を用いた機械学習サマリー 説明できる機械学習サマリー […]

    19. […] 説明できる人工知能について、モルナルの論文の前半の概要 | Deus Ex Machina より: 2021年7月20日 4:53 AM […]

    20. […] 説明できる人工知能について、モルナルの論文の前半の概要 | Deus Ex Machina より: 2021年7月22日 4:28 AM […]

    21. […] 説明できる人工知能について、モルナルの論文の前半の概要 | Deus Ex Machina より: 2021年8月12日 5:58 AM […]

    22. […] 説明できる人工知能について、モルナルの論文の前半の概要 | Deus Ex Machina より: 2021年9月18日 7:44 AM […]

    23. […] 人工知能技術サマリー 機械学習技術サマリー オントロジー技術サマリー デジタルトランスフォーメーションサマリー  知識情報処理サマリー 説明できる機械学習サマリー […]

    24. […] 人工知能技術サマリー 機械学習技術サマリー オントロジー技術サマリー デジタルトランスフォーメーションサマリー  知識情報処理サマリー 強化学習サマリー 確率的生成モデルサマリー 説明できる機械学習サマリー   問題解決と思考法及び実験計画サマリー   life Tips&雑記     自然言語処理サマリー […]

    25. […] 自然言語処理    スパース性を用いた機械学習 機械学習技術   デジタルトランスフォーメーション技術 人工知能技術 数学    説明できる機械学習 […]

    26. […] 人工知能技術 機械学習技術 オントロジー技術 デジタルトランスフォーメーション  知識情報処理 説明できる機械学習   一般的な機械学習      グラフデータ処理 […]

    27. […] 知識情報処理技術  強化学習技術 確率的生成モデル技術 説明できる機械学習技術 自然言語処理技術 機械学習における数学 […]

    28. […] )や数値(回帰)を予測するための条件分岐のルールを木の形で構築できるため、”説明できる機械学習“で述べられている様に機械学習の結果をホワイトボックス化することができる […]

    29. […] 知識情報処理技術  強化学習技術 確率的生成モデル技術 説明できる機械学習技術 自然言語処理技術 論文/報告書の書き方 life Tips&雑記 […]

    30. […] マルコフ連鎖モンテカルロ法 知識情報処理 深層学習技術 強化学習 説明できる機械学習 […]

    31. […] 械学習においても、予測の信頼性評価やモデルの選択と評価に用いられたり、”説明できる機械学習“でも述べているような特徴選択の評価に用いられたり、”異常検知と変化 […]

    32. […] 械学習においても、予測の信頼性評価やモデルの選択と評価に用いられたり、”説明できる機械学習“でも述べているような特徴選択の評価に用いられたり、”異常検知と変化 […]

    33. […] モデルの可視化や解釈性を向上させるためのテクニックを使用して、モデルの動作を理解しやすくし、誤分類の問題を特定しやすくする。モデルの可視化については”pythonとKerasによるコンピュータービジョンのためのディープラーニング(4)CNN学習データの可視化“も参照のこと。”説明できる機械学習“で述べているGrad-CAMやLIMEなどのツールも役立つ。 […]

    34. […] スや科学の文脈で説明するための専門知識を活用する。解釈可能性に関しては”説明できる機械学習“や、”統計的因果推論と因果探索“、”関係データ学習“等を参 […]

    35. […] 学の文脈で説明し、洞察を得るために結果を解釈する。解釈可能性に関しては”説明できる機械学習“や、”統計的因果推論と因果探索“、”関係データ学習“等を参 […]

    36. […] 知識情報処理技術  強化学習技術 確率的生成モデル技術 説明できる機械学習技術 自然言語処理技術 問題解決と思考法及び実験計画 life Tips&雑記 […]

    37. […] 知識情報処理技術  強化学習技術 確率的生成モデル技術 説明できる機械学習技術 自然言語処理技術 問題解決と思考法及び実験計画 life Tips&雑記 […]

    38. […] 深層学習 オントロジー技術 知識情報処理 強化学習 説明できる機械学習 […]

    39. […] 技術の選択の基準としては、深層学習、強化学習、確率的生成モデル、自然言語処理、説明できる機械学習、知識情報処理などの本ブログに記載しているものは、それぞれのリンク先の記事を参考にすることとし、それら以外の技術のピックアップを意識して行っている。 […]

    40. […] 説明できる人工知能について、モルナルの論文の前半の概要 | Deus Ex Machina より: 2022年1月18日 8:04 PM […]

    41. […] デジタルトランスフォーメーション技術 人工知能技術 数学 説明できる機械学習 IOT スパース性を用いた機械学習 画像処理 自然言語処理 音声認識 […]

    42. […] Python グラフニューラルネットワーク 説明できる機械学習技術 […]

    43. […] デジタルトランスフォーメーション技術 人工知能技術 数学 説明できる機械学習 IOT スパース性を用いた機械学習 画像処理 自然言語処理 音声認識 […]

    44. […] デジタルトランスフォーメーション技術 人工知能技術 数学 説明できる機械学習 IOT スパース性を用いた機械学習 画像処理 自然言語処理 音声認識 […]

    45. […] 今回は海外の著名な学会から抽出した注目される技術とその代表的な論文について述べている。技術の選択の基準としては、深層学習、強化学習、確率的生成モデル、自然言語処理、説明できる機械学習、知識情報処理などの本ブログに記載しているものは、それぞれのリンク先の記事を参考にすることとし、それら以外の技術のピックアップを意識して行っている。 […]

    46. […] マルコフ連鎖モンテカルロ法 知識情報処理 深層学習技術 強化学習 説明できる機械学習 一般的な機械学習 スモールデータでの機械学習 物理・数学 […]

    47. […] マルコフ連鎖モンテカルロ法 知識情報処理 深層学習技術 強化学習 説明できる機械学習 一般的な機械学習 スモールデータでの機械学習 […]

    モバイルバージョンを終了
    タイトルとURLをコピーしました