KI2021
KI 2021は、Gesellschaft für Informatik (GI) のFachbereich Künstliche Intelligenzの協力で開催された第44回ドイツ人工知能会議である。このカンファレンスは、2021年9月27日から10月1日の間、オンライン方式で開催されている。ドイツAIカンファレンスは基本的に45年前の1975年10月7日に開催された第1回GI-Fachgruppe KIミーティングから始まった。KIはヨーロッパの主要なAI会議の1つで、伝統的にAIのあらゆる分野の学術研究者や産業研究者が集まり、理論や応用に関するニュースや研究結果を交換する理想的な場を提供している。KI 2021はINFORMATIK 2021と合同で開催された。
KI 2021の技術プログラムは、論文発表、ポスター発表、チュートリアル、ワークショップで構成され、全体で約60件の応募があり、そのうち21件が技術報告および論文として、また6件がポスター発表として採択された。
– Tristan Cazenave (Université Paris-Dauphine, France) モンテカルロ探索について
– Giuseppe De Giacomo (ローマ・サピエンツァ大学) AIにおける自律性:有限トレース上の線形時間論理における反応合成、計画、強化学習
– Birte Glimm (ウルム大学、ドイツ) 自律走行車に地図知識を提供するためのオントロジー
– Kristian Kersting (TU Darmstadt, Germany) AIの第3の波 [INFOMATIK2021との共同基調講演]について
– Katja Mombaur (カナダ、ウォータールー大学) 人間を中心としたロボットのためのモーション・インテリジェンス
– Stuart Russell (カリフォルニア大学バークレー校、アメリカ) 人間に適合した人工知能
その他、特別講演、チュートリアル、ワークショップなど、盛りだくさんの内容でプログラムを締めくくりました。
特別企画
– CLAIRE全国大会
– 若手研究者コンソーシアム
– FBKIタスクフォース「教育におけるAI」(Arbeitskreis KiS)会議
vi 巻頭言
チュートリアル
– クリストフ・ストックハマー、ミハエラ・ジャレマ バイオメディカルシグナルデータのためのディープラーニングワークフロー – 実践例
ワークショップ
– Christoph Beierle, Marco Ragni, Frieder Stolzenburg, and Matthias Thimm: Formal and Cognitive Reasoning FCR 2021に関する第7回ワークショップ
– Barbara Hammer, Malte Schilling, and Laurenz Wiskott: Trustworthy AI in the Wild(野生の信頼できるAI
– Ulrich John, Petra Hostedt, and Mario Wenzel: 35th Workshop on (Constraint) Logic Programming (WLP 21)
– シルヴィア・メルツァー、シュテファン・ティーマン、ヨスト・ギペール:人文科学中心AI(CHAI)
– ユルゲン・ザウァーとシュテファン・エデルカンプ:計画と構成(PuK)
– アンドレアス・ハイン、マーク・シュヴェーダ、シルケ・シクタンツ、シュテファン・タイペル、
Contents
本論文では、複雑なルーティング問題に取り組むために、従来の方法よりもモデルの複雑さを利用した改良型状態表現による新しいアプローチを紹介する。我々は、時間的差異から学習することでこれを可能にする。具体的には、Q-Learningを採用する。我々のアプローチは、CVRP上で解を構築するためにノードを順次挿入する自己回帰的な方針に対して、最先端の性能を達成することを示す。さらに,機械学習を用いてMDVRPに取り組んだのは我々が初めてであり,この問題タイプでは我々のアプローチが他のML手法よりも大きな利益をもたらすことを実証する.
機械学習や統計学でよく知られている主成分分析(PCA)は、点間相関に基づくため、一般に時間に依存しないデータに適用される。動的主成分分析(DPCA)は、データセットにそれ自身の遅延バージョンを追加することでこの問題を処理する。本論文では、PCAとDPCAの両方が、κ-循環最大分散基底の特殊な場合であることを示す。このようなκ-circulant基底を求める制約付き線形最適化問題を定式化し、閉形式の解を提示することにより、DPCAの更なる解釈と大幅な高速化を可能にする。さらに、提案する基底と離散フーリエ変換、有限インパルス応答フィルタ、スペクトル密度推定との関連性を指摘する。
達成ゲームの命題表現に関する最近の進展により、定量化ブール式の最新技術をこれらのゲームの解法に適用することに新たな関心が持たれている。しかし、解答空間を探索するために必要な数量詞の交替の数は、依然としてこれらの手法の適用性を損ない、制限している。本論文では、通常の普遍量詞と存在量詞の交替の代わりに、第2プレイヤーのブロック戦略を符号化し、プレイの最後の手を存在量詞の単一列で表現することができることを示す。我々の方法は、有名な達成ゲームであるHarary’s Tic-Tac-Toeにおいて、最新の定量化ブール式ソルバーの性能を向上させることを実験的に示した。
知識グラフは、金融証券などの実世界の実体やその相互関係をグラフで記述することにより、金融情報を柔軟に構造化して表現するための強力なフレームワークを提供する。意味論的質問応答システムは、自然言語の質問を用いて知識グラフから情報を取り出すことができるため、正式な問い合わせ言語に習熟している必要はない。本研究では、金融知識グラフの概念実証と、金融分野に特化した意味的質問応答フレームワークを提案する。我々の実装したアプローチは、スパンベースのエンティティ及び関係抽出モデルとBERTエンベッディングを用いて、単一ファクトの自然言語質問を対応する形式的な問い合わせ表現に変換するものである。共同抽出モデルを採用することで、分類ベースの質問応答のための標準的なパイプライン型アプローチに存在するエラー伝播の懸念を軽減することができる。本論文では、金融知識グラフのインスタンスから生成された合成データセットを用いて、このフレームワークをテストする。その結果、関係分類のF1スコアは84.60%、実体検出のF1スコアは97.18%であり、非常に有望な結果を得ることができた。
教師あり学習のためのデータセットを作成することは,非常に困難で高価な作業であり,各入力例に期待される出力(例えば,物体クラス)を注釈する必要がある.教師なし学習と半教師付き学習を組み合わせることで、半教師付き学習は未知のクラスが追加された部分的にラベル付けされたデータセットのための新しいパラダイムを提案している。本論文では、この新しい学習パラダイムのより良い理解に焦点を当て、ラベル付きデータの量、拡張クラスの数、隠れクラスの選択が予測の品質に与える影響を分析する。特に、補強クラスの数は分類精度に大きく影響し、補強クラスが少なすぎたり多すぎたりすると分類器の性能が低下するため、データセットごとにチューニングが必要であることがわかる。また、畳み込みネットワークを特徴抽出器として用い、単純な重みベースのL2ノルムではなく、出力駆動型のエントロピー正則化を適用すると、様々なデータセットで結果を改善できることを示す。
トランスフォーマーモデルは近年、コンピュータビジョンの研究者の間で大きな関心を集めており、それ以来、従来畳み込みニューラルネットワークで扱われてきたいくつかの問題にうまく採用されるようになった。同時に、Generative Adversarial Network (GAN)を用いた画像合成もここ数年で飛躍的に向上しています。最近提案されたTransGANは、変換器ベースのアーキテクチャのみを用いた最初のGANであり、畳み込みGANと比較して競争力のある結果を得ることができます。しかし、変換器はデータを大量に消費するため、TransGANはデータの増強、学習時の補助的な超解像タスク、自己注視機構を導くためのマスキングを事前に行う必要がある。本論文では、トランスフォーマーに基づく生成器と畳み込み識別器の組み合わせを研究し、前述の必要な設計選択の必要性を取り除くことに成功した。本論文では、トランスフォーマー型ジェネレータと畳み込み型識別器の組み合わせについて検討し、その設計の必要性を排除することに成功した。さらに、生成された画像の周波数スペクトル特性を調査し、我々のモデルが注意に基づく生成器の利点を保持していることを観察する。
ここ数年、XAIの研究は、主に深層学習モデルを説明するための新しい技術的アプローチを開発することに関係してきた。しかし、最近の研究では、ステークホルダーの異なるコンテキストや要件に合わせた説明の必要性が認識され始めています。説明は、モデルの開発者だけでなく、ドメインエキスパートやエンドユーザーにも適したものでなければならない。したがって、異なる利害関係者を満足させるために、説明の方法を組み合わせる必要がある。モデル予測の透明性を高めるためにマルチモーダルな説明が行われているが、ある時点での理解度に応じてユーザが情報を求めることができるプロセスとしての説明に焦点を当てた研究はあまりない。したがって、マルチモーダルな説明の他に、異なる抽象度での説明を探索する機会を提供する必要がある。我々は、マルチレベル説明とマルチモーダル説明を組み合わせたプロセスベースのアプローチを提示する。ユーザは会話型インタラクションにより、テキストによる説明や可視化をドリルダウン方式で求めることができる。理解可能なモデルを学習するために、解釈可能な機械学習アプローチである帰納論理プログラミングを使用する。さらに、分類器の決定を説明するために、各例に対して説明木を作成するアルゴリズムを提示する。この説明木は、ユーザが様々なレベルの答えを得るために移動することができる。我々は、生物に関するセマンティックネットから誘導される概念に対する概念実証のための実装を提供する。
世界的なトレンドがデータ駆動型産業へと移行する中、スキャンした文書のデジタル画像を機械で読み取り可能な情報に変換できる自動化アルゴリズムの需要が急速に高まっています。データのデジタル化は、データ分析ツールへの応用の機会であると同時に、従来は手作業で書類を検査する必要があったプロセスの自動化に向けた大きな改善でもあります。文字認識技術の導入により、画像から人間が読める文字を機械が読める文字に変換するタスクはほぼ解決されたが、表の意味を抽出するタスクは長年あまり注目されてこなかった。表の認識は、表の検出と表構造の認識という2つの主要なタスクから構成される。この問題に関する先行研究のほとんどは、エンドツーエンドのソリューションを提供せず、また、回転した画像や文書画像内のノイズアーチファクトなどの実際の適用条件に注意を払うことなく、どちらかのタスクに焦点を当てています。最近の研究では、十分に大きなデータセットがないため、表構造認識のタスクに対して、伝達学習と組み合わせた深層学習アプローチへの明確な傾向があることが示されている。本論文では、表組み認識の問題に対するエンドツーエンドのソリューションを提供する、Multi-Type-TD-TSRと名付けられた多段パイプラインを紹介します。これは、テーブル検出のために最先端の深層学習モデルを利用し、テーブルの境界線に基づいて3つの異なるタイプのテーブルを区別する。テーブル構造の認識には、すべてのテーブルタイプで動作する決定論的非データ駆動型アルゴリズムを使用する。さらに、2つのアルゴリズムを提示する。1つは境界のない表に対するもの、もう1つは境界のある表に対するものであり、これらは使用する表構造認識アルゴリズムのベースとなるものである。ICDAR 2019テーブル構造認識データセットでMulti-Type-TD-TSRを評価し、新たな最先端を達成する。
ニューラル・アーキテクチャ・サーチ(NAS)は、ネットワーク・アーキテクチャを自動的に把握し、特定のアプリケーションに適したネットワークを人手を介さずに構築する有望な手法である。しかし、NASでは、各探索の訓練段階でネットワークの最適なパラメータを求めるために、膨大な計算資源が必要となります。一般的に深層学習モデルでは、モデルサイズと精度の間にトレードオフが存在するため、より高い精度を追求するためにモデルサイズが大きくなる傾向があります。エッジAIなどリソースが限られたアプリケーションでは、精度の向上よりもネットワークの重みを減らすことが重要な場合があります。あるいは、最大限のリソースで高精度を実現することの方が重要かもしれません。本研究の目的は、限られた重みの数で十分な精度を持つモデルを見つけ、探索時間を短縮することである。NASの最速手法の一つであるDifferential Network Search (DARTS)アルゴリズムを改良し、損失関数に別の制約を加えることで、ネットワークの重みの数を制限する手法を提案する。提案アルゴリズムを3つの制約条件を用いて評価する。従来のDARTSアルゴリズムと比較して、提案アルゴリズムは、モデルサイズの範囲を適切に設定することで、探索時間を最大40%短縮することができる。また,DARTSと同程度の精度を達成する.
航空写真の意味的なセグメンテーションは、都市の成長の追跡、森林伐採の追跡、あるいは地図の自動作成と更新など、多くの有用なアプリケーションを可能にする。しかし、航空画像の自動解析のための適切なモデルを学習するために十分な学習データを収集することは、通常、多くの場合、あまりにも労力がかかり、したがって、あまりにも高価である。そのため、既存のモデルを適応させたり、既存のデータセットから新しいラベル付けされていない航空画像に知識を伝達したりするためには、領域適応技術が必要になることが多い。最近の適応手法では、多くのモデル要素、損失、損失重みを含む複雑なアーキテクチャを使用している。これらのアプローチは、そのハイパーパラメータが与えられた適応問題に対して最適化することが困難であるため、実際に適用することは困難である。この複雑さは、ドメイン不変の要素、例えば、構造や形状を、ドメイン固有の要素、例えば、テクスチャから分離しようとした結果である。本論文では、セマンティックセグメンテーションのための新しいモデルを提示する。このモデルは、航空写真において最先端の性能を達成するだけでなく、形状とテクスチャのための別々の特徴表現を本質的に学習するものである。我々の目標は、よりシンプルでありながら効果的な将来のドメイン適応アプローチのための基礎となるモデルを提供することである。エンドツーエンドのトレーニングを通じて、私たちの深層学習モデルは、微分可能な方法でピクセル単位の意味的セグメンテーションにレンダリングすることができる二値空間分割木、解像度に依存しない表現にデコードできる特徴表現に航空写真をマッピングすることを学習します。
時系列予測は、多様なアプリケーションを持つ成長分野である。しかし、内的・外的影響によるシステム挙動の時間的変化は困難である。そのため、以前に学習した予測モデルの予測はもはや有用でない可能性がある。本論文では、EVent-triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data (EVARS-GPR) を紹介する。これは、季節データにおける対象変数のスケールの急激な変化に対応できる新しいオンラインアルゴリズムである。EVARS-GPRは、オンラインによる変化点検出と、変化点前のサンプルに対するデータ補強を用いた予測モデルの再適合を組み合わせたものである。模擬データを用いた実験の結果、EVARS-GPRは幅広い出力スケールの変化に適用可能であることがわかった。EVARS-GPRは、同程度の計算資源を消費する手法と比較して、異なる実世界データセットにおいて平均20.8%のRMSEの減少を実現することができた。さらに、我々のアルゴリズムは、定期的なリフィット戦略を持つすべての比較対象に対して、平均ランタイムを6倍削減することを示す。要約すると、我々は、ターゲット変数のスケールの変化を伴う季節性時系列のための計算効率の良いオンラインフォーキャスティングアルゴリズムを提示し、シミュレーションと実世界のデータでその機能を実証する。全てのコードはGitHubで公開されている: https://github.com/grimmlab/evars-gpr
ディープニューラルネットワーク(DNN)は、高次元データのクラスタリングという難題を解決する手段を提供する。DNNは有用な特徴を抽出することができるため、クラスタリング技術に適した低次元の表現を生成することができます。クラスタリングは通常、学習ラベルが利用できない純粋に教師なし設定で実行されるため、DNNの特徴抽出器をどのように学習させるかという問題が発生する。最も正確な既存のアプローチは、DNNの訓練とクラスタリングの目的を組み合わせることで、クラスタリングプロセスからの情報を、クラスタリングのためのより良い特徴を生成するためにDNNを更新するために使用することができます。このアプローチの問題点の一つは、クラスタリングアルゴリズムによって生成されるこれらの「擬似ラベル」はノイズが多く、それらが含む誤差がDNNの学習に悪影響を与えることである。本論文では、DNNの学習に最も信頼性の高い擬似ラベルのみを用いる、選択的擬似ラベルクラスタリングを提案する。我々は、ある条件下で性能が向上することを正式に証明する。画像クラスタリングのタスクに適用したところ、この新しいアプローチは3つの有名な画像データセットにおいて、最先端の性能を達成した。
母斑とメラノーマの識別における畳み込みニューラルネットワークの精度を向上させるため,皮膚病変画像の3つのデータセット(ISIC2016,ISIC2018,MedNode)において,マスキングとクロッピングの9種類の組み合わせを検証した。10倍クロスバリデーションで確認した我々の実験では、クロッピングは分類性能を向上させるが、クロッピングと健康な皮膚領域のマスキングを一緒に適用すると特異性が低下することが示された。Grad-CAM saliencyマップの解析により、実際に我々のCNNモデルは母斑を分類する際に境界部の健康な皮膚に焦点を当てる傾向があることが示された。
我々は、畳み込みニューラルネットワーク(CNN)の層の活性化に基づき、画像クラスタをインタラクティブに探索・操作することができるバーチャルリアリティ(VR)アプリケーションを発表する。次元削減技術を適用して画像を3次元空間に投影し、そこでユーザはモデルと直接対話することができる。ユーザは自然なハンドジェスチャによって画像の位置を変更することができる。この操作は、新しい空間情報と画像の新しいラベルに基づいて、ネットワークの追加学習ステップをトリガーする。学習ステップが終了すると、CNNの新しい出力に従って視覚化が更新される。その目的は、モデルのクラスタ出力を視覚化し、同時にモデルの理解を向上させることである。我々はVR投影を計算するための2つの異なるアプローチ、PCA/t-SNE次元削減を組み合わせたアプローチと”変分オートエンコーダ (Variational Autoencoder, VAE)の概要とアルゴリズム及び実装例“で述べている変分オートエンコーダ(VAE)ベースのアプローチについて述べる。
インターネット上の音声データの増加により、ニューラルネットワークに基づく音声合成アプリケーションの開発・訓練用のデータセットが多数提供されています。音声の質が大きく異なること、サンプリングレートが低いこと、テキストの正規化が行われていないこと、音声サンプルと対応するトランスクリプトセンテンスのアライメントが不利なことなどにより、このタスクで学習したディープニューラルネットワークの性能はまだ限定されています。さらに、ドイツ語のような言語のデータリソースは、まだ非常に限られています。HUI-Audio-Corpus-German “は、TTSエンジンのための大規模なオープンソースデータセットで、処理パイプラインで作成されており、高品質の音声と転写文のアライメントを生成し、作成に必要な手作業を減少させます。
否定は、形式論理学および自然言語における操作であり、”not “や他の否定の手がかりを加えることによって、ある命題を反対のことを述べる命題に置き換えることができる。否定を適切に扱うことは、不完全で一貫性のない知識にもかかわらず意味のある結論を導き出す人間の能力をモデル化することを目的とする認知的推論に必要である。認知的推論の一つのタスクは、自然言語の文によって与えられる質問に答えることである。文を自動的に形式論理表現に変換する談話表現理論に基づくツールがあり、数式データベースや知識データベースの述語名を使って知識を追加することが可能である。しかし、実際には論理データベース内の知識は常に不完全である。そのため、自動推論システムの前方推論だけでは、完全な証明ではなく、部分的な正の知識しか得られず、負の知識は推論中にしか利用されないことが多く、質問に対する答えを導くのに十分でない。そのため、我々は構文的な否定、厳密には否定された事象や性質を排除することを目的としている。本論文では、否定された事象や性質をその逆で置き換えるために、否定された事象や性質を決定する効果的な手順を説明する。これは、一般的な質問応答のための論理と機械学習の両方を用いた認知推論の基礎となるものである。我々は、いくつかのベンチマークにより本手順を評価し、我々の認知推論システムにおいてその実用的な有用性を実証する。
ディープニューラルネットワーク(DNN)に対する敵対的攻撃の脅威が高まっていることを考えると、効率的な検出方法の研究はこれまで以上に重要である。本研究では、既に学習済みの分類モデルのクラススコアに基づく敵対的攻撃検知について詳しく見ていきます。我々は、敵対的な例を検出するために、クラススコアに対してサポートベクターマシン(SVM)を学習させることを提案する。本手法は、様々な攻撃によって生成された敵対的な事例を検出することができ、多数の深い分類モデルに容易に採用することができる。本手法は、既存の手法と比較して検出率が向上し、かつ実装が容易であることを示す。また、様々な敵対的な攻撃を調査し、様々な深層分類モデルに対して広範な実証分析を行った。さらに、提案する手法は、敵対的な攻撃の組み合わせの検出においてより優れていることを観察する。この研究は、既に学習された分類モデルのクラススコアを使用するだけで、様々な敵対的攻撃を検出できる可能性を示している
近年、科学者が知識発見のために用いるプロセスを記述するために、アブダクティブ・メソッド理論(ATOM)が提案された。本論文では、ATOMに基づく知識発見と進化(KDE)のためのエージェントアーキテクチャを提案する。このエージェントは、その内部知識の様々な側面を表現するために、オントロジー、ルール、ベイジアンネットワークの組み合わせを組み込んでいる。エージェントは外部のAIサービスを利用して、入力される観測データから予期せぬ状況を検出する。そして、ルールを使って現在の状況を分析し、ベイジアンネットワークを使って予想外の状況に対するもっともらしい説明を見つける。このアーキテクチャは、家庭の毎日の電力消費パターンを監視するためのユースケースアプリケーションで評価・分析される。
インタラクティブで協調的なアプローチは、教育現場において成功裏に利用されてきました。しかし、機械学習やAIでは、このようなアプローチは通常、かなりの技術的専門知識を必要とする。そこで我々は、AI技術の日常的な利用者を対象に、エンドユーザーがAIをより深く理解するための新しい対話型アプローチを提案し、評価した:参加型機械学習ショーである。このショーでは、参加者がキーワード認識のためのニューラルネットワークのコーパスデータを集め、その精度をインタラクティブに学習・テストすることができました。さらに、ネットワークの判断について、定評あるXAIフレームワーク(LIME)とバーチャルエージェントの両方を用いて解説しました。美術館の協力のもと、いくつかのプロトタイプショーを実施し、参加者と非参加者にインタビューを行い、(X)AIに対する意識について洞察を得ました。私たちが使用したフレームワークはもともと専門家向けに設計されたものでしたが、バーチャルエージェントとエデュテインメントショーにXAIビジュアライゼーションを取り入れたことが、参加者から概ね肯定的に評価されたことが推察されます。また、両グループを比較したところ、参加者は非参加者に比べて、テクノロジーに対して有意に高い能力と肯定的な感情を抱いていることがわかりました。この結果は、エンドユーザ向けのXAIを設計する際に、ユーザ固有のニーズ、個人的な背景、および(X)AIシステムに関するメンタルモデルを考慮する必要があることを示唆するものです。
Markov等価クラスからの有向無サイクルグラフ(DAG)のカウントとサンプリングは、グラフィカルな因果解析の基本的なタスクである。本論文では、これらのタスクに対して最近提案された多項式時間アルゴリズムについて述べる。本提案は、グラフィカルモデリングにおける長年の未解決問題を解決するものである。実験により、提案されたアルゴリズムが実装可能であり、実際に効果的であることが示された。本論文は、第35回AAAI人工知能会議においてAAAI-21 Distinguished Paperとして表彰された仕事[24]の拡張アブストラクトである。
PCアルゴリズムは、観測データから因果構造を学習するための最も著名な制約ベースの手法の1つである。このアルゴリズムは、構造を推測するために条件付き独立性(CI)テストに依存し、その時間消費は実行されたCIテストの数に大きく依存する。我々は、オラクルモデルにおいて、ED-PCと元のPCアルゴリズムが同じ構造を推論するような、ED-PCと呼ばれる修正版を提示する。しかし、分離集合の明示的な知識なしにv-structureを検出することを可能にする新しいアイデアを用いることにより、我々の方法は必要なCIテストの数を大幅に削減することができる。これは、非同接をかなり早い段階で検出することにより可能となる。
説明可能な人工知能(AI)は、透明性の要求が高い領域において、ブラックボックス型機械学習(ML)アプローチの重要な構成要素となってきている。医療用エキスパートシステムは、生命を左右する意思決定タスクを扱うため、本質的に解釈可能、透明、理解可能である必要がありますが、金融監査のような他のアプリケーション領域でも、MLの信頼性が求められています。欧州の一般データ保護規則(GDPR)は、監査人が企業の金融取引や財務諸表を評価するような高度に規制された領域にも適用されます。この論文では、グランドトゥルースがない場合でも、異常なデータポイントを透過的に検出することによって、金融監査人を支援するMLアーキテクチャを提案する。多くの場合、異常検出(Anomaly Detection: AD)は教師あり方式で実行され、モデル非依存的な説明器を容易に適用することができるが、教師なしADは特に異なるアルゴリズム間でほとんど理解されていない。本研究では、この問題を解決する方法について検討する。独立したアルゴリズムのアンサンブルを用い、異なる粒度で外れ値を識別する教師なしADのための統合アーキテクチャを説明する。さらに、教師あり近似と局所解釈可能なモデル不可知論的説明(LIME)を用いて、このようなアンサンブルのためにどのようにモデル不可知論的説明を生成できるかを示す。さらに、説明の後処理として、説明の選択性、受信者依存性、および理解しやすさを実現する技術を提案する。一言で言えば、我々のアーキテクチャは、教師なしADのタスクのためのモデル不可知論的説明可能性への道を開くものである。さらに、クラスタリング問題のような他の教師なしML問題にもスムーズに移行することができる。
推論が区別できない確率変数の集合の代表を用いて行われるため、持ち上げられた推論アプローチは計算量を削減し、動的確率関係モデルにおいて領域サイズに関係なく扱いやすい推論を可能にする。しかし、現実的な応用分野においては、持ち上げられた表現を維持することは困難である。なぜなら、証拠がしばしば対称性を破り、持ち上げられた技術が地上の対応物にフォールバックしてしまうからである。既存のアプローチでは、時間的に前進する際に、類似しているが区別可能なオブジェクトを統合することで、非対称な証拠を打ち消すことができる。事後的に分割を元に戻すことは合理的であるが、我々は、不正確な情報や一過性のイベントによる不必要な分割を防ぐために、事前に近似的なモデルの対称性を学習することを提案する。特に、多変量序数パターン記号化アプローチとそれに続くスペクトラルクラスタリングを提案し、時間の経過とともにほぼ同じ振る舞いをするドメインエンティティの集合を決定する。オブジェクトクラスタを用いることで、時間の経過とともに同じ振る舞いをする傾向があるエンティティをまとめることで、不必要な分割を避けることができる。対称的、非対称的な実体の振る舞いを先験的に理解することで、観測されていない実体の根拠を推論することにより、より現実を表現するための推論の精度を向上させることができる。実証実験の結果、我々のアプローチは推論の精度を高く保ちつつ、不要な分割を減らす、すなわち実行時間を向上させることができた。
エージェントベースシミュレーションでエージェントと環境の相互作用をモデル化するには,慎重な設計上の選択が必要です.相互作用の相手を選択することは、しばしば無視されがちであるが、重要な要素を形成している。
この論文では、エージェントベースシミュレーションモデルの要素として、アフォーダンススキーマタを紹介する。また、シミュレーションの実行中に、アフォーダンスに基づき、相互作用の相手が提供する行動の可能性をどのように捉えることができるかを説明する。また、導入した概念を小さな概念実証の実装で説明する。
本研究では、模倣学習データセットからの疎な報酬信号を用いて、画像中の報酬オブジェクトをマスクする学習アプローチについて議論する。そのために、批評家モデルからのフィードバックのみを用いて砂時計ネットワークを学習する。砂時計ネットワークは、高得点画像の批評家のスコアを下げ、低得点画像の批評家のスコアを上げるために、これら2つの画像間でマスクされた領域を入れ替えることでマスクを生成することを学習する。私たちは、NeurIPS 2020 MineRL Competition Trackの模倣学習データセットでモデルを訓練し、私たちのモデルは、報酬信号が疎な複雑な対話型3D環境において、報酬オブジェクトをマスクすることを学習しました。このアプローチは、このコンペティションの1位受賞ソリューションの一部でした。動画デモとコードこのhttpsのURL
本論文では、糖尿病性網膜症(DR)の等級付けにおける領域適応の問題を検討する。我々は、医学領域の知識に触発され、網膜血管画像の再構成に基づく新しい自己教師付きタスクを定義することにより、不変のターゲットドメイン特徴を学習する。次に、教師なし領域適応法のベンチマークを行う。その結果、我々のアプローチは既存の領域適応戦略を凌駕することが示される。さらに、対象領域の学習データ全体を利用する場合、標準的なネットワークアーキテクチャを適用し、画像レベルのラベルを用いるだけで、最終的な分類精度でいくつかの最先端アプローチと競合することが可能であることを示す。
健常者支援、障がい者支援の両分野において、日常業務を支援する自動化システムの普及が進んでいる。このような支援システムの開発は、多くの時間と労力を必要とする困難な作業であり、しばしば専門家の関与が必要となる。この問題に対処するため、行動解釈と支援のための自動的な知識抽出とモデル生成について、さまざまな研究が行われてきた。しかし、既存の研究は、通常、自動知識生成のタスクのための1つのデータソースに集中しており、潜在的に、人を適切にサポートすることができない単純なモデルになってしまう可能性があります。この問題に対処するため、本研究では、異なるタイプのソースからの知識の抽出と、行動の解釈と支援戦略の生成に使用する統一セマンティックモデルへの統合を提案するBehavE方法論を提示する。
コメント