画像情報処理技術

機械学習技術 人工知能技術 確率的生成モデル デジタルトランスフォーメーション技術 アルゴリズム 機械学習における数学 深層学習 本ブログのナビ

画像情報処理技術について

画像認識技術とは、コンピュータがデジタル画像を解析し、その画像に写っている物体や人物、風景などを識別する技術のことを指し、それらに用いられるアルゴリズムは、大きく分けて以下のようなものになる。

  • 特徴抽出アルゴリズム: 画像から特徴的な部分を抽出するアルゴリズムとなる。例えば、エッジ検出、色情報、形状情報などを抽出する。
  • 分類アルゴリズム: 画像の特徴量を用いて、物体や人物、風景などを分類するアルゴリズムとなる。代表的なアルゴリズムとしては、サポートベクターマシン(SVM)、決定木、ランダムフォレスト、ニューラルネットワークなどがある。
  • ディープラーニング(DNN)アルゴリズム: 多層のニューラルネットワークを用いた、高度な画像認識が可能なアルゴリズムとなる。代表的なものには、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、深層学習などがある。

この中で特徴抽出と分類が同時に実現され、また高い精度も得られる等の理由から、CNN等のDNNアルゴリズムを使うことが一般的となっている。ただし、DNNは大量の学習データが必要となるため、少量のデータしかない場合などは他のアルゴリズムを組み合わせたアプローチも検討されている。

この画像認識技術は、セキュリティ監視、医療画像診断、自動運転技術、ロボット工学、画像検索など、多岐にわたる分野で利用されている。以下にそれらの代表的な適用事例を挙げる。

  • セキュリティ監視: 監視カメラからの映像を解析して、不審な動きや異常を検知するシステムに利用される。これは例えば、監視カメラに映る人物の顔認識や、特定の物体を識別する技術等になる。
  • 医療画像診断: 医療画像を解析して、病気や異常を検出するために利用される。これは例えば、レントゲンやCT画像から肺がんや脳卒中の診断等になる。
  • 自動運転技術: 自動車に搭載されたカメラやセンサーからの情報を解析して、道路や障害物、歩行者などを検出し、自動運転を実現するために利用される。
  • ロボット工学: ロボットにカメラやセンサーを搭載して、周囲の状況を把握し、作業を自動化するために利用される。これは例えば、工場内での部品の認識や分類、物流ロボットの誘導等になる。
  • 画像検索: インターネット上の画像を解析して、キーワードに合った画像を検索するために利用される。これは例えば、商品画像を解析して、オンラインショッピングサイトでの商品検索等になる。

ここではこれら画像認識技術に関して、深層学習技術以外のアプローチを含めて広範囲にその理論と様々な実用について述べている。

実装

画像認識システムは、コンピュータが画像を解析し、その中に含まれるオブジェクトや特徴を自動的に識別する技術となる。このシステムでは、画像処理、パターン認識、機械学習、ディープラーニングなどの様々な人工知能アルゴリズムと手法を組み合わせて実現されている。ここではこの画像認識システム構築のためのステップとそれらの具体的な実装について述べている。

画像情報処理において、前処理は、モデルの性能や収束速度に大きな影響を与え、画像データをモデルに適した形に変換する重要なステップとなる。以下に、画像情報処理のための前処理手法について述べる。

感情を抽出するために人工知能技術を使用する方法には主に(1)自然言語処理、(2)音声認識、(3)画像認識、(4)生体情報分析等のアプローチがある。これらの手法は、機械学習やディープラーニング等のアルゴリズムと組み合わされ、基本的には大量のトレーニングデータを用いて検出される。また、異なるモダリティ(テキスト、音声、画像、生体情報など)を組み合わせて感情を総合的に把握するアプローチもより精度の高い手法となる。

感情認識の為のモデルは”感情認識と仏教哲学とAIについて“で述べているように様々なモデルかぜ提案されている。また、音声認識、画像認識、自然言語処理、生体情報分析等のAI技術による感情の抽出も数多く行われている。ここでは、それらの技術の詳細について述べる。

フランク・ウォルフ法(Frank-Wolfe method)は、1956年にマルグリート・フランクとフィリップ・ウォルフによって提案された、非線形最適化問題を解くための数値計算アルゴリズムとなる。フランク・ウォルフ法は、線形計画問題にも関連しており、連続最適化問題への適用も可能な手法となる。ただし、収束速度は一般的な最適化アルゴリズムよりも遅い場合があり、そのため、高次元の問題に対しては他の効率的なアルゴリズムが好まれることがある。フランク・ウォルフ法は、大規模な最適化問題や制約付き最適化問題において有用であり、機械学習や信号処理、画像処理などの分野で広く利用されている。また、フランク・ウォルフ法は、他の最適化手法と組み合わせて使用することも多くある。

CNN(Convolutional Neural Network)は、主に画像認識、パターン認識、画像生成などのコンピュータビジョンタスクに使用される深層学習モデルとなる。ここではこのCNNに関しての概要と実装例について述べている。

Contrastive Predictive Coding(CPC)は、表現学習(representation learning)の手法の一つで、音声や画像などのデータから、意味的に重要な表現を学習するために利用されるものとなる。この手法は、教師なし学習の一形態であり、学習データ内での異なる観測を対比(contrast)することによって表現を学習している。

DenseNet(Densely Connected Convolutional Network)は、2017年にGao Huang、Zhuang Liu、Kilian Q. Weinberger、およびLaurens van der Maatenによって提案された”CNNの概要とアルゴリズム及び実装例について“でも述べている深層畳み込みニューラルネットワーク(CNN)のアーキテクチャとなる。DenseNetは、畳み込みニューラルネットワークの訓練中に「密な(dense)」接続を導入することで、深層ネットワークの訓練の効率性を向上させ、勾配消失問題を軽減している。

ResNetは、2015年にKaiming Heらによって提案された”CNNの概要とアルゴリズム及び実装例について“でも述べている深層畳み込みニューラルネットワーク(CNN)のアーキテクチャであり、ResNetは、非常に深いネットワークを効果的に訓練するための革新的なアイデアを導入し、コンピュータビジョンタスクにおいて驚異的な性能を達成したアプローチとなる。

GoogLeNetは、Googleが2014年に発表した”CNNの概要とアルゴリズム及び実装例について“でも述べている畳み込みニューラルネットワーク(CNN)のアーキテクチャとなる。このモデルは、ImageNet Large Scale Visual Recognition Challenge(ILSVRC)などのコンピュータビジョンタスクにおいて、当時の最先端の性能を達成しており、GoogLeNetは、その特異なアーキテクチャとモジュール構造で知られいる。

VGGNet(Visual Geometry Group Network)は、2014年に開発された”CNNの概要とアルゴリズム及び実装例について“でも述べている畳み込みニューラルネットワーク(CNN)のモデルで、コンピュータビジョンタスクにおいて高い性能を達成したものとなる。VGGNetは、University of OxfordのVisual Geometry Groupに所属する研究者によって提案されている。

AlexNet(アレックスネット)は、2012年に提案されたディープラーニングモデルの一つであり、コンピュータビジョンタスクにおいて画期的な進歩をもたらした手法となる。AlexNetは、”CNNの概要とアルゴリズム及び実装例について“で述べている畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)の一つで、主に画像認識タスクに使用される。

EfficientNet(エフィシエントネット)は、軽量で効率的なディープラーニングモデルの一つであり、畳み込みニューラルネットワーク(CNN)のアーキテクチャとなる。EfficientNetは、2019年にTan and Leによって提案され、モデルのサイズと計算リソースを最適化しながら、高い精度を達成することを目指して設計されたものとなる。

LeNet-5(LeNet-5)は、ディープラーニングの分野において重要な歴史的なニューラルネットワークモデルの一つであり、”CNNの概要とアルゴリズム及び実装例について“でも述べている畳み込みニューラルネットワーク(CNN)のパイオニアであるユアン・ルカン(Yann Lecun)によって1998年に提案された手法となる。LeNet-5は、手書き数字認識タスクで非常に成功し、その後のCNNの発展に寄与している。

MobileNetは、コンピュータビジョン分野で広く使用されているディープラーニングモデルの一つであり、Googleが開発したモバイルデバイス向けに最適化された軽量で高効率な”CNNの概要とアルゴリズム及び実装例について“でも述べている畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)アーキテクチャとなる。MobileNetは、画像分類、物体検出、セマンティックセグメンテーションなどのタスクに使用できるが、特にリソース制約のあるデバイスやアプリケーションで優れたパフォーマンスを提供している。

SqueezeNet(スクイーズネット)は、軽量でコンパクトなディープラーニングモデルの一つで、”CNNの概要とアルゴリズム及び実装例について“でも述べている畳み込みニューラルネットワーク(CNN)のアーキテクチャとなる。SqueezeNetは、畳み込みニューラルネットワークを小さなファイルサイズと低い演算量で実現することを目指して設計されており、主にリソース制約のある環境やデバイス向けに適している。

U-Netは、画像セグメンテーション(画像の各ピクセルを対応するクラスに割り当てるタスク)におけるディープラーニングアーキテクチャの一つであり、2015年に提案されたこのネットワークは、医療画像処理の分野で特に有用性が高く、セマンティックセグメンテーションにおいて良好な性能を発揮するものとなる。

物体検出技術は、画像やビデオ内の特定の物体やオブジェクトを自動的に検出し、それらの位置を特定する技術となる。物体検出はコンピュータビジョンや画像処理の重要なアプリケーションであり、多くの実世界の問題に応用されている。ここでは、この物体検出技術に関する様々なアルゴリズムと実装例について述べている。

多クラス物体検出モデルは、画像やビデオフレーム内の複数の異なるクラス(カテゴリ)の物体を同時に検出し、それらの物体の位置を境界ボックスで囲むタスクを実行するための機械学習モデルとなる。多クラス物体検出は、コンピュータビジョンや物体認識の重要なアプリケーションで使用され、自動運転、監視、ロボティクス、医療画像解析などのさまざまな分野で応用されている。

物体検出モデルに位置情報をリファインするためのヘッド(例:回帰ヘッド)を追加することは、物体検出の性能向上に非常に重要なアプローチとなる。このヘッドは、物体のバウンディングボックスの座標やサイズを調整し、検出された物体をより正確に位置づけるのに役立つ。

画像検出において、小さい物体の検出は一般的に難しい課題となる。小さい物体はピクセル数が少ないため、特徴が不明瞭で、通常の解像度の特徴マップでは捉えにくいことがあり、このような場合、イメージピラミッドと高解像度特徴マップを使用することが効果的なアプローチとなる。

Haar Cascades(ハールカスケード)は、物体検出のための特徴ベースのアルゴリズムであり、Haar Cascadesは、特に顔検出などのコンピュータビジョンタスクに広く使用されているものとなる。ここでは、このHaar Cascadesの概要とアルゴリズム及び実装について述べている。

Histogram of Oriented Gradients(HOG)は、コンピュータビジョンと画像処理の分野で、物体検出や物体認識に使用される特徴量抽出手法の一つとなる。HOGは、画像内のエッジや勾配方向の情報をキャプチャし、これらの情報を元に物体の特徴を表現する原理となる。ここではこのHOGに関する概要と課題、様々なアルゴリズムと実装例について述べている。

カスケード分類器(Cascade Classifier)は、物体検出タスクに使用されるパターン認識アルゴリズムの一つとなる。カスケード分類器は、高速な物体検出を実現するために開発されており、特にHaar Cascadesという形式が広く知られて、主に顔検出などのタスクで使用されている。ここでは、このカスケード分類器の概要、アルゴリズム及び実装例について述べている。

IoU(Intersection over Union)は、物体検出や領域提案などのコンピュータビジョンのタスクで使用される評価指標の一つで、予測されたバウンディングボックス(bounding box)と真のバウンディングボックスの重なり具合を示す指標となる。

物体検出におけるアンカーボックスは、畳み込みニューラルネットワーク(CNN)ベースの物体検出アルゴリズムで広く使用される概念で、アンカーボックスは、画像内の複数の位置やスケールにおける物体の候補領域を表現するために使用されるものとなる。

Selective Searchは、コンピュータビジョンと物体検出の分野で使用される、物体検出のための候補領域提案手法の一つであり、物体検出は、画像中の物体の位置を特定するタスクで、これはコンピュータビジョンの重要なアプリケーションの一つとなる。Selective Searchは、物体検出モデルが物体が存在する可能性が高い領域を提案するのに役立てられている。

EdgeBoxes(エッジボックス)アルゴリズムは、物体検出のための候補領域提案手法の一つとなる。この手法は、画像中の潜在的な物体の位置を特定するために使用され、物体が存在する可能性が高い領域を効率的かつ高速に提案するものとなっている。

プロポーザルネットワークは、主にコンピュータビジョンや画像処理の分野で使用されるニューラルネットワークの一種で、特に物体検出や領域提案(object proposal)のタスクで利用されるものとなる。プロポーザルネットワークは、入力画像から興味のある領域(物体や物体が存在する領域)を提案するためのモデルになる。

R-CNN(Region-based Convolutional Neural Networks)は、物体検出タスクにおいて深層学習を活用するアプローチの一つとなる。R-CNNは、物体が存在する領域を提案(プロポーズ)し、それらの領域を個別に畳み込みニューラルネットワーク(CNN)で処理し、物体のクラスと境界ボックスを予測する方法であり、R-CNNは、物体検出タスクにおいて非常に優れた性能を発揮している。ここではこのR-CNNの概要、アルゴリズム及び実装事例について述べている。

Faster R-CNN(Faster Region-based Convolutional Neural Networks)は、物体検出タスクにおいて高速で高精度な結果を提供する一連のディープラーニングモデルの一つであり、R-CNN(Region-based Convolutional Neural Networks)と呼ばれる以前のアーキテクチャの問題点を解決し、物体検出の分野で大きな進歩をもたらしたものとなる。ここでは、このFaster R-CNNの概要とアルゴリズム及び実装例について述べている。

YOLO(You Only Look Once)は、リアルタイム物体検出タスクのための深層学習ベースのアルゴリズムとなる。YOLOは、物体検出とクラス分類を同時に行うことができ、高速かつ高精度な結果を提供する。YOLOは、コンピュータビジョンと人工知能の分野で非常に人気のあるモデルの一つとなる。

SSD(Single Shot MultiBox Detector)は、物体検出タスクを行うためのディープラーニングベースのアルゴリズムの一つとなる。SSDは、物体検出モデルを高速化し、高精度な検出を実現するために設計されている。

Mask R-CNN(Mask Region-based Convolutional Neural Network)は、物体検出と物体セグメンテーション(インスタンスセグメンテーション)のためのディープラーニングベースのアーキテクチャであり、各物体の位置を境界ボックスで囲むだけでなく、物体内のピクセルレベルで物体をセグメント化する能力を持っており、物体検出とセグメンテーションを組み合わせた強力なモデルとなる。

EfficientDetは、物体検出タスクにおいて高い性能を持つコンピュータビジョンモデルの一つとなる。EfficientDetは、モデルの効率性と精度のバランスを取るために設計され、より少ない計算リソースで優れた性能を発揮する。

RetinaNetは、物体検出タスクにおいて優れた性能を発揮するディープラーニングベースのアーキテクチャで、物体の境界ボックスの位置を予測すると同時に、各物体クラスに属する確率を推定するものとなる。このアーキテクチャは、”SSD (Single Shot MultiBox Detector)の概要とアルゴリズム及び実装例について“でも述べているシングルショット物体検出(Single Shot Detector、SSD)として知られるアプローチに基づいているが、一般的なSSDよりも小さい物体や難しく見つけにくい物体の検出において優れた性能を発揮する。

アンカーボックス(Anchor Boxes)と高いIoU(Intersection over Union)の閾値は、画像認識の物体検出タスクにおいて重要な役割を果たす。以下に、これらの要素に関する調整と密な物体の検出について述べる。

Diffusion Models(拡散モデル)は、画像生成やデータ修復などのタスクにおいて優れた性能を示す生成モデルの一種となる。これらのモデルは、元のデータを一連のステップで段階的に「拡散」させることによって生成を行っている。

DDIM(Diffusion Denoising Score Matching)は、画像のノイズを除去するための手法の1つで、ノイズを除去するために拡散(diffusion)プロセスを利用し、スコアマッチング(score matching)という統計的手法を組み合わせたアプローチとなる。この手法では、まず入力画像にランダムなノイズを加えたノイズ画像を生成し、次に、これらのノイズ画像を入力として拡散プロセスを適用し、画像の構造を滑らかにすることでノイズを除去する。そして、スコアマッチングを使用して、ノイズを除去した画像の確率密度関数(PDF)を学習する。スコアマッチングでは、ノイズを除去した画像の勾配(スコア)と真のデータ分布の勾配との差を最小化することで、真のデータ分布を推定し、これにより、入力画像の真の構造をより正確に復元することができる。

Denoising Diffusion Probabilistic Models(DDPM)は、画像生成やデータ補完などのタスクに使用される確率モデルであり、確率的な生成過程を用いて、画像やデータの分布をモデル化するものとなる。

非最大値抑制(Non-Maximum Suppression、NMS)は、物体検出などのコンピュータビジョンのタスクに使用されるアルゴリズムで、主に、複数の重なり合ったバウンディングボックスや検出ウィンドウから最も信頼性の高いものを選択するために利用されるものとなる。

Stable Diffusionは、機械学習と生成モデルの分野で使われる手法の1つであり、画像や音声などの生成モデルとして知られる”Diffusion Models(拡散モデル)の概要とアルゴリズム及び実装例について“で述べているDiffusion Modelsの拡張となる。Diffusion Modelsは、画像の生成や修復において高い性能を示すことが知られており、Stable Diffusionは、これをさらに発展させ、より高品質で安定した生成を可能にする。

自動機械学習(AutoML)は、機械学習モデルの設計、トレーニング、最適化のプロセスを自動化するための手法やツールを指す。AutoMLは、機械学習の専門知識が限られているユーザーや、効率的なモデルの開発を求めるユーザーにとって特に役立つものであり、以下の主な目標を持っている。ここでは、このAutoMLの概要と様々な実装例について述べている。

類似性(similarity)は、二つ以上のオブジェクトや事物が共通の特徴や性質を持ち、互いに似ていると見なされる程度を表す概念であり、比較や関連性の観点からオブジェクトを評価したり、分類やグループ化を行ったりする際に重要な役割を果たしている。ここでは、様々なケースでの類似度の概念と一般的な計算方法について述べている。

セグメンテーションネットワークは、画像内の異なる物体や領域をピクセル単位で識別し、それらをセグメント(領域)ごとに分割するためのニューラルネットワークの一種となる。主にコンピュータビジョンのタスクで使用され、画像内の各ピクセルを異なるクラスやカテゴリに関連付けることができるため、多くのアプリケーションで重要な役割を果たしている。ここでは、このセグメンテーションネットワークの概要と様々なアルゴリズムにおける実装について述べている。

学習するデータの量が少ない(スモールデータ)という課題は、機械学習の精度を下げる要因として様々なタスクで現れる問題となる。スモールデータでの機械学習は、データの制約や過学習のリスクを考慮しながら、様々なアプローチをとる。ここではそれぞれのアプローチの詳細と実装例について述べている。

転移学習(Transfer Learning)は、機械学習の一種であり、あるタスクで学習したモデルや知識を、異なるタスクに適用する技術であり、通常、新しいタスクに必要なデータが少ない場合や、高い性能を要求するタスクにおいて、転移学習が有用となる。ここでは、この転移学習の概要及び様々なアルゴリズムと実装例について述べている。

ChatGPTStable Diffusionのような生成系のモジュールをコードレスに利用可能なオープンソースのツールとしてtext-generation-webuiとAUTOMATIC1111等がある。今回は、これらを用いたテキスト生成/画像生成のモジュールの利用法保について述べる。

サポートベクトルマシン(Support Vector Machine, SVM)は、パターン認識や機械学習の分野で広く使用される教師あり学習アルゴリズムであり、基本的にはデータを2つのクラスに分類するための境界面(識別面)を見つけることを目的としている。SVMの目的は、特徴ベクトル空間上でクラス間の最適な分離超平面を見つけることであり、この分離超平面は、特徴空間上のデータ点との最大マージンを持つように決定されるものとなる。マージンは、分離超平面と最も近いデータ点(サポートベクトル)との距離として定義され、SVMでは、マージン最大化の問題を解くことで最適な分離超平面を見つけることができる。

ここではこのサポートベクトルマシンの様々な実用例とそれらのpythonによる実装について述べる。

ロバスト主成分分析(Robust Principal Component Analysis、RPCA)は、データの中から基底を見つけ出すための手法であり、外れ値やノイズが含まれているようなデータに対しても頑健(ロバスト)に動作することを特徴としている。ここでは、このRPCAに関して様々な適用事例とpyhtonによる具体的な実装について述べている。

LightGBMは、Microsoftが開発したGradient Boosting Machine(GBM)のフレームワークであり、大規模なデータセットに対して高速かつ高精度なモデルを構築できるように設計されている機械学習のツールとなる。ここではpyhton、R、Clojureでの実装について述べる。

ここではpython Kerasの概要と基本的な深層学習タスク(MINISTを用いた手書き文字認織、Autoencoder、CNN、RNN、LSTM)への具体的な適用例について述べている。

スパースモデリングは、信号やデータの表現においてスパース性(疎な性質)を利用する手法となる。スパース性とは、データや信号において非ゼロの要素がごく一部に限られている性質を指す。スパースモデリングでは、スパース性を活用してデータを効率的に表現し、ノイズの除去、特徴選択、圧縮などのタスクを行うことが目的となる。

ここではこのスパースモデリングに関して、Lasso、コンプレッション推定、Ridge正則化、エラスティックネット、Fused Lasso、グループ正則化、メッセージ伝搬アルゴリズム、辞書学習等の各種アルゴリズムの概要と、画像処理、自然言語処理、推薦、シグナル処理、機械学習、信号処理、脳科学等の様々な適用事例に対する実装について述べている。

トレースノルム(または核ノルム)は、行列のノルムの一種であり、行列の特異値の和として定義されるものとなる。これは特に、行列の低ランク近似や行列の最小化問題において重要な役割を果たしている。

フロベニウスノルムは、行列のノルムの一種であり、行列の要素の2乗和の平方根として定義されるものとなる。これは、行列 \( A \) のフロベニウスノルム \( ||A||_F \) が以下の式で与えられることを意味する。

\[ ||A||_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2} \]

ここで、\( A = [a_{ij}] \) は \( m \times n \) 行列で、フロベニウスノルムは、行列をベクトルとみなした場合のユークリッドノルムに対応している。

アトミックノルム(Atomic norm)は、最適化や信号処理などの分野で使用されるノルムの一種であり、一般的に、アトミックノルムはベクトルや行列の構造的な特性を反映するために設計されたものとなる。

構造学習(Structural Learning)は、機械学習の一分野であり、データの構造や関係性を学習する手法を指し、通常、教師なし学習や半教師あり学習の枠組みで使用されるものとなる。構造学習は、データの中に存在するパターン、関係性、または構造を特定し、それをモデル化し、データの背後にある隠れた構造を明らかにすることを目的としている。構造学習は、グラフ構造、木構造、ネットワーク構造など、さまざまなタイプのデータ構造を対象としている。

ここでは、この構造学習に関して様々な適用事例と具体的な実装例について述べている。

重複のあるグループ正則化(Overlapping Group Lasso)は、機械学習や統計モデリングにおいて、特徴選択やモデルの係数の推定に使用される正則化手法の一種であり、通常のグループ正則化とは異なり、特徴が複数のグループに同時に属することが許容される手法となる。ここではこの重複のあるグループ正則化の概要と様々な実装例について述べる。

画像情報のラベル付けは、後述する様に様々な機械学習のアプローチで実現できる。今回は、それら機械学習のアプローチとルールベースのアプローチである制約充足によるアプローチの融合について考えてみたいと思う。これらのアプローチは自然言語処理等を用いたテキストデータのラベル付け等にも拡張できるものとなる。

トピックモデルは、大量のテキストデータからトピック(テーマやカテゴリ)を自動的に抽出するための統計的モデルとなる。ここでのテキストデータの例としては、ニュース記事、ブログ記事、ツイート、顧客レビューなどがある。トピックモデルは、データ内の単語の出現パターンを分析し、トピックの存在と各単語のトピックへの関連性を推定する原理となる。

ここではこのトピックモデルの概要と、主にpythonのライブラリを利用した様々な実装(ドキュメントからのトピックの抽出、ソーシャルメディアの分析、レコメンデーション、画像情報のトピック抽出、音楽情報からのトピックの抽出)について述べている。

自己教師あり学習(Self-Supervised Learning)は、機械学習の一種であり、教師あり学習の一種と考えることができる。教師あり学習では、ラベル付きのデータを使用してモデルを訓練するのに対して、自己教師あり学習では、ラベルの代わりにデータ自体を利用してモデルを訓練する手法となる。ここではこの自己教師あり学習に対して、様々なアルゴリズムと適用事例、実装例について述べている。

DBSCANは、データマイニングや機械学習における人気のあるクラスタリングアルゴリズムであり、クラスタの形状を仮定するのではなく、データポイントの空間密度に基づいてクラスタを発見することを目的としたアルゴリズムとなる。ここでは、このDBSCANの概要とアルゴリズム、様々な適用事例とpythonによる具体的な実装について述べている。

マルチモーダル検索は、複数の異なる情報源やデータモダリティ(例: テキスト、画像、音声など)を統合し、ユーザーが情報を検索・取得するための手法となる。このアプローチにより、複数の情報源から得られる情報を効果的に組み合わせて、より多角的で豊かな検索結果を提供することが可能となる。ここではこのマルチモーダル検索に対して、Elasticsearchを用いたもの、更に機械学習技術を用いたものについての概要と実装について述べている。

Elasticsearchは、検索、分析、およびデータ可視化のためのオープンソースの分散型検索エンジンであり、機械学習(Machine Learning, ML)技術も統合されており、データ駆動型のインサイトや予測を実現するために活用することができるプラットフォームとなっている。ここではこのElasticsearchでの機械学習技術の様々な活用と具体的な実装について述べている。

Raspberry Pi(ラズベリーパイ)は、シングルボードコンピュータ(Single Board Computer, SBC)の一つであり、英国のラズベリーパイ財団(Raspberry Pi Foundation)によって開発された小型のコンピューターとなる。その名前は、英国で親しまれている「ラズベリーパイ」というデザートに由来している。

ここではこのRaspberry Piの概要と様々な適用事例と具体的な実装例について述べている。

深層学習技術のhello worldとして、pyhton/KeraによるMNISTデータの手書き認識技術の具体的な実装と評価

今回は畳み込みニューラルネットワーク(CNN)について述べる。CNNはコンピュータービジョンのアプリケーションにおいてほぼ例外なく使用されているディープラーニングモデルであり、cnvnetとも呼ばれる。ここでは、MNISTの手書き文字認識としての画像分類問題にCNNを適用する方法について述べる。

小さなデータセットにディープラーニングを適用するための基本的な手法をさらに2つ適用する。一つは学習済みのモデルによる特徴抽出であり、これにより正解率が90%から96%に改善される。もう一つは、学習済みのモデルのファインチューニングであり、これにより、最終的な正解率は97%になる。これら3つの戦略(小さなモデルを1から訓練、学習済みモデルを使った特徴抽出、学習済みモデルのファインチューニング)は、小さなデータセットを使って無象分類するときの小道具の一つとなる。

今回使用するデータセットは、Dogs vs Catsデータセットで、Kerasではパッケージ化されていない。このデータセットはKaggleの2013年後半のコンピュータービジョンこんぺで提供されたものになる。元のデータセットはKaggleのWebページからダウンロードされる。

今回は学習済みモデルを利用したのCNNの改善について述べる。学習済みモデルとして2014年に、Karen SimonyanとAndrew Zissermanらによって開発されたVGG16アーキテクチャについて述べる。VGG16は、に動物や日常的なものを表すクラスで構成されている学習済みモデルであるImageNetで広く使用されているシンプルなCNNアーキテクチャとなる。VGG16は古いモデルで、最先端のモデルには遠く及ばず、最新の多くのモデルよりも少し重いものとなる。

学習済みのネットワークを使用する方法には、特徴抽出(feature extraction)とファインチューニング(fine-tuning)の2つがある。

CNNによって学習された表現は、それらが「視覚概念の表現」であるため、可視化に非常に適している。2013年以降、それらの表現を可視化/解釈するための手法は幅広く開発されている。今回はそれらの中で最も利用しやすく有益なものを3つ取り上げる。

(1)CNNの中間出力(中間層の活性化)の可視化:CNNの一連の層によって入力がどのように変換されるかを理解し、CNNの個々のフィルタの意味を理解するものとなる。(2)CNNのフィルタの可視化:CNNの各フィルタが受け入れる視覚パターンや視覚概念がどのようなものであるかを把握できる。(3)画像におけるクラス活性化のヒートマップの可視化:画像のどの部分が特定のクラスに属しているかを理解でき、それにより、画像内のオブジェクトを局所化できるようになる。

pyhtorchを用いた発展的ディープラーニング技術の(OpenPose, SSD, AnoGAN,Efficient GAN, DCGAN,Self-Attention,  GAN, BERT, Transformer, GAN, PSPNet, 3DCNN, ECO)の具体的な実装と応用。

スパースランドモデルを用いた画像情報からのノイズの除去の実際

理論

AI(人工知能)は教育分野において大きな影響力を持ち、教育方法や学習プロセスを変革する潜在能力を秘めている。以下に、AIと教育に関するいくつかの重要な側面について述べる。

画像認識(image recognition)とは、画像に映る内容を理解する技術となる。画像認識の応用範囲としては、文字認識、医療画像による診断支援、監視カメラからの以上検出、インターネット上の画像検索や動画検索、製品の検査、顔や指紋からの個人情報認識、スポーツ画像解析、ロボットビジョンや自動車の自動運転、動作認識によるヒューマンインターフェース等多岐に及ぶ。画像を撮像するビジョンセンサは近年大幅に性能が向上しており、低価格で非常に豊かな情報を入力することができる。

画像認識とは何かについて述べるために、画像認識技術の歴史について簡単にまとめる。

一般的なクラス認識の処理手順は、画像特徴量抽出と分類の2つの大きなモジュールに分けられ、画像特徴量抽出はさらに、局所特徴のサンプリングと記述、統計的特徴量抽出、コーディング、プーリングに分けられる。これらの手順は直列に接続されて処理される。ここではそれぞれの手順の概要について述べる。

画像認識のはじめの処理は、画像の局所領域に着目して、その内容を記述する局所特徴の抽出となる。局所特徴の抽出過程は、前半の検出と後半の記述に分けられる。検出は画像の中の角や縁のような点を捉える過程で、記述は検出の過程で得た点のまわりの局所領域を表現する処理となる。前者の着目すべき点を探すアルゴリズムを検出器、後者の記述されたベクトルを記述子と呼ぶ。

局所特徴(local feature)とは、画像全体ではなく、画像中の局所的な小領域を表現する特徴となる。一方、画像全体を表現する特徴を大域特徴(global feature)と呼ぶ。画像中から特定の物体を発見するには、大域特徴よりも局所特徴どうしの比較が有効となる。

局所特徴抽出は、画像の中の特徴点を捉える検出(detection)と、特徴点の周りの領域を表現する記述(description)で構成される。特徴点の検出は、例えば物体の角や縁という形状に特徴のある点を捉える方法(疎なサンプリング)と、一定間隔で特徴点を抽出する方法(密なサンプリング)分けられる。代表的な検出器としては、エッジ検出器(edge detectop)、コーナー検出器(corner detector)、ブロブ検出器(blob detctor)等がある。

エッジ検出器は、物体の縁のような点を捉える検出器となる。ただし、検出した点が物体の縁かどうすを判断するには、かなりの高度な認識機能が必要であり、ここでは明るさが急激に変化する点をエッジとみなし、それらを画像から抽出するものとする。

コーナ検出器は物体の角のような点を見つける検出器で、エッジ検出器と同様に、あくまでも物体の角のような点を検出するのみであり、実際に角かどうかの判定を行なっているわけではないものとなる。基本的な原理としては、直行する2方向で共に輝度が大きく変化している点をコーナーと考えて検出を行う。

ブロブ検出器はある小領域に着目したときに、その小領域と周囲の状況が異なる部分をブロブと呼び、それらを検出するものとなる。これは例えば、ある小領域の輝度が高く周囲の輝度が低い、ある小領域の色が赤であるが周囲の色が青であるなど、さまざまな状況が考えられる。

局所領域の内容を認識に有利な情報に変換する過程を記述(description)といい、記述された情報を記述子(descriptor)と呼ぶ。記述子は一般的にベクトルv∈ℝDとして表現される。局所領域の記述子は局所記述子(local descriptor)と呼ばれる。認識に有利な情報を得るために、局所領域の形やテクスチャ情報などを抽出する。記述子として多種多様な方法が提案されている。

画素記述子(raw pixel descriptor)は最も単純な局所記述子で、局所領域の情報をそのままベクトル化したものとなる。局所バイナリパターン(local binary pattern,LBP)は、局所領域のテクスチャ情報を表現する記述子となる。LBPでは中心画素とその周辺画素との輝度の差を計算し、その符号によって0,1の2値パターンを割り当てる。

局所輝度勾配ヒストグラムを用いた記述子(SHIFT記述子、HGO記述子等)について。輝度勾配は、エッジを抽出する効果があるので、局所輝度勾配ヒストグラムは形の情報を表現しまた、輝度勾配の方向が量子化されるために、微小な回転に対して頑健な表現となる。

実際の画像には、なんらかの外乱やノイズが加わり、外乱などの影響を受けている画像から得られた局所特徴をそのまま利用すると、期待する認織精度が得られない可能性がある。そこで、観測されるデータの確立統計的な構造に基づいて認織に有利な特徴へ変換する統計的特徴抽出が必要となる。

統計的特徴抽出(statistical feature extraction)とは、抽出した局所特徴に対して確率統計的な構造に基づいてさらに特徴抽出をおこない、ノイズや外乱の影響を受けにくい頑健な特徴に変換することを言う。統計的特徴抽出は、局所特徴だけでなく、画像認識の様々な特徴に適用可能な手法となる。

データがどのクラスに所属しているのかといった外的基準、つまり教師情報の有無により統計的特徴抽出は分類できる。外的基準がない場合の特徴抽出手法には主成分分析を利用する。外的基準がある場合、クラス認識の特徴抽出にはフィッシャー線形判別分析、2変量の相関最大化には正凖相関分布、2変量の共分散最大化には偏最小2乗法を利用する。これらは一見すると異なる手法のように見えるが、相互には深く関係している。

局所特徴を認織に有効な次元数のベクトルに変換する操作をコーディングと呼ぶ。また、画像領域内に存在する複数のコーディング後の特徴ベクトルを1本のベクトルにまとめる操作を、プーリングと呼ぶ。

具体的なコーディングは、データがある確率分布からサンプリングされていると仮定して、その確率分布を推定し、推定された分布を用いてコーディング関数の抽出を行う。

プーリングの手法としては、対象ベクトルの平均値を計算する平均値プーリング(average pooling)や、ベクトルの各要素の最大値を計算する最大値プーリング(max pooling)などがある。

プーリングを行う長所としては、主に2点が挙げられる。1点目は、画像から得られる局所特徴の下図が異なっていたとしても、プーリングを行うことにより、同じ次元の特徴ベクトルを得られること。2点目は、プーリングをおこなう画像領域内の局所特徴の位置情報を考慮しないので、位置不変な特徴を得られるものとなる。

入力画像は、一連の処理を経て、一つの特徴ベクトルとなる。クラス認識の最終段階として、この特徴ベクトルに、クラス(例えば「犬」や「猫」など)を付与する分類(classification)を行い、分類を行うアルゴリズムを分類器(classifier)と呼ぶ。

ここでは分類器を構築するためのベイズ決定則について述べる。

前回に引き続きパーセプトロン、深層学習、SVMを用いた分類器について述べる。

クラス認織を考えた場合に、識別関数が0から1までの値を取るクラスの事後確率を予測できれば、入力データが対象としているクラスに所属している度合いを定量化することができる。しかしながら識別関数の出力は-∞から+∞であるために、直接的に事後確率と解釈するには困難であるため、線形識別関数を拡張してクラスの事後確率を予測する確率的識別関数(probabilistic discriminant function)を用いることでそれらに対応する。確率的識別関数を用いたアプローチであるロジスティック回帰やソフトマックス回帰はニューラルネットワークの重要な要素となっている。

特徴空間においてデータが複雑に分布している場合、非線形な分類器が有効となる。非線形な分類器を構成するには、カーネル法ニューラルネットワークなどを利用した手法が挙げられる。ここでは単純な分類器を複数組み合わせることで、非線形な分類器を構成する集団学習(ensemble learning)について述べる。なお、集団学習はアンサンブル学習とも呼ばれている。

集団学習として、訓練データ集合からサブセットを生成し、各サブセットで予測器を学習させるバギングについて述べる。この手法は、とくに不安定な学習アルゴリズムに有効となる。不安定な学習アルゴリズムとは、訓練データ集合の小さな変化が、学習される予測器の構造やパラメータに大きな影響を与えるアルゴリズムのことを言う。不安定な学習アルゴリズムとして、ニューラルネットワークや決定木がある。

有限なデータ集合から多様なサブセットを生成する手法として、ブートストラップ法が(bootstrap method)がある。これは、データ集合からランダムに復元抽出をM回繰り返すことで、M個の新規なデータ集合を生成する手法となる。

局所特徴抽出統計的特徴抽出コーディングやプーリングをそれぞれ一つのモジュールとして、このモジュールを多段に重ねた構造を深い構造と呼ぶ。この深い構造を入力から出力までend-to-endで学習する手法を深層学習(deep learning)と呼ぶ。深層学習では、構成するモジュールをニューラルネットワークによって設計する事が一般的であり、ニューラルネットワークを用いた深い構造をディープニューラルネットワークによって設計する事が一般的であり、ニューラルネットワークを用いた深い構造をディープニューラルネットワーク(deep neural network)と呼ぶ。深層学習を利用する事で、前述した局所特徴抽出やコーディング手法に詳しくなくても、入力データに対して望ましい出力を予測するシステムの構築が可能となる。

今回は、深層学習技術の概要として順伝搬と逆伝搬アルゴリズムとミニバッチについて述べる。

前回に引き続き、深層学習の中でも画像認識に頻繁に用いられれる畳み込みニューラルネットワーク(CNN)の理論的概要と実装について述べる。

物体検出では、人や車などの物体を取り囲む四角い領域を画像中かに発見することを目的としている。物体検出の多くの手法では、物体領域候補を複数提案し、物体クラス認識の手法を用いて、それらの領域がどの物体に分類されるのかを判断する。画像から提案される物体領域候補は膨大となる場合が多く、物体クラス認識では計算コストの低い手法がよく利用される。

画像から物体領域候補を提案する手法としては、スライディングウィンドウ法、選択検索法、分岐限定法がある。またそれらを分類する手法としてはExampler-SVM、ランダムフォレスト、R-CNN(regious with CNN feature)等がある。

クラス認識は対象物体の属するクラスを予測することになるが、インスタンス認織は対象物体そのものを特定するタスクとなる。インスタンス認織の中心となる課題として、入力画像からデータベース内の画像をすばやく探す画像検索問題がある。インスタンス認識(instance recognition)は、東京タワーを見て電波塔と認織するのではなく、東京タワーとして認織するような対象物体そのものを特定するものとなる。これらは、入力画像内の物体と同じ物体が写る画像をデータベースから探し出すことで実現できる。

インスタンス認織の実現方法は以下のようになる。1蓄積された画像群から局所特徴を抽出し、画像データベースを作成する、2クエリ画像の局所特徴を抽出する、3クエリ画像の局所特徴を一つ取り上げ、画像データベースの全局所特徴と比較する。もっとも類似した局所特徴を持つデータベース内の画像に1票投じる。この投票を入力画像がもつ局所特徴全てに行う、データベース内で最も票を獲得した画像の物体を、クエリ画像の物体として認識する。

特徴ベクトルxで表現された画像に近い画像をデータベースの中から探してくる問題は、類似画像検索(similar image search)や画像リトリーバル(image retrieval)と呼ばれ、インスタンス認識における中心課題の一つとなる。

画像検索を実現する最も単純な方法は、クエリ画像とデータベース内のすべての画像と距離を測り、昇順にソートすることデータベース内の画像をランキングするものとなる。ここで、データベース内の画像数が膨大になると、この手法では計算時間がかかりすぎるため現実的ではなくなる。そこで効率的な検索方法として、木構造を用いた手法、バイナリコード変換を用いた手法と、直積量子化を用いた手法について述べる。

    辞書データを用いた画像のスパース表現について、信号処理の知見から得られた辞書(JPEGのDCT基底がある)ではなく、、スパースランドモデルをベースとした機械学習による辞書生成の概要。

      今回は重複のあるスパース正則化について述べる。重複のあるスパース正則化は、例えばベクトルω∈ℝdの部分ベクトルや線形変換したものに関するスパース正則化項を雲合わせたもので、画像処理、統計、テンソル分解などの応用がある。

      オートエンコーダーは、入力層と出力層に同じベクトルを与えて学習させる。この時、中間層のニューロンの数を入出力層より小さくし、中間層の出力を取り出すと、データの特徴量として圧縮できるというアイデアとなる。

      ここではヒントンの論文とともに、手描き文字認識に適用した例について紹介している

      基本的なパターン認織のアルゴリズムとして、最近傍法、決定木、ニューラルネットワークについて紹介する

      画像情報(JPEG)等に用いられるデータ圧縮のアルゴリズムについての紹介。

      AAAIクラッシック論文集より変分法を用いたエッジ抽出技術にいて

      線形次元削減(linear dimensionality reduction)は、多次元のデータを低次元の空間に写像することにより、データ量の削減や特徴パターンの抽出、データの要約・可視化などを行う基本的な技術となる。実際に、多くの実データにおいて、観測データの次元数Dよりもはるかに小さい次元数Mの空間でデータの主要な傾向を十分表現できることが経験的にしられているため、機械学習の分野に限らず次元削減のアイデアはさまざまな応用分野で発展・活用されてきた。

      これから述べる方法は、確率的主成分分析(probabilistic principal component analysis)や因子分析(factor analysis)、あるいは確率的行列分解(probabilistic matrix factorization)と呼ばれる技術と深く関連しているが、ここでは一般的に使われる手法よりももっと単純化した簡素なモデルを題材にする。

      また、ここでは具体的な応用として、線型次元削減モデルを利用した画像データの圧縮や欠損値の補間処理などの簡易実験も行う。次元削減や欠損値補間の考え方は、非負値行列因子分解やテンソル分解といったモデルにも共通している。

      アトミックノルムとアトム集合の凸包を単位球とするノルムの等価性とアトミックノルムの双対ノルムの表現の2つの数学的性質について述べる。アトミックノルムは数学的に洗練されており、さまざまなスパース性を誘導するノルムを含んでいるものの、L1ノルム、グループL1ノルム、トレースノルムなどの特殊な場合をのぞいて、ノルムを計算すること自体や、ノルムに関するprox作用素を計算することが困難となる。ある程度の精度の最適化で十分な場合に有効なフランク・ウォルフェ法と、もうすしこ高い精度の解を得たい場合に有効な双対交互方向乗数法について述べる。最後にロバスト主成分分析を用いた前景画像抽出の具体例を示す。

      • マルチタスク学習の概要と適用事例と実装例

      マルチタスク学習(Multi-Task Learning)は、複数の関連するタスクを同時に学習する機械学習の手法となる。通常、個々のタスクは異なるデータセットや目的関数を持っているが、マルチタスク学習ではこれらのタスクを同時にモデルに組み込むことで、相互の関連性や共有できる情報を利用して互いに補完しあうことを目指している。

      ここではこのマルチタスクに対して、共有パラメータモデル、モデルの蒸留、転移学習、多目的最適化等の手法の概要について述べ、自然言語処理、画像認識、音声認識、医療診断等の応用事例とpythonによる簡易な実装例について述べている。

      コメント

      1. […] 自然言語の画像認識や音声認識と大きく異なる特徴として、処理対象が離散的な「記号」であるというものがある。その反面ニューラルネットの中身はベクトルや行列で表された連続値(最適化の計算も連続的な関数計算として行われる)である為、自然言語処理の処理単位である単語や文といった「離散的な」記号を深層学習/ニューラルネットで処理できるようにベクトルや行列のような「実数値連続領域のデータ」に変換する必要がある。 […]

      2. […] 畳み込みニューラルネットは畳み込み構造を組み込んだ階層型ニューラルネットワークである。深層学習の登場以前からネオコグ二トロンやLetNetなどとして提案されていた。2010年代の分散並列計算技術の発展と、学習用データの大規模化により画像認識の分野で特に普及している。 […]

      3. […] 岩波データサイエンスシリーズ「スパースモデリングと多変量データ解析」より。前回はグラフィカルlassoとその活用(異常検知等)について述べたい。今回は画像処理とスパースについて述べたいと思う。 […]

      4. […] 岩波データサイエンスシリーズ「スパースモデリングと多変量データ解析」より。前回はグラフィカルlassoとその活用(異常検知等)について述べたい。今回は画像処理とスパースについて述べたいと思う。 […]

      5. […] 岩波データサイエンスシリーズ「スパースモデリングと多変量データ解析」より。前回は画像処理問題へのスパース性の適用について述べた。今回は時間遷移情報へのスパース性の導入について述べる。 […]

      6. […] 次回は画像情報へのスパース性の導入について述べる。 […]

      7. […] SICK 画像のキャプションを元データとして、クラウドソーシングで文の書き換え、及びパラフレーズ・含意関係・類似度のラベル付けを行なったデータ。 […]

      8. […] この手法を2次元に拡張するとノイズがある画像の判定にも使える […]

      9. […] また、画像データをグラフ的に見るという観点も存在する。これは例えば以下の左図に示すような規則正しい網目上に表現されたデータ(ユークリッド空間上のデータ)として表される。 […]

      10. […] 画像情報処理技術の一つである画像認識技術についての参考図書である機械学習プロフェッショナルシリーズ「画像認識」より。今回は画像認識の概要について述べる。 […]

      11. […] 画像情報処理技術の一つである画像認識技術についての参考図書の機械学習プロフェッショナルシリーズ「画像認識」より、前回は画像認識技術の歴史と概要について述べた。今回はそれらの処理プロセスの概要について述べる。 […]

      12. […] 画像情報処理技術の一つである画像認識技術についての参考図書の機械学習プロフェッショナルシリーズ「画像認識」より、前回は画像認識技術の具体的なプロセスについて述べた。今回はそれらの最初のステップである局所特徴の概要と各種フィルタリングについて述べる。 […]

      13. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月11日 4:41 AM […]

      14. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月12日 5:08 AM […]

      15. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月13日 4:53 AM […]

      16. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月14日 3:38 AM […]

      17. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月15日 5:33 AM […]

      18. […] 画像情報処理技術の一つである画像認識技術についての参考図書の機械学習プロフェッショナルシリーズ「画像認識」より、前回は分類器のアルゴリズムについて述べた。今回はそれらアルゴリズムの最適化と識別関数について述べる。 […]

      19. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月17日 4:45 AM […]

      20. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月18日 4:26 AM […]

      21. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年9月20日 4:21 AM […]

      22. […] デジタルトランスフォーメーションに活用される画像認識技術について | D… より: 2021年10月4日 4:34 AM […]

      23. […] 深層学習を行うための「PythonとKerasによるディープラーニング」より。前回は深層学習の最適化の観点からの方法論について述べた。今回はコンピュータービジョンのためのディープラーニングの中で畳み込みとプーリングについて述べる。 […]

      24. […] 深層学習を行うための「PythonとKerasによるディープラーニング」より。前回はコンピュータービジョンのためのディープラーニングの中で畳み込みとプーリングについて述べた。今回は小さなデータセットを用いたCNNのデータ拡張による改善について述べる。 […]

      25. […] 自然言語処理技術、画像認識技術のための発展的深層学習技術が記載された「つくりながら学ぶ!PyTorchによる発展ディープラーニング」より。 […]

      26. […] 絵画は言葉にならない情報を伝達するのに適したメディアだと思う。単純に画像特徴量が持つシャノンの情報理論的な情報量を考えると、白黒の絵画一枚ではせいぜい数百Mバイト程度となるが、それらが持つ抽象的な意味の世界まで解釈を広げると無限大の情報量となるだろう。 […]

      27. […] 人工知能タスクやデジダルトランスフォーメーションタスクにもついられる画像情報処理技術の参考図書である画像認識機械学習プロフェッショナルシリーズ「画像認識」より。前回はBoVWを用いたインスタンス検索について述べた。今回は画像ベクトルxで表現された画像に近い画像をデータベースの中から探す一般的な画像検索問題について述べる。 […]

      28. […] 人工知能タスクやデジダルトランスフォーメーションタスクにもついられる画像情報処理技術の参考図書である画像認識機械学習プロフェッショナルシリーズ「画像認識」より。前回は畳み込みニューラルネットについ述べた。今回は物体認識について述べる。 […]

      29. […] 人工知能タスクやデジダルトランスフォーメーションタスクにもついられる画像情報処理技術の参考図書である画像認識機械学習プロフェッショナルシリーズ「画像認識」より。前回はベクトル化した画像特徴の分類について述べた。今回は畳み込みニューラルネットワークについて述べる。 […]

      30. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 自然言語処理技術サマリー 画像処理技術サマリー 強化学習技術サマリー 確率的生成モデルサマリー […]

      31. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 自然言語処理技術サマリー 画像処理技術サマリー 強化学習技術サマリー 深層学習技術サマリー  確率的生成モデルサマリー […]

      32. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 機械学習技術サマリー […]

      33. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 機械学習技術サマリー […]

      34. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 機械学習技術サマリー […]

      35. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 自然言語処理サマリー  機械学習技術サマリー […]

      36. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 自然言語処理サマリー  機械学習技術サマリー   アルゴリズムサマリー […]

      37. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 自然言語処理サマリー  機械学習技術サマリー   アルゴリズムサマリー […]

      38. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 自然言語処理技術サマリー 画像処理技術サマリー 音声認識技術サマリー  強化学習技術サマリー 確率的生成モデルサマリー  ウェブ技術サマリー 知識情報処理技術サマリー オントロジー技術サマリー 検索技術サマリー データベース技術サマリー ユーザーインターフェース技術サマリー […]

      39. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー  画像情報処理技術サマリー  深層学習技術サマリー 自然言語処理サマリー  機械学習技術サマリー […]

      40. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 自然言語処理技術サマリー 画像処理技術サマリー 強化学習技術サマリー 深層学習技術サマリー  確率的生成モデルサマリー […]

      41. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー 深層学習技術サマリー 機械学習技術サマリー  自然言語処理サマリー  時系列データ学習サマリー  画像情報処理サマリー […]

      42. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー   自然言語処理サマリー 異常・変化検知サマリー オンライン学習サマリー オントロジー技術サマリー 画像情報処理サマリー […]

      43. […] 機械学習プロフェッショナルシリーズ「深層学習による自然言語処理」より。自然言語の画像認識や音声認識と大きく異なる特徴として、処理対象が離散的な「記号」であるというものがある。その反面ニューラルネットの中身はベクトルや行列で表された連続値(最適化の計算も連続的な関数計算として行われる)である為、自然言語処理の処理単位である単語や文といった「離散的な」記号を深層学習/ニューラルネットで処理できるようにベクトルや行列のような「実数値連続領域のデータ」に変換する必要がある。 […]

      44. […] 人工知能技術  デジダルトランスフォーメーション 深層学習技術 機械学習技術  自然言語処理  時系列データ学習  画像情報処理 […]

      45. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 自然言語処理技術 画像処理技術 強化学習技術 確率的生成モデル   深層学習技術 […]

      46. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 自然言語処理技術 画像処理技術 強化学習技術 確率的生成モデル  深層学習技術 […]

      47. […] 人工知能技術  デジダルトランスフォーメーション 深層学習技術 機械学習技術  自然言語処理  時系列データ学習  画像情報処理 […]

      48. […] 人工知能技術サマリー  デジダルトランスフォーメーションサマリー 深層学習技術サマリー 機械学習技術サマリー  自然言語処理サマリー  時系列データ学習サマリー  画像情報処理サマリー […]

      49. […] デジタルトランスフォーメーション技術 確率的生成モデル 画像情報処理技術 ベイズモデリングの世界 自然言語処理技術 […]

      50. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      51. […] デジタルトランスフォーメーション技術 確率的生成モデル 画像情報処理技術 ベイズモデリングの世界 自然言語処理技術 […]

      52. […] 画像データの場合: 画像データ処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      53. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      54. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      55. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      56. […] 更に詳しい画像情報処理技術に関しては”画像情報処理技術“を参照のこと。 […]

      57. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 時系列データ学習 […]

      58. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。また制約充足問題に関しては”命題論理の充足可能性判定問題(SAT:Boolean SAtisfiability)の概要と実装“や、&# […]

      59. […] デジタルトランスフォーメーション技術 確率的生成モデル 画像情報処理技術 ベイズモデリングの世界 自然言語処理技術 […]

      60. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      61. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      62. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      63. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 […]

      64. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      65. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      66. […] デジタルトランスフォーメーション技術 確率的生成モデル 画像情報処理技術 ベイズモデリングの世界 自然言語処理技術 […]

      67. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      68. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      69. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      70. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      71. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      72. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      73. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      74. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      75. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      76. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      77. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      78. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      79. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      80. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      81. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      82. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      83. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      84. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      85. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      86. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      87. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      88. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      89. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      90. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      91. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      92. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      93. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      94. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      95. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      96. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      97. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      98. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      99. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      100. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      101. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      102. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      103. […] 画像情報処理の詳細に関しては”画像情報処理技術“を参照のこと。 […]

      104. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      105. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      106. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      107. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      108. […] 自然言語処理 異常・変化検知 オンライン学習 オントロジー技術 画像情報処理 サポートベクトルマシン Python 経済とビジネス 物理・数学 […]

      109. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      110. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      111. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      112. […] Pocket LINE コピー 2024.03.19 2023.06.30 機械学習技術 自然言語技術 画像情報処理 推薦技術  python 人工知能技術 デジタルトランスフォーメーション技術 […]

      113. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      114. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 時系列データ学習 […]

      115. […] 自然言語処理 異常・変化検知 オンライン学習 オントロジー技術 画像情報処理  サポートベクトルマシン […]

      116. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      117. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      118. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      119. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      120. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      121. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      122. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      123. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      124. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      125. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      126. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      127. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      128. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      129. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      130. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      131. […] 人工知能技術 数学 アルゴリズムとデータ構造 画像認識 自然言語処理 音声認識 スパースモデリング 強化学習 深層学習 Python […]

      132. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      133. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      134. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python 物理・数学 […]

      135. […] デジタルトランスフォーメーション技術 確率的生成モデル 画像情報処理技術 ベイズモデリングの世界 自然言語処理技術 […]

      136. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      137. […] 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 Python […]

      タイトルとURLをコピーしました