Zero-Shot Learningの概要とアルゴリズム及び実装例

機械学習技術人工知能技術デジタルトランスフォーメーション技術確率的生成モデル画像情報処理技術ベイズモデリングの世界自然言語処理技術マルコフ連鎖モンテカルロ法知識情報処理深層学習技術強化学習説明できる機械学習一般的な機械学習スモールデータでの機械学習物理・数学本ブログのナビ

概要

Zero-Shot Learning（ZSL）とは、事前に学習されていないクラスに対しても、追加の学習なしで分類や予測を行う手法である。このアプローチは、従来の機械学習やディープラーニングモデルが学習済みのクラスに対してのみ正確な分類が可能であるのに対し、未知のクラスに対しても柔軟に対応できる点が特徴となる。

ZSLは、学習時に見たことがない新しいクラスに対しても、ラベルやカテゴリを正確に予測する手法であり、ラベル付きデータが不足する状況や新しいクラスが頻繁に追加されるシナリオで特に有効である。具体的には、事前に定義されたクラスに関する補助情報（例：属性ベクトルや自然言語記述）を利用して、未知のクラスに対する予測を実現する。

ZSLに近いアプローチとして、学習時に利用できるデータの量に応じて以下の3つの学習パラダイムが存在する。

Zero-Shot Learning: “Zero-Shot Learningの概要とアルゴリズム及び実装例“で述べているZero-Shot Learning（ZSL）は、学習時に全く例を見ていないクラスに対しても、定義や文脈に基づいて予測を行う手法である。具体的には、事前に見たことがないカテゴリに対しても、そのカテゴリに関する属性情報や説明文を利用して分類や推論を行う。例えば、「シマウマ」というラベルが未学習であっても、「シマがある馬に似た動物」という属性情報があれば、正しく識別できる。

One-Shot Learning: “One-Shot Learningの概要とアルゴリズム及び実装例“で述べているOne-Shot Learningは、1つのサンプルだけを基に新しいクラスを認識する手法である。これは、少ないデータから効率的に特徴を学習し、一般化する能力が求められる。メタラーニングや類似度学習（Siamese Network）が代表的なアプローチであり、人間のように少数の経験から新しい概念を習得することを目指している。

Few-Shot Learning: “Few-Shot Learningの概要とアルゴリズム及び実装例“゛述べているFew-Shot Learningは、数個（一般に2～10個程度）の例を基に新しいクラスを学習する手法である。One-Shot Learningと同様に、少量のデータでの一般化能力が重要であり、メタラーニングやプロトタイプベースの手法が広く用いられる。典型的な応用例としては、新製品や新しい言語への適応がある。

ZSLはこれらの学習方法の中でも、特に以下のような状況で特に有効なアプローチとなる。

新しいカテゴリが次々と追加される場面: 例えば、オンラインショッピングサイトやニュース記事の分類システムでは、新しい商品やトピックが日々追加される。これらの新しいカテゴリに対して、十分なラベル付きデータがない状態でも適切な分類が求められる場面で有用である。

ラベルデータの収集が困難な状況: 稀な疾病や未知の言語に対する診断や分類など、ラベル付きデータの収集が困難またはコストが高い場合に適している。例えば、新種のウイルスや絶滅危惧種の生物を検出する際にも、ZSLが役立つ。

大規模なクラス数に対応したいとき: クラス数が1000を超えるような大規模な分類タスクにおいて、全てのクラスに対して十分なトレーニングデータを用意することが現実的でない場合に有効である。例えば、百科事典のような膨大なエントリや、広範なドメインをカバーする質問応答システムなどが典型的な応用例である。

Zero-Shot Learning（ZSL）には、多くの利点がある一方で、いくつかの課題も存在する。以下に、主要なメリットと課題をまとめる。

メリット

未知クラスへの即時対応: 学習時に見たことがないクラスに対しても、属性情報や記述に基づいて即座に対応できる。これにより、動的にカテゴリが増加する環境や、新しい製品や概念が次々と登場する場面での柔軟な対応が可能になる。
アノテーションコストがゼロ: ラベル付きデータを収集する必要がないため、コストや時間を大幅に削減できる。特に、ラベル付けが困難な稀少なカテゴリや専門的なドメインにおいては大きな利点である。
多様なタスクに拡張性あり: 画像認識、自然言語処理、推薦システムなど、さまざまなタスクに適用できる汎用性が高い。事前に定義されたクラスに対する学習が不要なため、応用範囲が広い。

課題

属性や記述の質が重要: Zero-Shot Learningの性能は、各クラスに対する属性情報や自然言語での記述の質に大きく依存する。これが不正確または曖昧な場合、分類精度が低下するリスクがある。
モデルの解釈性が難しいことも: 外部メモリや属性ベースの推論を行うため、モデルの内部動作が複雑になり、解釈性が低くなる場合がある。特に、安全性が求められる応用分野では大きな課題となる。
推論の信頼性の確保が課題: 未知のクラスに対する推論の信頼性をどのように確保するかが課題である。特に、実際の運用環境においては誤分類が重大な問題を引き起こす可能性があるため、慎重な評価が求められる。

Zero-Shot Learningに関連するアルゴリズム

ZSLのアルゴリズムは、学習時に見たことのないクラス（未学習クラス）を、補助的な情報（属性、記述、埋め込みなど）を使って分類や予測することをベースに構築されている。

以下に、ZSLの代表的なアルゴリズムやアプローチについて述べる。

1. 属性ベース（Attribute-Based Methods）

Zero-Shot Learning（ZSL）を実現するためには、特徴量と属性情報を効率的に扱うアルゴリズムやモデルが重要であり、以下のような代表的な手法が存在する。

DAP（Direct Attribute Prediction）
- 概要: DAP（Direct Attribute Prediction）は、入力画像から直接属性（例：耳が長い、毛が白い、4本の足があるなど）を予測し、その予測結果を未知のクラスの属性と照合することで分類を行う手法である。このアプローチは、事前に定義された属性ベースの分類を基本としており、各属性がどの程度そのクラスに適合するかを計算してクラスを決定する。
- 代表研究: Lampert et al., 2009
- 特徴: シンプルで解釈が容易。属性の定義が明確な場合に有効
- 応用例: 動物分類（例：犬、猫、ウサギ）。医療画像の異常検出
IAP（Indirect Attribute Prediction）
- 概要: IAP（Indirect Attribute Prediction）は、既知クラスの分類結果を中間的に利用して属性を推定し、その属性情報を基に未知クラスへの分類を行う手法である。直接属性を予測するのではなく、既知クラスから推定される属性を経由する点が特徴で、より間接的な推論を可能にする。
- 特徴: DAPに比べて属性推定の精度が向上する場合がある。クラス間の関係性を考慮した推論が可能
- 応用例: ファッションアイテムの分類（例：シャツ、ドレス、ジャケット）。未知の動物や植物の分類
ALE（Attribute Label Embedding）
- 概要: ALE（Attribute Label Embedding）は、属性をベクトル空間に埋め込み、入力画像の特徴ベクトルと属性ベクトルとの類似度に基づいてクラスを決定する手法である。これにより、属性情報と画像特徴のマッチングを効率的に行うことができ、ZSLの精度向上に寄与する。
- 特徴: 高次元ベクトル空間での属性表現。属性の間の類似性も考慮可能
- 応用例: 画像認識（例：動物、ファッションアイテム）。医療画像の分類（例：がん細胞の検出、病変部位の特定）

これらのアルゴリズムは、画像認識（動物やファッションアイテムの分類）、医療画像解析（異常検出や病変分類）、ロボティクス（未知物体の認識）、音声認識（新しい言語や方言の分類）など、幅広い分野で活用されている。

2. 埋め込みベース（Embedding-Based Methods）

これらのアルゴリズムは、入力データ（画像や音声）をセマンティック空間に埋め込むことで、既知クラスと未知クラスを統一的に扱う手法である。代表的なモデルには以下がある。

DeViSE（Deep Visual-Semantic Embedding Model）
- CNNで抽出した画像特徴を、Word2Vecなどの意味空間に投影して分類する手法（Frome et al., 2013）。
ConSE（Convex Combination of Semantic Embeddings）
- 既知クラスの埋め込みを加重平均して新クラスを近似するシンプルなモデル。
ESZSL（Embedding-based Structured ZSL）
- 構造的正則化を導入し、線形埋め込みの精度を向上させたモデル。
SJE（Structured Joint Embedding）
- クラス記述と画像特徴を共同で学習し、スコアに基づいて分類を行う手法。

用途：画像分類、音声認識、視覚-言語統合など。

3. テキスト記述ベース（Text-Based / Generative）

これらのモデルは、テキスト記述を活用してゼロショット学習を実現する手法であり、画像とテキストの関係を効率的に学習する点が特徴である。

CLIP（Contrastive Language-Image Pretraining）
- 画像とテキストのペアを大量に学習し、自然言語で画像を分類するモデル（OpenAI, 2021）。画像とテキストを同じ埋め込み空間にマッピングすることで、テキストベースの画像検索や分類が可能。
ALIGN（Google）
- CLIPに類似したアーキテクチャで、画像とテキストの埋め込みを共同で学習し、大規模データセットで高精度な分類が可能なモデル。
T5 / BART / GPT 系
- 自然言語処理（NLP）タスクをテキスト化し、Zero-Shotで分類、翻訳、質問応答など幅広いタスクに対応できる生成モデル。
BLIP / Flamingo / Kosmos-1
- 画像と言語の情報を統合して処理するマルチモーダルZSLの最新モデルで、画像キャプションや視覚質問応答（VQA）に特化した強力な性能を持つ。

用途：画像検索、自然言語推論（NLI）、視覚質問応答（VQA）、画像キャプションなど。

3. 生成モデルベース（Generative Approaches）

これらの手法は、未知クラスの特徴ベクトルを生成することで、ゼロショット分類の精度を向上させるアプローチである。以下は代表的な生成モデルである。

f-CLSWGAN（Feature-generating GAN）
- 未知クラスの特徴ベクトルを生成するGAN（Generative Adversarial Network）で、生成された特徴を既存の分類器に入力することでZSLを実現する。これにより、未知クラスに対する分類性能が大幅に向上する。
CVAE-ZSL（Conditional VAE for ZSL）
- 属性情報を条件として潜在空間から特徴を生成する条件付き変分オートエンコーダ（CVAE）。これにより、ZSLタスクにおいてより現実的で多様な特徴生成が可能となる。
GAZSL（Generative Adversarial ZSL）
- GANとゼロショット分類を統合したモデルで、敵対的学習を利用して高品質な未知クラスの特徴ベクトルを生成する。

用途：未知クラスの特徴を補間・生成することで、ZSL精度を向上させるタスクに広く応用されている。

4. Prompting-Based / Foundation Models Approach

これらのモデルは、事前に大規模なテキストデータで学習された言語モデルを活用し、プロンプト（指示文）を通じてゼロショット推論を実現するアプローチである。以下は代表的なモデルである。

GPT-3 / GPT-4
- プロンプトに未学習の命令文や分類タスクを含めることで、少量のコンテキスト情報から推論を行う「in-context learning」を実現。これにより、事前に見たことがないタスクにも対応できる。
T5 / FLAN-T5 / LLaMA
- テキスト形式で多様なタスクに適応するZSL対応の事前学習済みモデルで、質問応答、文書要約、感情分類などに対応可能。
ChatGPT / Gemini / Claude
- 会話形式で未知の分類や生成が可能な対話型モデルで、自然なやり取りを通じて柔軟なゼロショット推論を実現。

用途：感情分類、新しい形式の質問応答、推論タスク、要約生成、クリエイティブな文章生成など。

実装例

以下にZSLの代表的な実装例として、CLIP（Contrastive Language-Image Pretraining）を使った、「テキスト説明に基づいて画像を分類する」シンプルなコードについて述べる。CLIP は、OpenAI によって開発され、画像と自然言語のペアを使って訓練されたマルチモーダルモデルとなっている。

1. 必要なライブラリのインストール

pip install torch torchvision
pip install ftfy regex tqdm
pip install git+https://github.com/openai/CLIP.git

2. 画像分類のゼロショット推論コード

import torch
import clip
from PIL import Image

# CLIP モデルとトークナイザーをロード（ViT-B/32 版）
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# 画像の読み込みと前処理
image = preprocess(Image.open("sample.jpg")).unsqueeze(0).to(device)

# クラス候補の自然言語説明
class_names = ["a photo of a cat", "a photo of a dog", "a photo of a car"]
text = clip.tokenize(class_names).to(device)

# 推論
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)

    # 類似度を計算（コサイン類似度）
    logits_per_image, _ = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

# 結果の表示
for label, p in zip(class_names, probs[0]):
    print(f"{label}: {p*100:.2f}%")

出力例（例：猫の画像）

a photo of a cat: 97.34%
a photo of a dog: 2.12%
a photo of a car: 0.54%

適用事例

ZSLは、「学習時に見たことのないクラスやタスク」に対して予測を行う能力に優れているため、データ不足やクラス爆発が課題になるさまざまな領域で応用されている。ここでは、それらの具体的な応用事例について述べる。

1. 画像認識・分類（CLIPによるZSL）

従来の画像分類器は、あらかじめ定義されたクラスに対する分類のみを想定しており、学習データに含まれていない未知のクラス（例：新しい犬種や鳥類など）に対しては正確な分類が困難であった。しかし、CLIPやALIGNのような画像とテキストの埋め込み技術を用いることで、自然言語の説明に基づく分類が可能となり、未知クラスの画像に対しても柔軟に対応できるようになる。これにより、「この画像は ‘シベリアンハスキー’ に見えるか？」のように、人間のような直感的な問いかけを通じて、事前に定義されていないクラスにも正確なラベル付けが可能となる。

2. 自然言語処理（NLP）でのZero-Shot分類

従来のテキスト分類では、大量のラベル付きデータが必要だったが、GPT-3/4やT5、BART、FLAN-T5などの大規模言語モデル（LLM）を用いることで、例を与えなくてもラベル名や説明文だけで柔軟に分類が可能になった。これにより、「ポジティブ・ネガティブ・困惑」といった感情分類や、「予約」「問い合わせ」などの意図分類、さらにはジャンルやニュースカテゴリの分類も、事前に具体的な学習データを用意することなく実現できるようになった。実際には、HuggingFaceの zero-shot-classification パイプラインを用いることで、これらの強力な機能が手軽に利用可能となる。

3. 医療分野（Rare Diseaseや病理画像）

ラベル付きデータがほとんど取れない稀な疾患や未知の病変を対象とする医療画像解析では、ゼロショットラーニング（ZSL）が重要な補完手法となる。従来の教師あり学習では、十分な量のラベル付きデータが必要だが、稀な疾患や新たに発見された病変についてはそのようなデータを収集することが困難で、これに対し、CLIPのようなテキストと画像の埋め込み技術や属性ベースのZSL、さらにはVAEやGANを用いた特徴生成により、医学的説明文や解剖学的特徴から未知の疾患を推論することが可能になった。実際、皮膚がんや眼底画像の分類には、このような手法がMICCAIなどの学術会議で数多く報告されており、早期診断や診療支援において大きな役割を果たしている。

4. 検索・レコメンデーション

新商品や新たなキーワードに対しても柔軟に対応できるゼロショット検索は、ユーザー体験の向上に大きく貢献している。たとえば、ユーザーが「かわいいデザインの青いジャケット」のような具体的な説明を入力するだけで、その意図に合った商品画像を即座に提示することが可能となる。これを実現する技術には、CLIPやDual Encoder、マルチモーダル埋め込みが含まれ、画像とテキストの意味を共通の埋め込み空間で表現することで、従来の単純なキーワードマッチングを超えた高度な検索体験を提供している。実際、Shopify、Pinterest、Google Lens、Instagramなどの主要なプラットフォームでは、このような技術が製品検索や画像タグ付けに広く活用されている。

5. ロボティクス（Zero-Shotタスク指示）

自然言語だけで未知のタスクを遂行できるロボット制御への応用が急速に進展している。これにより、ユーザーが「赤い箱を拾って青い棚に置いて」といったシンプルな指示を与えるだけで、ロボットがその内容を理解し、実際に動作することが可能となる。この技術は、CLIPのような視覚と言語の埋め込みモデルと、RT-1やRT-2といった高度なロボット制御アルゴリズムを組み合わせた「Language Conditioned Policy」に基づいており、ロボットが見たことのない道具や環境にも柔軟に対応できる。特に、Google DeepMindの「RT-2: Vision-Language-Action Model」などは、その代表的な実例として注目を集めている。

6. マルチモーダルAI（画像＋言語）

従来の画像認識モデルは学習済みのクラスに限定された分類しか行えなかったが、Flamingo（DeepMind）、BLIP、Kosmos-1（Microsoft）などのマルチモーダルゼロショットラーニング（ZSL）モデルは、キャプションや説明文と画像の埋め込みを組み合わせることで、「見たことがないもの」に対しても推論が可能となっている。これにより、ユーザーが「この画像には何が写っているのか？」と質問するVisual Question Answering（VQA）や、未知の対象についての詳細な説明文生成が可能となり、GPT-4VやGeminiなどの次世代マルチモーダル基盤モデルにおいても広く採用されている。