TransGANの概要とアルゴリズム及び実装例

機械学習技術自然言語技術人工知能技術デジタルトランスフォーメーション技術画像処理技術強化学習技術確率的生成モデル深層学習技術 Python 本ブログのナビ

TransGanの概要

TransGAN は、世界で初めて純粋な Transformer アーキテクチャのみを用いた GAN（Generative Adversarial Network）として提案されたものとなる。

論文名：TransGAN: Two Transformers Can Make One Strong GAN
著者：Yifan Jiang ほか
発表先：NeurIPS 2021
特徴：CNNを一切使わず、Transformerだけで構成されたGAN

従来の GAN の多くは CNN（畳み込みニューラルネットワーク）をベースとしており、画像生成には局所的な畳み込み処理が必須と考えられてきた。TransGAN はこれを打ち破り、自己注意機構（Self-Attention）のみで画像生成を可能にした点が大きな注目を集めた。

TransGANの構成は、TransformerベースのGenerator（生成器）とDiscriminator（識別器）という2つの主要要素から成り立っている。

生成器は、正規分布に従うノイズベクトルを入力として受け取り、それをパッチ化された特徴トークンへと変換した上で、複数のTransformerエンコーダブロックを通して画像の構造を学習し、最終的にトークンを結合して線形射影によって画像として出力する。

一方、識別器は入力画像を小さなパッチに分割し、それらをトークンとして扱い、Vision Transformer（ViT）に類似した構造を通じて処理し、入力が本物か偽物かを判別する。

このアーキテクチャには、Transformer特有の技術的工夫が随所に見られる。画像をパッチ単位で処理する方式や、位置埋め込み（Positional Encoding）、Layer NormalizationやGELUといった安定化手法が導入されているほか、通常は大量のデータを必要とするTransformerの訓練を少量データでも可能にするための最適化も施されている。また、GAN特有の学習の不安定さを克服するために、スペクトルノルムや損失関数の工夫、ウォームアップスケジュールなどの技術も採用されている。

性能面においても、TransGANはCIFAR-10、CelebA、LSUNなどの代表的な画像データセットで高い評価を受けており、従来のCNNベースのDCGANやStyleGANと比較しても遜色ない、あるいは一部でそれらを上回る結果を示している。これは、「Transformerのみでも高品質な画像生成が可能である」ことを世界に証明した重要な成果である。

TransGANは、ViTやGANformer、さらにTransformerを用いた非GAN系モデルであるImage GPTやDALL·Eといった関連モデルとの比較・発展の観点からも注目される。なかでも「Self-Attention × 生成」の可能性を切り拓いた点において、TransGANは今後の生成モデル研究における礎となる存在となっている。

応用実装例

以下に、TransGAN の応用実装例（簡易版）を示す。ここでは PyTorch ベースで、Transformer アーキテクチャを用いて CIFAR-10 レベルの低解像度画像を生成する例について述べている。

前提構成

Generator: ノイズベクトル → トークン → Transformer → パッチ画像へ再構成
Discriminator: 入力画像 → パッチ分割 → Transformer → 本物/偽物判定
CNN ゼロ、純 Transformer 構成

1. 環境構築（PyTorch）

pip install torch torchvision

2. Generator の簡易実装（Transformerベース）

import torch
import torch.nn as nn

class TransformerGenerator(nn.Module):
    def __init__(self, latent_dim=128, img_size=32, patch_size=4, dim=256, depth=6, heads=4):
        super().__init__()
        num_patches = (img_size // patch_size) ** 2
        self.patch_size = patch_size
        self.img_size = img_size
        self.dim = dim

        self.latent_proj = nn.Linear(latent_dim, num_patches * dim)
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(d_model=dim, nhead=heads), num_layers=depth
        )
        self.out_proj = nn.Linear(dim, patch_size * patch_size * 3)

    def forward(self, z):  # z: (batch, latent_dim)
        batch = z.shape[0]
        tokens = self.latent_proj(z).view(batch, -1, self.dim)  # (batch, N, dim)
        tokens = self.transformer(tokens)                       # (batch, N, dim)
        patches = self.out_proj(tokens)                         # (batch, N, patch_pixels)
        patches = patches.view(batch, self.img_size, self.img_size, 3).permute(0, 3, 1, 2)
        return patches  # (batch, 3, H, W)

3. Discriminator の簡易実装（ViT風）

class TransformerDiscriminator(nn.Module):
    def __init__(self, img_size=32, patch_size=4, dim=256, depth=6, heads=4):
        super().__init__()
        num_patches = (img_size // patch_size) ** 2
        self.patch_embed = nn.Conv2d(3, dim, kernel_size=patch_size, stride=patch_size)
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(d_model=dim, nhead=heads), num_layers=depth
        )
        self.classifier = nn.Linear(dim, 1)

    def forward(self, x):  # x: (batch, 3, H, W)
        patches = self.patch_embed(x)                    # (batch, dim, H', W')
        tokens = patches.flatten(2).transpose(1, 2)      # (batch, N, dim)
        out = self.transformer(tokens)                   # (batch, N, dim)
        global_token = out.mean(dim=1)                   # (batch, dim)
        return self.classifier(global_token).squeeze(1)  # (batch,)

4. トレーニングの概要（擬似コード）

G = TransformerGenerator()
D = TransformerDiscriminator()

z = torch.randn(64, 128)
fake_images = G(z)
real_images = next(iter(data_loader))  # CIFAR-10など

# discriminator loss
real_score = D(real_images)
fake_score = D(fake_images.detach())
loss_D = -torch.mean(real_score) + torch.mean(fake_score)

# generator loss
loss_G = -torch.mean(D(fake_images))

応用事例

以下に、TransGAN（TransformerベースのGAN）の具体的な適用事例について述べる。

1. 低解像度画像生成（CIFAR-10、CelebAなど）

- 32×32〜64×64の低解像度画像を対象とした無条件生成
- CNNを一切使わず自然画像生成に成功
- CIFAR-10やCelebAの生成タスクに応用
- CNN依存性を排除したアブレーションベースラインとして利用

2. Transformerベース構造のベンチマーク評価

- Transformerによる画像生成の有効性を評価
- ViTGAN, GANformer, Styleformer との比較ベースラインに
- CNNの inductive bias を使わずにどこまで生成できるかを検証

3. 生成の可視化と解釈可能性

- Attention 機構によって生成過程の視覚的解釈が可能
- CNNよりもブラックボックス性が低減
- 医用画像や異常検知の信頼性評価に応用

4. 汎Transformerモデルとの統合利用

- 生成（TransGAN）と分類（ViT）を統一的にTransformerで構築
- モジュールの再利用が容易（生成・分類・変換の間で）
- 事前学習済みTransformerのfine-tuningによる応用も可能

5. 新しいGANアーキテクチャ設計の出発点

- CNNを用いない生成モデル研究の基盤
- UNet、Diffusionモデルなどとの統合に発展
- 高解像度対応の拡張版（例：TransGAN2, StyleSwin）の実験基盤に

6. 生成品質と表現学習の評価

- Inception Score（IS）、FIDなどの指標で評価可能
- CIFAR-10でFID ≈ 8.6（TransGAN-128）を記録
- DCGAN（FID ≈ 26）より大幅に優れた性能を確認

参考文献

以下に、TransGAN（Transformer-based GAN）に関する参考文献について述べる。

1. 原典論文（TransGAN 本体）

Jiang, Yifan, et al. (2021)
TransGAN: Two Transformers Can Make One Strong GAN
- CNNを使わずTransformerのみで構成された初のGAN
- CIFAR-10やCelebAで高品質な画像生成を達成
- 🔗 GitHub: https://github.com/VITA-Group/TransGAN

2. 関連研究（Transformer × GAN）

Hudson & Zitnick (2021)
Generative Adversarial Transformers
- Self-/Cross-Attentionを組み合わせたTransformer-GAN（CNNとのハイブリッド）
Touvron et al. (2020)
DeiT: Data-efficient Image Transformers
- ViTの軽量訓練手法。TransGANの識別器設計に影響

3. 技術背景・理論基盤

Dosovitskiy et al. (2020)
An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale (ViT)
- パッチ分割・位置埋め込みなどのViT原典
Goodfellow et al. (2014)
Generative Adversarial Nets
- GANの原点となる論文

4. 実装リソース・チュートリアル

TransGAN GitHub
- 公式PyTorch実装
Hugging Face Blog
- Vision Transformer応用解説
Papers with Code
- TransGANのベンチマークスコア一覧