Siamese Networksの概要とアルゴリズム及び実装例

機械学習技術自然言語技術人工知能技術デジタルトランスフォーメーション技術画像処理技術強化学習技術確率的生成モデル深層学習技術 Python 本ブログのナビ

Siamese Networksの概要

Siamese Network は、2つ（または複数）の同一構造のニューラルネットワークを共有重みで並列に配置し、入力間の類似度を学習・評価するモデルアーキテクチャであり、元々は署名認証や顔認識など、類似性判定タスクのために開発されましたものとなる（Bromley et al., 1993）。

Siamese Networkは、でのそれぞれのネットワークは、例えば画像Aと画像Bといった2つの入力（ペア）を個別に受け取り、それぞれから特徴ベクトル（エンベディング）を抽出する。重みが共有されているため、両方のネットワークは入力に対して同じ変換を行い、比較の公平性が保たれる。

出力された2つの特徴ベクトルに対しては、L1距離（マンハッタン距離）やL2距離（ユークリッド距離）、あるいはコサイン類似度などを用いて、2つの入力の類似度が計算される。

この類似度に基づき、ネットワークの学習には、例えばContrastive Loss（対照損失）やTriplet Loss（3項損失）といった損失関数が用いられる。Contrastive Lossは、類似ペアは近く、非類似ペアは一定以上離れるように学習させる損失関数であり、Triplet Lossは「Anchor」「Positive」「Negative」の3つのサンプルを使って、Anchorに近いPositiveと遠いNegativeの距離差を最大化するように学習するものとなる。

このように、Siamese Networkは「比較可能な特徴空間の学習」に特化しており、顔認証や署名認証、類似画像検索などのタスクで広く活用されている技術となっている。

応用実装例

Siamese Networks は、視覚・自然言語処理・バイオメトリクス・医療・検索など、さまざまな分野で活用されている。以下に実装例について述べる。

画像認識応用例: Siamese Networkによる手書き数字の比較（MNIST）

使用技術：

TensorFlow/Keras or PyTorch
MNISTデータセット
Contrastive Loss or Triplet Loss

実装概要：

MNIST画像ペアを作成（正例: 同じ数字、負例: 異なる数字）
CNNベースのSiamese Networkを構築
最後に2つの特徴ベクトル間の距離をL2で測る
損失関数に Contrastive Loss を適用
学習後、新しい画像同士の類似度を測定

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import Dataset, DataLoader
import random
import numpy as np
from PIL import Image

# 1. データ前処理とペア生成
class SiameseMNIST(Dataset):
    def __init__(self, mnist_dataset):
        self.mnist_dataset = mnist_dataset
        self.targets = mnist_dataset.targets
        self.data = mnist_dataset.data

    def __getitem__(self, index):
        img1, label1 = self.data[index], int(self.targets[index])
        # 同じラベルのペア or 異なるラベルのペアをランダムに選択
        should_get_same_class = random.randint(0, 1)
        while True:
            index2 = random.randint(0, len(self.data) - 1)
            label2 = int(self.targets[index2])
            if should_get_same_class == (label1 == label2):
                break
        img2 = self.data[index2]

        transform = transforms.Compose([transforms.ToPILImage(), transforms.ToTensor()])
        return (transform(img1), transform(img2), torch.tensor([int(label1 == label2)], dtype=torch.float32))

    def __len__(self):
        return len(self.mnist_dataset)

# 2. Siamese ネットワーク定義
class SiameseNetwork(nn.Module):
    def __init__(self):
        super(SiameseNetwork, self).__init__()
        self.cnn = nn.Sequential(
            nn.Conv2d(1, 16, 3), nn.ReLU(), nn.MaxPool2d(2),
            nn.Conv2d(16, 32, 3), nn.ReLU(), nn.MaxPool2d(2)
        )
        self.fc = nn.Sequential(
            nn.Linear(32 * 5 * 5, 128),
            nn.ReLU(),
            nn.Linear(128, 64)
        )

    def forward_once(self, x):
        x = self.cnn(x)
        x = x.view(x.size()[0], -1)
        return self.fc(x)

    def forward(self, input1, input2):
        output1 = self.forward_once(input1)
        output2 = self.forward_once(input2)
        return output1, output2

# 3. Contrastive Loss 定義
class ContrastiveLoss(nn.Module):
    def __init__(self, margin=1.0):
        super(ContrastiveLoss, self).__init__()
        self.margin = margin

    def forward(self, output1, output2, label):
        euclidean_distance = F.pairwise_distance(output1, output2)
        loss = torch.mean((1 - label) * torch.pow(euclidean_distance, 2) +
                          (label) * torch.pow(torch.clamp(self.margin - euclidean_distance, min=0.0), 2))
        return loss

# 4. 学習
def train(model, dataloader, loss_fn, optimizer, epochs=5):
    for epoch in range(epochs):
        total_loss = 0
        for img1, img2, label in dataloader:
            img1, img2, label = img1.cuda(), img2.cuda(), label.cuda()
            output1, output2 = model(img1, img2)
            loss = loss_fn(output1, output2, label)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        print(f"Epoch {epoch+1}, Loss: {total_loss:.4f}")

# 5. 実行
if __name__ == "__main__":
    transform = transforms.ToTensor()
    mnist_train = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
    siamese_dataset = SiameseMNIST(mnist_train)
    dataloader = DataLoader(siamese_dataset, shuffle=True, batch_size=64)

    model = SiameseNetwork().cuda()
    loss_fn = ContrastiveLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

    train(model, dataloader, loss_fn, optimizer, epochs=5)

自然言語処理の実装例: Sentence-BERT（SBERT）による文類似度判定

使用技術：

Hugging Face Transformers
Pre-trained sentence-transformers/bert-base-nli-mean-tokens
コサイン類似度評価

実装概要：

任意の2文をBERTに入力し、それぞれ文埋め込みベクトルを取得
コサイン類似度で意味の近さを数値で評価（0〜1）
高スコアなら類似、低スコアなら非類似

from sentence_transformers import SentenceTransformer, util

# 1. モデルの読み込み（日本語や多言語にも対応する場合は別モデル可）
model = SentenceTransformer('all-MiniLM-L6-v2')  # 軽量で高速

# 2. 比較対象の文を用意
sentences = [
    "This is a book about deep learning.",
    "This book explains neural networks in detail.",
    "I like to play soccer on weekends.",
]

# 3. 文章をベクトルに変換
embeddings = model.encode(sentences, convert_to_tensor=True)

# 4. 類似度を計算（コサイン類似度）
cosine_scores = util.pytorch_cos_sim(embeddings, embeddings)

# 5. 出力
print("文間の類似度行列:")
for i in range(len(sentences)):
    for j in range(len(sentences)):
        print(f"({i}, {j}): {cosine_scores[i][j]:.4f}")

医療応用例: 皮膚病変の類似画像検索（ISIC Dataset）

患者画像と既知の皮膚病画像をSiameseで比較し、既存のケースと類似性を提示。
医師の意思決定支援に貢献。
医療画像の特徴抽出にはResNetやEfficientNetベースのバックボーンを使用。

# ライブラリ
pip install torch torchvision scikit-learn matplotlib

# データ定義
from torch.utils.data import Dataset
import os
from PIL import Image
import random
import torch
from torchvision import transforms

class ISICSiameseDataset(Dataset):
    def __init__(self, image_dir, labels_dict, transform=None):
        self.image_dir = image_dir
        self.labels_dict = labels_dict  # filename -> label
        self.transform = transform or transforms.ToTensor()
        self.image_filenames = list(labels_dict.keys())

    def __getitem__(self, idx):
        img1_name = self.image_filenames[idx]
        label1 = self.labels_dict[img1_name]

        # 同じ/異なるラベル画像をランダムに選択
        should_match = random.randint(0, 1)
        while True:
            img2_name = random.choice(self.image_filenames)
            label2 = self.labels_dict[img2_name]
            if (label1 == label2) == should_match:
                break

        img1 = Image.open(os.path.join(self.image_dir, img1_name)).convert('RGB')
        img2 = Image.open(os.path.join(self.image_dir, img2_name)).convert('RGB')

        return self.transform(img1), self.transform(img2), torch.tensor([int(label1 == label2)], dtype=torch.float32)

    def __len__(self):
        return len(self.image_filenames)

# モデル定義
import torch.nn as nn
import torchvision.models as models

class SiameseResNet(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.resnet18(pretrained=True)
        base_model.fc = nn.Identity()  # Remove classification layer
        self.encoder = base_model
        self.fc = nn.Sequential(
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 128)
        )

    def forward_once(self, x):
        x = self.encoder(x)
        x = self.fc(x)
        return x

    def forward(self, x1, x2):
        out1 = self.forward_once(x1)
        out2 = self.forward_once(x2)
        return out1, out2

# Contrastive Loss
import torch.nn.functional as F

class ContrastiveLoss(nn.Module):
    def __init__(self, margin=2.0):
        super().__init__()
        self.margin = margin

    def forward(self, out1, out2, label):
        distance = F.pairwise_distance(out1, out2)
        loss = torch.mean((1 - label) * distance.pow(2) +
                          (label) * F.relu(self.margin - distance).pow(2))
        return loss

# 学習ループ
def train(model, dataloader, optimizer, criterion, epochs=5):
    model.train()
    for epoch in range(epochs):
        total_loss = 0
        for x1, x2, label in dataloader:
            x1, x2, label = x1.cuda(), x2.cuda(), label.cuda()
            out1, out2 = model(x1, x2)
            loss = criterion(out1, out2, label)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        print(f"Epoch {epoch+1}: Loss {total_loss:.4f}")

# 類似画像検索の推論
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def find_similar(query_img, dataset, model, top_k=5):
    model.eval()
    with torch.no_grad():
        q_emb = model.forward_once(query_img.unsqueeze(0).cuda()).cpu().numpy()
        embeddings = []
        paths = []

        for img_path in dataset.image_filenames:
            img = Image.open(os.path.join(dataset.image_dir, img_path)).convert('RGB')
            img_tensor = dataset.transform(img).unsqueeze(0).cuda()
            emb = model.forward_once(img_tensor).cpu().numpy()
            embeddings.append(emb)
            paths.append(img_path)

        similarities = cosine_similarity(q_emb, np.vstack(embeddings))[0]
        top_indices = similarities.argsort()[::-1][:top_k]
        return [paths[i] for i in top_indices], [similarities[i] for i in top_indices]

# 結果の可視化（matplotlib）
import matplotlib.pyplot as plt

def show_similar(query_img, similar_imgs, sim_scores, dataset):
    plt.figure(figsize=(15, 3))
    plt.subplot(1, len(similar_imgs)+1, 1)
    plt.imshow(query_img.permute(1, 2, 0))
    plt.title("Query")
    plt.axis('off')
    for i, (img_path, score) in enumerate(zip(similar_imgs, sim_scores)):
        img = Image.open(os.path.join(dataset.image_dir, img_path)).convert('RGB')
        plt.subplot(1, len(similar_imgs)+1, i+2)
        plt.imshow(img)
        plt.title(f"Score: {score:.2f}")
        plt.axis('off')
    plt.show()

Web検索・レコメンド応用: 類似商品推薦

ユーザの閲覧履歴商品画像と、全商品の画像特徴を比較。
類似ベクトル上位のアイテムを推薦する仕組み。

1-shot分類（Omniglot）

未知のクラスに対して、1枚のサンプルだけから分類可能。
Omniglot（50言語以上の文字データ）で検証されることが多い。
Siamese構造による few-shot learning の代表事例。

# ライブラリインストール
pip install torch transformers scikit-learn

# data
product_data = [
{"title": "Wireless Bluetooth Earphones with Noise Cancellation", "label": "audio"},
{"title": "Over-Ear Noise Cancelling Headphones", "label": "audio"},
{"title": "Smart Fitness Watch with Heart Rate Monitor", "label": "wearable"},
{"title": "Leather Smart Watch Band for Apple Watch", "label": "wearable"},
{"title": "Portable Bluetooth Speaker for Outdoors", "label": "audio"},
{"title": "Cotton Yoga Pants for Women", "label": "clothing"},
]

# siameseコード
import random

def make_pairs(data):
    pairs = []
    for i in range(len(data)):
        for j in range(i + 1, len(data)):
            label = 1 if data[i]["label"] == data[j]["label"] else 0
            pairs.append((data[i]["title"], data[j]["title"], label))
    return pairs

from transformers import AutoTokenizer, AutoModel
import torch.nn as nn
import torch

class SiameseBERT(nn.Module):
    def __init__(self, model_name="sentence-transformers/all-MiniLM-L6-v2"):
        super().__init__()
        self.bert = AutoModel.from_pretrained(model_name)
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)

    def encode(self, sentences):
        encoded = self.tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
        with torch.no_grad():
            model_output = self.bert(**encoded)
        embeddings = model_output.last_hidden_state[:, 0, :]  # CLS token
        return embeddings

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def recommend(query_text, product_data, model, top_k=3):
    all_titles = [item["title"] for item in product_data]
    embeddings = model.encode(all_titles)
    query_emb = model.encode([query_text])
    sims = cosine_similarity(query_emb, embeddings)[0]
    top_idx = sims.argsort()[::-1][1:top_k+1]
    return [(all_titles[i], sims[i]) for i in top_idx]

model = SiameseBERT()

query = "Compact Bluetooth Noise Cancelling Earbuds"
recommendations = recommend(query, product_data, model)

for title, score in recommendations:
    print(f"{title} (Score: {score:.4f})")

具体的な適用事例

Siamese Networks の具体的な適用事例について述べる。

1. 顔認識・認証における代表的な技術事例

FaceNet（Google）は、Triplet Loss を活用することで、1枚の顔画像からその人物の特徴を高次元ベクトル空間上に投影し、個人を識別・クラスタリングできる技術である。この手法は、本人認証や顔検索において高精度を実現し、スマートフォンの顔認証機能や Google フォトにおける人物ごとの顔分類などに応用されている。

一方、DeepFace（Facebook）は Siamese Network に近い構造を持ち、2枚の顔画像が同一人物かどうかを判定するタスクに特化している。この技術は Facebook 上の写真における顔の自動タグ付けや、人物の識別・推薦機能として広く活用されている。

2. 手書き署名認証における代表的な技術事例

SigNet（2016, Hafemann et al.）は、CNNベースのSiamese Network構造を用いて手書き署名の真偽判定を行う技術である。正当な署名と偽造署名のペアを用いて学習し、Contrastive Loss によって類似度を調整することで、高精度な署名認証を実現している。筆跡の微細な特徴を捉えることができ、個人の署名特性に基づく識別が可能となる。

このような技術は、金融機関や行政機関などでのデジタル署名の真正性検証、契約書への署名照合、さらにはタブレット上でのリアルタイム署名認証など、セキュリティ性が求められる文書処理の現場で広く活用されつつある。

3. 医療画像診断支援における代表的な技術事例

皮膚がんの類似病変検索（ISIC Challenge）では、Siamese Networkを用いて、患者の皮膚病変画像と既知のがん画像との類似度を計算し、視覚的に類似した過去の症例を提示することで診断を補助する技術が注目されている。この手法により、医師は既存の診断情報を参照しながら判断を下すことができ、経験の少ない医師にとっても有用なセカンドオピニオン的な支援が可能となる。

また、胸部X線の異常検知においても、患者のX線画像と過去の類似患者データベースとを比較することで、異常の有無や重症度を類推する取り組みが進められている。Siamese構造や距離学習を活用することで、微妙な陰影や形状の違いを高次元ベクトルで捉え、医師の診断精度向上や診断時間の短縮に貢献している。

4. 自然言語処理（NLP）における意味類似度判定の代表的事例

Sentence-BERT（SBERT）は、BERTモデルを左右対称に並べた Siamese構造で構築されており、文を固定長の意味ベクトルに変換した上で、コサイン類似度によって文同士の意味的な近さを判定する手法である。これにより、従来のBERTでは困難だった高速な意味検索や文クラスタリング、FAQマッチングなどが可能となり、検索精度の向上や質問応答（QA）システムの改善に広く応用されている。

また、Quora Question Pairs（QQP）は、2つの質問文が同じ意味か否かを判定する自然言語処理コンペティションであり、ここでも Siamese Network 構造が多く用いられた。類似性の高い文ペアを識別するこのタスクでは、双方向の文ベクトルを比較するSiameseアーキテクチャが非常に効果的であり、パラフレーズ検出や重複質問の自動判定といった実用的な場面でも成果を上げている。

5. 画像検索・レコメンドにおける代表的な技術事例

E-commerce商品検索では、ユーザーが選んだ商品画像と視覚的に類似した商品を提案する類似画像検索機能が活用されている。たとえば、AmazonやZOZOTOWNでは、ファッションアイテムや家具などのビジュアル特徴をもとに、類似する商品の一覧を表示し、ユーザーの購買体験を向上させている。こうしたシステムでは、商品画像をベクトルに変換し、Siamese Network を通じて類似度を学習することで、視覚的な一致度に基づいた精度の高い推薦が可能となっている。

特に、Pinterest においては「ビジュアル検索」機能が代表的であり、ユーザーが選択した画像の一部領域をもとに、構図や質感、色合いが似た画像を提示することができる。この機能は、CNNベースのSiamese構造を用いて画像の埋め込みベクトルを学習し、数億件に及ぶ画像の中から高速に類似画像を検索する仕組みとして実装されており、視覚的嗜好に基づくレコメンドの精度向上に大きく寄与している。

6. Few-shot / One-shot Learning における代表的な技術事例

Omniglot Few-shot分類は、アルファベットや記号などの手書き文字を対象とし、わずか1枚のサンプル画像だけで新しいクラスを認識する One-shot Learning タスクである。この領域では、Siamese Network が標準的な手法として広く使われており、2つの文字画像が同じクラスか否かを判定する形でモデルが学習される。未知のクラスに対しても、高次元の特徴空間での距離によって効果的な識別が可能であり、低リソース条件での画像認識に強みを発揮する。

一方、Mini-ImageNet Few-shot分類は、より複雑で自然な画像を対象としたタスクであり、各クラス数枚程度の画像しかない状況で未知カテゴリを分類するという課題である。このタスクでは、Siamese Network に加え、**Meta-learning（メタ学習）**の考え方や、各クラスの代表特徴（プロトタイプ）を活用する Prototypical Networks といった手法が活躍している。Siamese構造は、限られたサンプルからの汎化性能を高める基盤技術として、多くのFew-shot学習アルゴリズムと組み合わせて応用されている。

7. 音声認識・話者認証における代表的な技術事例

Speaker Verification Systems（話者認証システム）は、入力された音声が特定の人物によるものであるかを判定する音声生体認証技術であり、Siamese Network を応用して、異なる音声間の話者特徴の類似度を学習する手法が広く利用されている。これにより、登録された音声サンプルと新たに入力された音声が同一話者であるかどうかを高精度で判断でき、VoiceID や Alexa、Google Home などのスマートアシスタントにおける個人認識に応用されている。

特に、Google Voice Matchでは、ユーザーごとの音声特徴をあらかじめ**Siamese型のエンコーダーでベクトル化（音声埋め込み）**し、それをもとにユーザーごとの音声プロファイルと照合することで、音声による個人識別を実現している。この技術により、複数人が同じデバイスを使用しても、話者ごとに最適化されたサービス応答やパーソナライズ処理が可能になっている。

8. バイオメトリクス全般における代表的な技術事例（指紋・虹彩・静脈）

指紋照合では、センサーから取得された指紋画像と、あらかじめ登録された指紋画像とを比較し、本人かどうかを判定する認証技術が広く用いられている。近年では、Siamese Network を活用して指紋画像間の特徴ベクトルを抽出し、距離比較によって照合を行う手法が一般的となっており、スマートフォンやタブレット端末などのモバイルデバイスにおける生体認証に実装されている。Siamese構造により、変形・ノイズのある指紋画像にも柔軟に対応可能である。

また、虹彩認証は、瞳孔周囲の虹彩パターンを用いて個人を識別する技術であり、高セキュリティ施設やスマートロックのアクセス制御などに応用されている。虹彩パターンは非常に個人差が大きく、高い識別精度を実現できるが、照合には効率的かつ高精度な比較が求められる。そこで、Siamese Network を用いた高速な特徴比較が導入されており、部分的な遮蔽や光の変化にも頑健な認証を可能にしている。

9. サイバーセキュリティ・異常検知における代表的な技術事例

ネットワーク通信の類似パターン検出では、正常時の通信ログと現在の通信挙動を比較し、異常や攻撃の兆候を検出するための支援技術として Siamese Network が活用されている。通信パターンを時系列データや特徴ベクトルとして表現し、Siamese 構造を通じて類似性を学習・評価することで、未知の攻撃や異常な通信を高感度に識別できる。従来のルールベース検知と比べて、未知の攻撃パターンにも柔軟に対応できる点が特長である。

また、ログイン挙動の比較においては、ユーザーごとの過去のログインパターン（時間帯、IP、操作経路など）と現在の挙動を比較し、なりすましやアカウント乗っ取りの兆候を早期に検出する技術としてSiamese Networkが用いられている。これにより、通常の利用と異なる微細な挙動の差異を距離ベースで判定でき、従来検知が難しかった巧妙な攻撃や内部不正の発見にもつながっている。

10. 学習者支援・教育における代表的な技術事例

類似問題検索では、生徒が解いた数式問題やプログラミング課題に対して、構造的・意味的に類似した問題や解答例を自動的に提示するシステムが構築されており、EdTech（教育×テクノロジー）分野で注目を集めている。こうした応用においては、問題文やコードをベクトル表現に変換し、Siamese Network によって類似度を学習・評価することで、学習者の理解度や苦手傾向に応じた個別最適な問題推薦が可能となる。

また、回答自動フィードバックの分野では、学習者の解答と模範解答・過去回答との意味的類似度を判定し、Siamese構造によってその違いや一致を測定することで、自動的にフィードバックやヒントを提供するシステムが実現されている。これにより、教師の負担を軽減しながら、学習者に対してリアルタイムで個別対応可能な教育支援を行うことができる。特に、Chatbot型の学習支援や自習型のオンライン学習プラットフォームにおいて有効に活用されている。

Siamese Networkは、「未知の入力を既知のものと比較する」設計思想に優れており、「分類不可能な少数クラス」や「リアルタイム識別」が求められる分野に特に向いている。

参考文献

Siamese Networks（シアミーズネットワーク）に関する参考文献について述べる。

1. 原典・理論的基礎

Bromley et al. (1993, AT&T Bell Labs)
- タイトル：Signature Verification using a “Siamese” Time Delay Neural Network
- 内容：Siamese Networkの原型。手書き署名照合に初めて適用。重み共有の発想を提案。
Hadsell, Chopra, LeCun (2006, CVPR)
- タイトル：Dimensionality Reduction by Learning an Invariant Mapping
- 内容：Contrastive Lossを提案。距離学習（Metric Learning）の理論的基礎を確立。
Hoffer & Ailon (2015)
- タイトル：Deep Metric Learning using Triplet Network
- 内容：Triplet構造による類似度学習の拡張。FaceNetなどの原理にも影響。

2. 応用・発展型アーキテクチャ

Schroff et al. (2015, Google)
- タイトル：FaceNet
- 内容：Triplet Loss を活用した顔認識とクラスタリング。Siamese発展系。
Koch et al. (2015)
- タイトル：Siamese Neural Networks for One-shot Image Recognition
- 内容：Omniglotデータセットで1-shot分類に成功。Few-shot学習の先駆け。
Vinyals et al. (2016, NIPS)
- タイトル：Matching Networks for One-shot Learning
- 内容：Attention機構＋類似度関数で1-shot分類。Siamese構造と関係。
Snell et al. (2017, NeurIPS)
- タイトル：Prototypical Networks
- 内容：クラスの中心（プロトタイプ）との距離に基づくFew-shot分類。Siameseの簡易化。
Han Hu et.al
- タイトル：Relation Networks for Object Detection
- 内容：入力ペア間の「関係性」そのものを学習する構造。Siameseの概念を拡張。

3. 実装・実践書籍・リソース

François Chollet
- 書籍：Deep Learning with Python（第2版）
- 内容：KerasでのSiamese構造＋Contrastive Loss実装例を収録。
Aurélien Géron
- 書籍：Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow（第2版）
- 内容：Siamese/Triplet学習とその応用を丁寧に解説。
Kevin Musgrave
- GitHub：PyTorch Metric Learning
- 内容：Siamese、Triplet、ArcFaceなどのMetric Learning実装集。
Reimers & Gurevych (2019)
- ライブラリ：HuggingFace Sentence-Transformers (SBERT)
- 内容：文類似性をSiamese BERT構造で判定。多言語対応・実装も豊富。

4. 実験・ベンチマークデータセット（参考）

Omniglot
- 用途：Few-shot分類
- 概要：1-shot学習で用いられる1623クラスの手書き文字データ。
LFW（Labeled Faces in the Wild）
- 用途：顔認識
- 概要：顔画像のペア分類。FaceNet/Siameseの代表的ベンチマーク。
Quora Question Pairs (QQP)
- 用途：意味類似判定（NLP）
- 概要：2つの質問が同一意味かを判定する二値分類。SBERT等で評価。
ISIC（Skin Lesion Dataset）
- 用途：医療画像類似度学習
- 概要：皮膚病変の診断補助。画像間の視覚的類似性学習に使用。