Contrastive Learning （対照学習）の元論文を解説

はじめに
この研究の中で明らかになったこと
背景
自己教師あり学習とは？
モデルの詳細
訓練
SimCLRの驚くべき精度とは？
まとめ

はじめに

本研究で発表されたSimCLRは、自己教師あり学習アルゴリズムを、特殊なアーキテクチャやメモリを必要とせずに、単純化したものです。ヒントン氏のグループから発表されたこの研究の成果により、従来の自己教師あり学習、半教師あり学習、転移学習の仕組みは大幅に改善され、世界中の研究機関での実装や実用化が進んでいます。

この研究の中で明らかになったこと

下記の知見を組み合わせることで、Imagenet上での自己教師あり学習および半教師あり学習について、従来の手法を大幅に上回る結果を得ることができました。

効果的な予測タスクを定義するために、強力なData augmentationが重要である
表現とContrasitive loss（対照損失）の間に学習可能な非線形変換を入れることで性能向上
教師あり学習と比較して、より大きなバッチサイズと、多くの学習ステップの恩恵が大きい

背景

これまで教師なしの視覚表現は、generativeまたは、discrinativeのどちらかが用いられていました。generativeアプローチは不要な計算量が多すぎること、discrinativeアプローチは経験則に依存することが問題でした。

自己教師あり学習とは？

現在のAIのほとんどが、人間が準備した正解ラベルを学習することで訓練されますが、これを教師あり学習と呼びます。一方で「自己」教師あり学習は、正解ラベルを必要とせずに、自ら学ぶことが可能な仕組みです。

モデルの詳細

Chen et al. A Simple Framework for Contrastive Learning of Visual Representation

まず画像ｘに、2種類の異なるData augmentation（図中のt~Tと、t’~T）が施されます。Data augmentation（データ拡張）は、もとのデータに処理を加えて変種を作り出していくことで、データ量を水増しする、AI分野でよく用いられる手法です。

　その後それぞれが関数ｆと、続いて関数ｇに代入されます。計算の結果、2種類の z_i と z_j が得られますので、これらの一致度が高くなるように学習させます。これにより画像の特徴的な要素（Representation）を抽出します。ちなみに関数ｆはベースエンコーダネットワーク、関数ｇはプロジェクションヘッドと呼ばれます。

　例えば、10枚の画像があるとすると、2種類のData augmentationにより20枚が生成されます。そこからある1枚を取り出したととき、残りの19枚のうち、同じ画像を起源とするものは1枚のみで、残りの18枚は、異なる画像から生成されたものになります。この、同じ画像を起源とする1枚と共通する特徴を抽出していきます。逆に、残りの18枚と共通する要素は抽出しないようにします。これによりそれぞれの画像の特徴の抽出が進みます。

訓練

LARSというオプティマイザーを使用。32～128のコアを有する、クラウドTPUで訓練されました。同じ画像を起源とする2枚のペアが、どうしても同じデバイス内に位置してしまうので、モデルはこれを利用してカンニングをしてしまします。これを防ぐため、デバイスごとのバッチ正規化ではなく、全デバイスでのバッチ正規化の平均と分散を使用しました。

　データにはImageNet ILSVRC-2012データセットを使用。バッチが大きい方が成績が良かったためバッチサイズを4096に設定。100エポック訓練されました。