Transformer(トランスフォーマー)の元論文を解説【前半】

AI論文解説

 CTやMRI、心エコー検査などの医療画像を医師が読影するプロセスは複雑です。1枚の画像だけ見て診断するのではなく、複数の画像の間を行ったり来たりして、診断精度を高めているからです。そこで、画像間の関係性を考慮できる新しい技術、Transformerは非常に強みを発揮すると考えられます。

 そこで今回、この技術の元となる論文「Attention Is All You Need」の解説をしてみたいと思います。私は医師でありAIの専門ではないので、誤りがあったらご指摘いただけますと幸いです。

どんな論文?

 この論文は2015年に、Googleのチームから発表されたもので、2014年時点での翻訳(英語からドイツ語、および英語からフランス語)におけるState-of-the-artでした。State-of-the-artとは、その時点で最高のパフォーマンスをもつモデルのことです。2020年12月現在で、すでに5年が経過していますが、現在もこのモデルを基礎として多くのすぐれたモデルが発表されています。

はじめに

 これまで、言語翻訳などの配列を扱うモデルの多くが、複雑なRNNやCNNを使用してきました。RNN(Recurrent Newral Network)は音声など、時系列データを扱うのが得意なディープラーニングの1つです。CNN(Convolutional Neural Network)もディープラーニングの一つですが、画像認識における現在の標準となっています。

Transformerとはどんなモデル?

 従来用いられてきたRNNやCNNを用いない単純なモデルです。文章の翻訳のためには、一つの単語のみに注目するのではダメで、文章全体の中で、ある単語がどうゆう文脈で使われているのかを認識する必要があります。これを実現するための基礎となる技術、Attention(アテンション)を用います。計算の並列化(複数の計算を同時並行ですること)が苦手なRNNを用いないことで、学習にかかる時間を短縮することができます。

*モデルの詳細、学習、結果、および総括については、【後半】で解説します。

 

 

 

 

コメント

タイトルとURLをコピーしました