視覚野とConvolutional Neural Networkの構造について

「ディープラーニング　学習する機械　ヤン・ルカン、人工知能を語る」で書かれていた視覚野とConvolutional Neural Network（CNN）の関係が興味深かったので、まとめてみました。

2012年の爆弾とCNNの始まり
ヒューベルとウィーゼルの視覚野に関する発見
1. 単純型細胞モデル
複雑型細胞モデル
CNNと単純型細胞、複雑型細胞の関係
1. 畳み込み層と単純型細胞
2. プーリング層と複雑型細胞
最後に
関連記事、参考記事

2012年の爆弾とCNNの始まり

2012年に画像認識技術に関するコンペティション形式の会議であるILSVRCで、前年記録を約9%と大幅更新したことで、CNNは一気に注目されました。さらに、翌年はすべてのチームがCNNを利用し、それ以降で記録を更新したモデルはCNNの構造を基本的には利用しています。
※ILSVRCにおけるコンペは、130万以上の画像、カテゴリ数1000のデータセットを用いてスコアを競う。犬だけでも種別が200あり、紛らわしい近縁種も含まれているため非常に難しいことで知られている。

CNNは2012年に有名になったため、最近登場したと思われますが、実は1980年代に基本的な構造は確立されています。1つは1980年に、福島邦彦先生が発表したネオコグニトロンで、もう1つは1989年にYann LeCunが発表したLeNetです。ネオコグニトロンは、ヒューベルとウィーゼルの視覚野に関する発見を、アーキテクチャに取り入れましたが、ネットワーク全体を上手く学習させる方法が考えられていませんでした。そこに、ヒューベルとウィーゼルの視覚野に関する発見とネオコグニトロンにヒントを得たYann LeCunは、誤差伝搬を利用することでネットワーク全体の学習を可能にし、ニューラルネットワークの可能性を拡げました。しかし、当時は、計算リソースが小さく、大量のデータを処理することが困難、深い層の学習ができないなど問題があったため、他の手法が2010年までは利用され続けました。

ヒューベルとウィーゼルの視覚野に関する発見

CNNのアーキテクチャに大きな影響を与えたヒューベルとウィーゼルの視覚野に関する発見は、物体認識が網膜から下側頭皮質まで段階的に行われることを明らかにしたことによります。一次視覚野(V1)で、各単純型細胞が異なる線の角度に反応することと、複雑型細胞の存在の発見によって、ノーベル生理学・医学賞を受賞しました。単純型細胞と複雑型細胞は下記のように説明されますが、理解がしやすいようにモデル化してみていきます。