CNN

執筆中

1.13-1.14

★どういったモデルなのか、だれが開発したかが問われる可能性があります。。。。(人名。。。覚える必要ありますか??覚えたところで何になりますか????なんで覚えなきゃ。。。)

 

ニューラルネットワーク(neural network)

 

畳み込みニューラルネットワークの歴史

ネオコグニトロン(Neocognitron)

1979年に福島邦彦によって提唱されたモデル。

人間の視覚野に含まれる、単純型細胞(S細胞)複数型細胞(C細胞)の2つの細胞の働きを初めて組み込んだ。

 

LeNet

1998年にヤン・ルカン(Yann LeCun)によって提唱されたモデル。

 畳み込み層とプーリング層(pooling layer)を組み合わせたCNN(Convolutional Neural Network)初期のモデル。

 

CNNの構造

CNNの概要

主に画像処理の分野で使用され、高い効果を上げているモデル。

畳み込み層とプーリング層の2つの層では入力画像が二次元のまま特長マップとしてネットワークを流れる。

 

畳み込み層

入力データをカーネルと呼ばれるフィルターを使って、畳み込み処理を行ったものを特長マップとして出力する層。

 

チャンネル(チャネル)数

フィルタの数で増減が決まる。例えば、カラー画像が入力されるときはRGBの3チャンネルである。

カーネル(karnel)

畳み込み処理を行う際に用いられるフィルター。

畳み込み層では、カーネル内部の値をパラメータとして学習をおこなう。

カーネルサイズはハイパーパラメータの1つ。

ストライド(stride)

畳み込み処理において、カーネルを移動させる幅のこと。

ハイパーパラメータの1つ。

パディング(padding)

畳み込み処理前に、画像に余白となる部分を追加し、畳み込み処理後の特長マップのサイズを調整するもの。パディングを行う位置、サイズ、埋め方などはハイパーパラメータとして設定する。

 

プーリング層(pooling layer)

入力される特長マップを、決められたルールに従って小さくする操作を行う層。

サブサンプリング層(subsumpling layer)、ダウンサンプリング層(downsumpling layer)とも呼ばれる。

代表的なものは、

  • Averageプーリング;特定領域の平均値を用いて値を圧縮する。
  • MaXプーリング;特定領域の最大値を用いて値を圧縮する。

全結合層

入力側の各ノードから出力側のすべてのノードに対して結合する層。

ニューラルネットワークを構成する最も基本的な層。

学習するパラメータとして、重みバイアスを持つ

多層パーセプトロンの主な構成要素でもあり、CNNでは出力層付近で用いられやすい。

 

GAP(Global Average Pooling)

 特長マップを一次元に変換する手法の1つ。

各特長マップから、値の最大値をとったり、平均値でまとめることで一次元に変換する。

特長マップを直接一次元にするよりもパラメータを減らすこともできる。

GoogLeNetで用いられた。

 

画像認識の様々なモデル

ILSVRC(ImageNet Large Scale Visual Recognition Challenge)

画像認識の分類制度を競う競技会。

2020年現在は開催されていないが、この協議会を通してCNNのモデルが競われてきた。

AlexNet

画像認識において、初めて深層学習の概念を取り入れたモデル。

ジェフリー・ヒントン教授(Geoffrey Everest Hinton)らのチームが発表し、2012年のILSVRCにおいて圧倒的1位を取った。

※ジェフリー・ヒントンは2020年現在、トロント大学Googleで働いている。

GoogLeNet

2014年のILSVRCにおいて、1位を取ったモデル。

AlexNetなどの既存のアーキテクチャとは異なり、1x1 Convolution、global average poolingに加え、Inceptionモジュール(Inception module)と呼ばれる小さなネットワークを積み上げた構造を持っている。Auxiliary Lossを追加して、勾配消失や正則化を実現している。

VGG

名前はVisual Geometry Group, Department of Engineering Science, University of Oxfordに由来する。

2014年のILSVRCにおいて、2位を取ったモデル。

畳み込み層とプーリング層からなる、シンプルなアーキテクチャである。

5x5のカーネル3x3カーネルを用いて層を深くすることによって近似している。過学習の緩和や計算量を削減するといった効果を期待し、層を深くするだけでなく、パラメータを削減している。

※持つ層の数によってVGG16やVGG19などの名前がついているものもある。

ResNet

2015年のILSVRCにおいて、1位を取ったモデル。

勾配消失問題を改善する、スキップコネクションと呼ばれる、ショートカット構造を持つことで、非常に深いネットワーク(152層)での学習を可能にした。

その他のCNNモデル

PyramidNet :ResNetを改良したモデル。徐々に畳み込み層のカーネル数を増加させるように工夫している。

DenseNet    :ResNetを改良したモデル。すべての層にショートカット構造をつなぐ工夫をしている。

EfficientNet :モデルの広さ、深さ、解像度を調整し、得られたモデル。

 

終わり・。・