본문 바로가기

AI_Paper/Vision

LeNet 논문리뷰

- Image Classification 기초 논문리뷰 1

 

( LeNet 논문 : http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf  )

 

- 1. Introduction

LeNet-5 등장 배경 : 전통적인 모델보다 손글씨 인식을 더 효율적으로 확인하기 위해서  

( 전통적인 모델은 글씨의 특징을 추출하는 feature extractor part와 classifier part로 구성되어있다. ) 

 

> [ Gradient Back-Propagation ]

-  최근에 가장 대중화되어있는 접근방법인 Gradient Based learning을 과거에는 사용하지 않았지만, 아래 3가지 발견을 통해 사용하게 되었다.

1. 국소 최소값이 존재하는게 실제로 큰 문제가 아니다.

2. 사전처리를 통해 비선형 함수에서 기울기를 계산하는 Backpropagation algorithm 발견

3. 시그모이드 단위를 가진 다층 신경망에 적용된 backpropagation 절차가 복잡한 학습 과제를 해결함을 발견

- 2. Convolutional Neural Networks for Isolated Character Recognition

과거 모델의 단점 

- 관련있는 정보만 추출하고 나머지 정보는 제거된다.

- weights가 너무 많다, 이에 메모리가 많이 필요하다.

- 인접한 정보에 대해 공간적인 정보를 얻을 수 없다.

 

> [ Convolutional Networks ] 

-Convolutional Networks는 shift(이동), scale(확대, 축소), distortion(왜곡)에 불변성을 보장하기 위해 구조적인 아이디어(local receptive fields, shared weights, spatial sub-sampling)를 결합햇다.

- local receptive fields : 특정 특징(edges, end-points, corners)을 추출할 수 있다.

- shared weights : 이미지의 특정 location에서 multiple features을 추출할 수 있다.

- sub-sampling : 이미지 해상도를 줄여 (shifts distortions)overfitting방지

 

- [ LeNet-5 ] 

[ 그림 1 ] LeNet 5 구조

LeNet-5는 총 7개의 layer로 구성되어있다. 

 

[ INPUT -> C1 -> S2 -> C3 -> S4 -> C5 -> F6 -> OUTPUT ] 

 

INPUT : layer에 포함되지 않는다, 32 X 32 pixel로 되어있다. 특징을 잡아내기 쉬워서 원본이미지 보다 크게 구성했다.

C1 : 5x5크기의 kernel 6개를 사용하는 convolutional layer다. 28 X 28 X 6 이미지로 출력된다.

S2 : 2x2크기의 kernel 6개를 사용하는 sub-sampling layer다. 14 X 14 X 6 이미지로 출력된다.

C3 : 5x5크기의 kernel 16개를 사용하는 convolutional layer다. S2와 모든 feature map이 연결되지 않음.  10 X 10 X 16 이미지로 출력된다.

S4 : 2x2크기의 kernel 16개를 사용하는 sub-sampling layer다. 5 X 5 X 16이미지로 출력된다.

C5 : 5x5크기의 kernel 120개를 사용하는 convolutional layer다.  1 X 1 X 120 이미지로 출력된다.

F6 : 120개의 입력을 84개의 출력으로 변환하는 fully convolutional layer다. (84인 이유는 각 문자를 아스키코드로 변환해서 맞추면 84개)

OUTPUT : MNIST데이터를 이용했기 때문에 출력크기를 10으로  맞춤

 

- Loss function : Mean Squared Error이용

 

( 참고 : https://deep-learning-study.tistory.com/368 블로그를 참고해서 작성했습니다 )

 

 

< 코드 구현 >

 

 

 

 

 

'AI_Paper > Vision' 카테고리의 다른 글

UNETR 논문리뷰  (0) 2022.11.25
ResNet 논문리뷰  (0) 2022.04.06
Mask R-CNN 논문리뷰  (0) 2022.02.25