딥러닝(DL) 29

[DL] 수치 미분 ( Numerical differentiation )

뉴럴 네트워크는 데이터를 통해 학습을 할 때 "미분"을 이용하여 학습을 합니다. $$ f'(x) = \lim_{h \to 0} \dfrac{f(x+h)-f(x)}{h} $$ 미분 계수는 극한으로 정의됩니다. 어떤 함수의 순간 변화율을 구하는 것을 의미하고 고등학교 수학 시간에 이미 여러 번 배운 수식이죠. 그런데 딥러닝에서는 컴퓨터한테 극한값이라는 고차원 적인 개념을 알려주고 프로그래밍하기 복잡하기 때문에 엄밀한 미분 계수는 아니지만, 그와 비슷한 값이 나오는 평균 변화율을 사용하게 됩니다. 아이디어는 매우 작은 $h$를 잡게 되면 실제 미분계수와 거의 동일한 값을 가진다는 것이죠. 즉 미분 계수를 다음과 같이 충분히 작은 $h$를 잡아 근사시킵니다. $$ \dfrac{f(x+h)-f(x)+}{h} $$..

[DL] 정보 엔트로피 ( Information Entropy )

정보이론은 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 수학의 한 분야입니다. 쉬운 말로 정보량을 수치화 할 수 있을까? 라는 질문에서 시작된 것이 정보이론입니다. 정보 엔트로피란 정보 이론에서 나타난 개념으로, 보통 엔트로피라는 단어는 화학이나 물리에서, 열역학에 대해 배울 때 가장 먼저 듣게 될텐데 실제로 정보 엔트로피는 섀넌이 열역학에서 정의된 엔트로피를 확장한 개념으로 열역학에서의 엔트로피와 크게 다르지 않은 개념입니다. 딥러닝을 하는데 갑자기 무슨 열역학? 엔트로피? 라고 생각할 수 있지만 지난 포스팅에서 소개했듯 손실 함수로 자주 사용되는 크로스 엔트로피라는 것도 배웠고, 이를 이해하기 위해서는 엔트로피에 대해 자세히 알 필요가 있습니다. 또한 자연어 ..

You Only Look Once: Unified, Real-Time Object Detection (CVPR 2016) - YOLO v1

2016 CVPR에 발표된 You Only Look Once: Unified, Real-Time Object Detection 논문에 대한 내용으로 YOLO 시리즈의 첫 번째 논문 YOLO v1 이라고도 많이 불립니다. 객체 탐지 분야의 유명한 논문으로, 논문 발표 당시 주로 사용되던 2 stage object detection 방법을 대신하여 입력 이미지를 CNN으로 추출해 바로 계산하는 1 stage object detection 방법을 제안하는 논문입니다. 기존의 Classifier 방식을 공간적으로 분리된 Bounding box와 관련된 Class 확률에 대한 regression 문제로 재정의하여 2 stage detector들과 성능이 비슷하면서도 훨씬 빠른 속도를 가지고, 일반화 능력이 좋아 ..

[DL] 손실 함수 ( Loss function )

신경망 학습이란 train 데이터로부터 가중치 매개변수의 최적값을 자동으로 얻는 것을 뜻합니다. 이번 포스팅에서는 신경망이 학습할 수 있도록 해주는 지표인 손실 함수에 대해 알아보도록 하겠습니다. 손실 함수 ( Loss function ) 란? 신경망 학습에서는 현재의 상태를 하나의 지표로 표현합니다. 신경망은 이러한 하나의 지표를 기준으로 최적의 매개변수 값을 탐색하는데, 이 때 신경망 학습에서 사용되는 지표를 손실/비용 함수(Loss function, Cost function) 이라고 합니다. 즉 손실 함수란 신경망의 성능의 '나쁨'을 나타내는 지표로 현재의 신경망이 훈련 데이터를 얼마나 잘 처리하지 못하는가 를 나타냅니다. 인공신경망의 성능이 좋을수록 손실 함수의 값이 낮고 성능이 나쁠수록 손실함수..

Deep Residual Learning for Image Recognition (CVPR 2016)

Resnet 이란 이름으로도 유명한 이미지 분류 분야의 논문입니다. 깊이가 깊어질 수록 학습 성능이 저하되는 문제를 잔여 학습(Residual training) 이란 기법을 사용해 층이 깊어질 때 발생하는 degradation problem 을 해결한 논문으로, 간단한 아이디어로 구성되어 있지만 최신 논문들에서도 계속 인용될만큼 핵심적인 논문입니다. 제 깃허브 링크에 가시면 영문으로 2페이지 요약 작성한 PDF 파일을 다운 받으실 수 있습니다. Github 링크 : https://github.com/Song-Joo-Young/Deep-Learning-Paper-Review/blob/main/README.md Deep Residual Learning for Image Recognition Abstract ..

[DL] MNIST ( Modified National Institute of Standards and Technology database )

이번 포스팅은 MNIST 데이터셋을 이용해 직접 신경망의 순전파를 확인해보고, 일종의 실습을 하는 포스팅입니다. MNIST 는 대표적인 기계학습 데이터셋으로 0부터 9까지의 숫자 이미지로 구성된 데이터셋입니다. MNIST의 이미지 데이터는 $28 \times 28$ 크기의 흑백 이미지이며, 각 픽셀은 $0$ ~ $255$ 까지의 밝기 값을 가집니다. 또한 각 이미지에는 그 숫자에 대한 레이블이 붙어있습니다. 이 데이터셋 내부에 이미 훈련 이미지가 $60,000$장, 시험 이미자가 $10,000$장 준비되어 있습니다. 훈련 이미지들을 사용해 학습된 모델로 시험 이미지를 분류해보는 것이 오늘의 목적입니다. 오늘은 학습된 매개변수로 사용해 분류가 진행되는 과정(순전파, Forward propagation)만 ..

[DL] 인공 신경망 ( Artificial neural network, ANN ) - Forward Propagation

인공신경망이란? 인공 신경망 ( Artificial neural network, ANN ) 이란 앞서 배웠던 퍼셉트론과 활성 함수의 아이디어를 결합한 모델을 뜻합니다. 즉 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)가 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델을 전반적으로 지칭하는 단어입니다. 위 같은 인공신경망은 행렬을 통해 구현할 수 있습니다. 입력층을 Input layer, 중간의 은닉층을 Hidden layer, 출력층을 Output layer 라고 부릅니다. 이 때 $x_i, a_j^{(i)}, W^{(j)} $ 들이 의미하는 바는 아래와 같습니다. $$ a_j^{(i)} : \text{“Activation" of the i-th unit in..

[DL] 활성 함수 ( Activation function )

활성 함수란? ( Heaviside, Sigmoid, ReLU ) 지난 포스팅에서 살펴본 퍼셉트론의 구조에 대한 그림을 다시 살펴보면 오른쪽에 활성 함수(Activation Function) 이라는 것이 있습니다. 다시 한 번 퍼셉트론을 나타낸 수학적 수식을 살펴보면 아래와 같습니다. $$ y=\begin{cases}0,\ \quad \ \ \ b+w_1x_1+w_2x_2\ \le 0\\1,\quad \ \ \ \ b+w_1x_1+w_2x_2\ >0\end{cases} \quad \quad ↔ \quad \quad y = h(w_1x_1+w_2x_2+b) $$ 이 때 $h$ 는 헤비사이드 함수(Heaviside function) (= 단위 계단 함수(unit step function)) 을 뜻합니다. $..

[DL] 퍼셉트론 ( Perceptron )

퍼셉트론(Perceptron) 이란? 퍼셉트론(Perceptron) 이란 사람의 뇌신경 세포의 동작과정을 흉내내어 만든 수학적 모델으로 신경망의 기원이 되는 알고리즘입니다. 따라서 퍼셉트론의 구조를 잘 이해하는 것이 앞으로의 신경망과 딥러닝으로 나아가는데 중요한 밑거름이 됩니다. 퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력합니다. 퍼셉트론 신호는 0이나 1 둘 중의 하나의 값을 가지게 됩니다. $$ y=\begin{cases}0,\ \quad \ \ \ w_1x_1+w_2x_2\ \le \theta \\1,\quad \ \ \ \ w_1x_1+w_2x_2\ >\theta \end{cases} $$ 위의 예시에서 $x_i$ 들은 입력(input) 신호, $y$는 출력 신호, $w_i$ 들은 ..

728x90
반응형