Neural Network / Cost Function / Gradient Descent
뉴럴 네트워크(Neural Network), 비용 함수(Cost Function), 경사하강법(Gradient Descent)에 대해 자세히 알아봅시다.
Neural Network / Cost Function / Gradient Descent
*본 게시글은 유튜브 ‘김성범[ 교수 / 산업경영공학부 ]’ [ 핵심 머신러닝 ]뉴럴네트워크모델 1 (구조, 비용함수, 경사하강법) 자료를 참고한 점임을 알립니다.
Neural Network
1. 선형 회귀 모델
- 입력변수(\(x\))의 선형 결합을 통해 출력변수(\(y\))를 표현
- 출력변수(\(y\))는 실수의 범위 내에서 연속적인 값 => ‘연속형’
2. 로지스틱 회귀모델
- 입력변수(\(x\))의 선형 결합값을 로지스틱 함수에 입력하여 비선형 결합(\(\sigma\))을 통해 출력변수(\(y\))를 표현
- 출력변수(\(y\))는 특정 범주 및 카테고리 중 하나의 값 => ‘범주형’
- 이진 범주형 : 0 또는 1 (True or False)
- 다중 범주형 : 맑음 또는 흐림 또는 비 또는 눈
3. 다중 퍼셉트론(Multi-Layer Perceptron)
- 입력층 : 입력변수의 수 = 입력노드의 수
- 은닉층
- 출력층 : 출력노드의 수 = 출력변수의 범주 개수(범주형), 출력 변수의 갯수(연속형)
- MLP(Multi-Layer Perceptron) == ANN(Artifical Nerural Networks)
4. 선형 회귀 / 로지스틱 회귀 / 뉴럴 네트워크 비교
선형 회귀 모델 \(f(x) = w_{0} + w_{1}X_{1} + w_{2}X_{2}\)
로지스틱 회귀 모델 \(f(x) = \frac{1}{1 + e^{-(w_0 + w_1X_1 + w_2X_2)}}\)
뉴럴 네트워크 \(f(x) = \frac{1}{1 + e^ {-\left( z_{01} + z_{11} \left( \frac{1}{1 + e^{-(w_{01} + w_{11}X_{1} + w_{21}X_{2})}} \right) + z_{21} \left( \frac{1}{1 + e^{-(w_{02} + w_{12}X_{1} + w_{22}X_{2})}} \right) \right) }}\)
5. 활성화 함수(Activation Function)
Source: Performance analysis of mAlexnet by training option and activation function tuning on parking images
6. 비용 함수(Cost Function)
- MSE \(L = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
- CrossEntropy \(L = - \sum_{i} t_i \log p_i\)
7. 경사하강법 (Gradient Descent)
- Gradient Descent Method: First-Order Optimization Algorithm
- Optimization : 함수의 최솟값 혹은 최댓값을 찾는 과정
- Turning Points의 개수는 함수의 차수에 의해 결정
- 모든 Turning Point가 최솟값 혹은 최댓값은 아님
- 전역 최솟값(Global Minimum) : 최솟값들 중 가장 작은 최솟값
- 지역 최솟값(Local Minimum) : 지역적인 최솟값
- 경사하강법(Gradient Descent Method)
- 비용함수를 최소화하는 weight들을 찾고자할 때 활용하는 방법론
- gradient가 줄어드는 방향으로 weight들을 찾다보면 최솟값을 찾을 수 있음
- \(w_{\tau}\)에 따라 \(w_{\tau+1}\)가 증가 혹은 감소
참고 자료
This post is licensed under CC BY 4.0 by the author.