[DL] Back Propagation

빗살무늬 토기(Convex Function)

optimization = 하산법.

가장 아랫부분을 Global Minimum이라고하는데

잘못된? 높은 local Minimum으로 가면 안된다.

그래프에서 삼각형 부분이 local이고, 동그라미 부분이 global이라고 볼수있다.

데이터는 3차원인데, 2 레이어가 존재한다. 쎄타0 , 쎄타1가 있는데

쎄타0 = W1X+b1 라고 하면 >>> 출력
쎄타1 = W2X+b2 >> 입력으로

세타 2가지(입출력)가 들어가므로 레이어가 2개 존재한다고 할 수 있다.
J(세타0,세타1) 2레이어임..

만약 세타2가 있다고 가정하면,

세타2 = 쎄타1의 출력값이 세타2로 입력된다.

세타2의값 = W2(W1X+b1)+b2
W3(세타2의 값) + b3이 된다.

Random Search

weight값을 랜덤으로 무작위로 넣어서 다음 최고값을 구하면서 내려가는 방법이다. 시간을 많이 들여야한다.

Random Local Search

한마디로 랜덤서치는 위로 갈수도 있고 아래로 갈수 있는데 random local search는 고도가 낮으면 진행하게 끔만 한다.

즉, 다시 올라가지 않고, 내려가는 값만 랜덤하게 찾아서 내려간다.

Random Local Search vs Gradient Descent

방향을 수학적으로 계산은 편미분 (Back Propagation)이라고 한다.

w-learning_rate*((y_predict - Y)*X).mean()

epoch 설명

데이터가 적당할땐 데이터들을 한 에폭이 끝날때 마다 변형시켜준다

회전시키거나, 필터입히거나, 잘라내거나 등등 해서 데이터를 변경 시켜줘야한다.

10에폭은 초반부이므로, 초반에 빠른 아다미를 쓰고 후반부엔 SGD를 사용해서 정확도를 높힌다.

NN(fully Connected network)설명

하나하나가 fully Connected Layer로 이루어져 있다.

weight는 각기 다른 값들이 갖는다 즉 신념으로,,,

bias는 공통적인 값들을 갖는다 그래서 각 영역에 공통값으로 들어간다.

F1 : 각자의 신념으로 중요도를 지정

F2 : 프로그램 상수처럼 공통의 동일한 신념으로 지정

F3 : threshold(특정이상의 값)값만 가져옴

Output : 어느정도 f3에서 살아남은 값만 아웃풋으로 넘어감 즉, 강한 자극만 넘긴다. 특정 이상으로 나온 수치만 출력대상으로 미세한 값은 안 넘어감 큰값만 ...

12이다.

12이하의 값이나오면 느끼지 못함...

활성화 함수에는 12이상의 값만 들어온다.

각 Activation함수 들어가는 곳은 중간출력값을 뽑아내기전에 실행된다.

정확도를 극대화 97~99를 올릴때 tanh, Leaky ReLU, ELU를 사용한다.

활성함수 Activation Function

활성함수 Activation Function은
1. 선형을 깨기위한 Activation 함수를 넣는다.
2. 임계치 이상값만 출력하고 나머지 미세한 값은버린다.

히든레이어가 4개라는건 레이어가 4개라는것. hypothsis...

개념정리

1. Loss : 현재 내가 위치해 있는 고도

2. Optimization : 하산하는 방법

3. Back Propagation : 가장 빠르게 내려오는 방향을 계산하는 것 (가장 빠르게 내려오는 방향)하는 이라고 볼 수 있다. 이때 사용되는게 편미분이 사용된다. 가장 빠르게 내려오는 기울기를 계산해서 알아내야 한다.

4. Gradient Descent : Back Propagation을 사용해서 내려오는 방법이다.

위의 결론 - Back Propagation 방법을 이용해서 하산하는 방법이 Gradient Descent 이다. Optimization을 하기 위해서는 loss Function에서 loss 값이 먼저 나와야한다.

5. y = Wx + b = W값에 따라서 (방향) 과 (속도)가 결정된다.
학습 초반부에는 기울기값이 높고 후반부에는 기울기를 낮게해줘야 한다.

6. loss값에 나온 전적인 책임은 weight가 가져야한다.

참고 블로그

chacha95.github.io/2018-11-17-Deeplearning1_5/

Optimization

이번 포스트에서는 weight들이 어떻게 조정 되는지 알아 봅시다. 편의상 weight와 bias를 weight라고 묶어서 말하겠습니다. 미분포스트를 읽고, CS231n Backpropagation강의를 듣고 읽으시는 걸 추천드립니다

chacha95.github.io

nittaku.tistory.com/271

11. Optimization - local optima / plateau / zigzag현상의 등장

지난시간까지는 weight 초기화하는 방법에 대해 배웠다. activation func에 따라 다른 weight초기화 방법을 썼었다. 그렇게 하면 Layer를 더 쌓더라도 activation value(output)의 평균과 표준편차가 일정하게 유

nittaku.tistory.com

'workSpace > PYTHON' 카테고리의 다른 글

[DL] Basic analysis of using SGD Optimizer with code. (2) (0)	2021.01.28
[DL] Basic analysis of using SGD Optimizer with code. (1) (0)	2021.01.28
[DL] Linear Classification, Forward propagation, Full loss Function (0)	2021.01.27
[DL] Knowledge and Algorithm Overview (0)	2021.01.27
[ML] Collaborative Filtering (추천 협업 시스템) (0)	2021.01.26

Random Search

Random Local Search

Random Local Search vs Gradient Descent

활성함수 Activation Function

'workSpace > PYTHON' 카테고리의 다른 글

티스토리툴바