인공신경망(비교)
r14 vs r15 | ||
---|---|---|
... | ... | |
16 | 16 | >[math(y = \displaystyle\sum_{k=1}^{n}{w_k x_k}+b)] |
17 | 17 | 만일 출력의 형태 역시 다차원 벡터라면 가중치는 행렬이 되고 식은 다음과 같은 행렬 연산으로 확장된다. |
18 | 18 | >[math(\mathbf{y} = \mathbf{W} \mathbf{x} + \mathbf{b})] |
19 | * 활성화 함수: 인공신경망은 다양한 기능을 수행하기 위해 퍼셉트론들을 차곡차곡 쌓아올리고 학습을 하는데 단순하기 쌓아올리면 치명적인 문제가 발생한다. 선형 계산을 수행하는 퍼셉트론은 아무리 쌓아올려봤자 단층 퍼셉트론과 다를바 없는 결과를 만들어낸다. 간단히 설명하자면, 첫번째 레이어에서 [math(y = ax + b)]라는 계산을 수행하고 다음층에서 [math(y = cx + d)]라는 계산을 수행한다면 그 결과는 [math(y = acx + bc + d)]가 되므로 단층 퍼셉트론과 다를바 없어진다. 때문에 활성화 함수는 이러한 퍼셉트론간의 선형성을 분리하는 역할을 하게 된다. |
|
20 | * sigmoid |
|
21 | * tanh |
|
22 | * ReLU |
|
23 | * Swish |
|
19 | * 활성화 함수: 인공신경망은 다양한 기능을 수행하기 위해 퍼셉트론들을 차곡차곡 쌓아올리고 학습을 하는데 단순하기 쌓아올리면 치명적인 문제가 발생한다. 선형 계산을 수행하는 퍼셉트론은 아무리 쌓아올려봤자 단층 퍼셉트론과 다를바 없는 결과를 만들어낸다. 간단히 설명하자면, 첫번째 레이어에서 [math(y = ax + b)]라는 계산을 수행하고 다음층에서 [math(y = cx + d)]라는 계산을 수행한다면 그 결과는 [math(y = acx + bc + d)]가 되므로 단층 퍼셉트론과 다를바 없어진다. 때문에 활성화 함수는 이러한 퍼셉트론간의 선형성을 분리하는 역할을 하게 된다. 아래의 친구들은 대표적인 활성화 함수들이다. |
|
20 | * sigmoid[br][math(f(x) = \frac{1}{1 + e^{-x}})] |
|
21 | * tanh[br][math(f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}})] |
|
22 | * ReLU[br][math(f(x) = \max(0, x))] |
|
23 | * Swish[br][math(f(x) = \frac{x}{1 + e^{-x}})] |
|
24 | 24 | |
25 | 25 | == 학습 == |
26 | 26 | 이렇게 만들어진 인공신경망 시스템은 기계학습의 방법 아래에서 데이터에 의해 학습된다. |
... | ... |