트랜스포머(인공신경망)_{(r1 문단 편집)}

=== 인코더(Encoder) ===
인코더는 동일한 구조의 N개([[Attention Is All You Need|논문]]에서는 N=6)의 레이어를 쌓아서 구성된다. 각 레이어는 두 개의 서브 레이어(sub-layer)로 이루어져 있다.

1. '''멀티-헤드 셀프-어텐션 (Multi-Head Self-Attention)''': 입력 시퀀스 내의 모든 단어 쌍 간의 관계를 파악한다. 여기서 쿼리, 키, 밸류는 모두 이전 레이어의 출력(또는 첫 레이어의 경우 입력 임베딩 + 포지셔널 인코딩)으로부터 나온다. 즉, 입력 시퀀스가 스스로에게 어텐션을 수행하여 각 단어의 문맥적 의미를 풍부하게 만든다.
 1. '''포지션-와이즈 피드-포워드 신경망 (Position-wise Feed-Forward Network)''': 각 위치(position)마다 독립적으로 적용되는 완전 연결(fully connected) 피드-포워드 네트워크이다. 보통 두 개의 선형 변환과 그 사이에 ReLU 활성화 함수로 구성된다: [math(FFN(x) = max(0, xW_1 + b_1)W_2 + b_2)]. 이는 어텐션 서브 레이어에서 얻은 표현을 추가적으로 비선형 변환하여 모델의 표현력을 높인다.

각 서브 레이어의 출력에는 '''잔차 연결'''(Residual Connection)과 '''계층 정규화''' (Layer Normalization)가 순차적으로 적용된다. 즉, 각 서브 레이어의 최종 출력은 [math(LayerNorm(x + Sublayer(x)))] 형태가 된다. 여기서 [math(x)]는 서브 레이어의 입력이고, [math(Sublayer(x))]는 서브 레이어 함수(셀프-어텐션 또는 FFN)의 출력이다. 이는 깊은 네트워크에서의 그래디언트 소실/폭주 문제를 완화하고 학습을 안정화시키는 데 중요한 역할을 한다.

입력 시퀀스는 먼저 '''입력 임베딩'''(Input Embedding)을 통해 각 단어가 벡터로 변환되고, 여기에 '''포지셔널 인코딩'''(Positional Encoding) 값이 더해져서 첫 번째 인코더 레이어의 입력으로 사용된다.

요약

문서 편집을 저장하면 당신은 기여한 내용을 CC BY-NC-SA 2.0 KR 또는 기타 라이선스 (문서에 명시된 경우) 로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이 동의는 철회할 수 없습니다.

비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.

트랜스포머(인공신경망)(r1 문단 편집)

트랜스포머(인공신경망)_{(r1 문단 편집)}