떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
=== 인코더(Encoder) === 인코더는 동일한 구조의 N개([[Attention Is All You Need|논문]]에서는 N=6)의 레이어를 쌓아서 구성된다. 각 레이어는 두 개의 서브 레이어(sub-layer)로 이루어져 있다. 1. '''멀티-헤드 셀프-어텐션 (Multi-Head Self-Attention)''': 입력 시퀀스 내의 모든 단어 쌍 간의 관계를 파악한다. 여기서 쿼리, 키, 밸류는 모두 이전 레이어의 출력(또는 첫 레이어의 경우 입력 임베딩 + 포지셔널 인코딩)으로부터 나온다. 즉, 입력 시퀀스가 스스로에게 어텐션을 수행하여 각 단어의 문맥적 의미를 풍부하게 만든다. 1. '''포지션-와이즈 피드-포워드 신경망 (Position-wise Feed-Forward Network)''': 각 위치(position)마다 독립적으로 적용되는 완전 연결(fully connected) 피드-포워드 네트워크이다. 보통 두 개의 선형 변환과 그 사이에 ReLU 활성화 함수로 구성된다: [math(FFN(x) = max(0, xW_1 + b_1)W_2 + b_2)]. 이는 어텐션 서브 레이어에서 얻은 표현을 추가적으로 비선형 변환하여 모델의 표현력을 높인다. 각 서브 레이어의 출력에는 '''잔차 연결'''(Residual Connection)과 '''계층 정규화''' (Layer Normalization)가 순차적으로 적용된다. 즉, 각 서브 레이어의 최종 출력은 [math(LayerNorm(x + Sublayer(x)))] 형태가 된다. 여기서 [math(x)]는 서브 레이어의 입력이고, [math(Sublayer(x))]는 서브 레이어 함수(셀프-어텐션 또는 FFN)의 출력이다. 이는 깊은 네트워크에서의 그래디언트 소실/폭주 문제를 완화하고 학습을 안정화시키는 데 중요한 역할을 한다. 입력 시퀀스는 먼저 '''입력 임베딩'''(Input Embedding)을 통해 각 단어가 벡터로 변환되고, 여기에 '''포지셔널 인코딩'''(Positional Encoding) 값이 더해져서 첫 번째 인코더 레이어의 입력으로 사용된다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]