떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
=== 디코더(Decoder) === 디코더 역시 동일한 구조의 N개(논문에서는 N=6)의 레이어를 쌓아서 구성된다. 각 디코더 레이어는 인코더 레이어의 두 서브 레이어 외에 추가적으로 세 번째 서브 레이어를 가진다. 1. '''마스크드 멀티-헤드 셀프-어텐션 (Masked Multi-Head Self-Attention)''': 디코더의 입력(타겟 시퀀스)에 대해 셀프-어텐션을 수행한다. 여기서 중요한 점은 '''마스킹'''(Masking)이 적용된다는 것이다. 디코더는 출력을 순차적으로 생성해야 하므로, 특정 위치의 단어를 예측할 때 그 뒤에 오는 단어들의 정보(미래 정보)를 참고해서는 안 된다. 이를 위해 어텐션 스코어 계산 시 미래 위치에 해당하는 값들을 아주 작은 값(음의 무한대에 가까운 값)으로 마스킹하여 소프트맥스 함수를 통과한 후 해당 가중치가 0이 되도록 만든다. 1. '''멀티-헤드 인코더-디코더 어텐션 (Multi-Head Encoder-Decoder Attention)''': 이 서브 레이어는 디코더가 인코더의 출력 정보를 활용하는 부분이다. '''쿼리'''는 이전 디코더 서브 레이어(마스크드 셀프-어텐션)의 출력에서 오고, '''키'''와 '''밸류'''는 인코더 스택의 최종 출력에서 온다. 이를 통해 디코더는 현재 예측하려는 단어와 입력 시퀀스의 어떤 부분들이 가장 관련 있는지 파악하여 그 정보를 활용한다. 1. '''포지션-와이즈 피드-포워드 신경망 (Position-wise Feed-Forward Network)''': 인코더와 동일한 구조와 역할을 수행한다. 디코더의 각 서브 레이어에도 마찬가지로 잔차 연결과 계층 정규화가 적용된다 ([math(LayerNorm(x + Sublayer(x)))]). 디코더의 입력은 타겟 시퀀스(보통 학습 시에는 정답 시퀀스, 추론 시에는 이전에 생성된 시퀀스)를 '''출력 임베딩'''(Output Embedding)하고 '''포지셔널 인코딩'''을 더한 것이다. 일반적으로 타겟 시퀀스는 오른쪽으로 한 칸씩 밀린(shifted right) 형태로 입력된다. 디코더 스택의 최종 출력은 마지막으로 선형 변환(Linear Transformation)을 거치고 소프트맥스 함수(Softmax Function)를 통과하여 다음 단어에 대한 확률 분포를 생성한다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]