떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
=== 멀티-헤드 어텐션(Multi-Head Attention) === 트랜스포머는 단일 어텐션 함수를 사용하는 대신, '''멀티-헤드 어텐션''' 방식을 사용한다. 이는 어텐션을 여러 개의 '헤드'로 나누어 병렬적으로 수행한 후, 그 결과들을 결합하는 방식이다. 1. 쿼리, 키, 밸류 벡터를 각각 [math(h)]개의 서로 다른 선형 변환(가중치 행렬 [math(W^Q_i, W^K_i, W^V_i)])을 통해 서로 다른 부분 공간(subspace)으로 투영(project)한다. 즉, [math(h)]개의 [math(Q_i, K_i, V_i)] 세트를 만든다. 1. 각 헤드마다 독립적으로 스케일드 닷-프로덕트 어텐션을 수행한다: [math(head_i = Attention(Q_i, K_i, V_i))]. 1. 각 헤드에서 나온 어텐션 결과 [math(head_1, ..., head_h)]를 모두 이어 붙인다(concatenate). 1. 이어 붙인 결과에 다시 한번 선형 변환(가중치 행렬 [math(W^O)])을 적용하여 최종적인 멀티-헤드 어텐션 출력을 얻는다. {{{#!wiki style="text-align: center" [br][math(MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O)] [math(where \ head_i = Attention(QW^Q_i, KW^K_i, VW^V_i))] }}} 멀티-헤드 어텐션은 모델이 입력 시퀀스의 서로 다른 위치에 있는 정보들끼리 서로의 '''다양한 측면'''[* 문법적 관계, 의미적 유사성 등이 대표적이지만 사람이나 심지어 전문가조차 쉽게 포착할 수 없는 상호연관성도 포함될 수 있다.] 을 동시에 학습하고 고려할 수 있게 해준다. 어떤 헤드는 주어-동사 관계에 집중하고, 다른 헤드는 수식 관계에 집중하는 식이다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]