떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
서버 점검 공지
|
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
=== 스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention) === 트랜스포머에서 사용되는 기본적인 어텐션 메커니즘이다. 이는 '''쿼리'''(Query), '''키'''(Key), '''밸류'''(Value)라는 세 가지 벡터를 기반으로 작동한다. 어떤 특정 쿼리에 대해 모든 키와의 유사도(Attention Score)를 계산하고, 이 유사도를 가중치로 사용하여 밸류 벡터들의 가중합을 구하는 방식이다. 입력으로 쿼리 행렬 [math(Q)], 키 행렬 [math(K)], 밸류 행렬 [math(V)]가 주어졌을 때, 어텐션 결과는 다음과 같이 계산된다. [math(Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V)] * [math(Q)]: 현재 계산하려는 대상(예: 특정 단어)을 나타내는 벡터. * [math(K)]: 시퀀스 내의 모든 요소(예: 모든 단어)의 특징을 나타내는 벡터. 쿼리와의 유사도를 계산하는 데 사용된다. * [math(V)]: 시퀀스 내의 모든 요소의 실제 정보 값을 담고 있는 벡터. 최종 출력은 이 밸류 벡터들의 가중합으로 결정된다. * [math(QK^T)]: 쿼리와 각 키 벡터 간의 내적(Dot-Product)을 통해 유사도를 계산한다. * [math(\sqrt{d_k})]: 스케일링 인자. 키 벡터의 차원 [math(d_k)]의 제곱근으로 나누어줌으로써 내적 값이 너무 커지는 것을 방지하고 그래디언트 소실 문제를 완화한다. 논문에서는 이것이 중요하다고 언급한다. * [math(softmax)]: 계산된 유사도 점수들을 확률 분포(총합이 1)로 변환하여 각 밸류 벡터에 대한 가중치를 얻는다. * 최종 결과는 이 가중치와 밸류 벡터 [math(V)]를 곱하여 가중합을 구한 것이다. 이는 쿼리와 관련된 중요한 정보들이 강조된 벡터 표현이 된다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]