떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
== 등장배경 == 트랜스포머 이전의 시퀀스-투-시퀀스(Sequence-to-Sequence) 모델들은 주로 [[RNN]]이나 [[순환 신경망#s-3.5|LSTM]], [[순환 신경망#s-3.6|GRU]]와 같은 순환 신경망 구조에 기반했다. 시퀀스 데이터를 순차적으로 처리하는 이런 [[RNN]] 기반 모델들은 몇 가지 무시할 수 없는 한계를 가지고 있었다. 대표적으로 '''장거리 의존성 문제'''를 들 수 있는데, 장거리 의존성 문제란 시퀀스의 길이가 길어질수록 초반부의 중요 정보가 후반부까지 제대로 전달되지 못하고 소실되거나 변질되기 쉬운 현상을 의미한다. [[LSTM]]이나 [[순환 신경망#s-3.6|GRU]]와 같은 개선된 구조들이 등장하여 이 문제를 상당히 완화했지만, 아주 긴 시퀀스를 다루는 데에는 여전히 뚜렷한 한계가 있었다. 또 다른 난점은 [[RNN]] 모델들이 본질적으로 순차적인 계산 방식을 따른다는데 있었다. 각 시점(단어)의 계산이 이전 시점의 계산이 완료되어야 시작될 수 있다는 '''병렬 처리의 어려움'''이 바로 그것이다. 병렬 처리가 어렵다보니 [[GPU]]와 같은 병렬 연산 장치의 효율성을 충분히 활용하기 어려웠고 모델 학습 속도를 저해하는 요인이 되었다. 마지막으로 언급할 필요가 있는 것은 '''고정된 크기의 문맥 벡터'''가 가진 한계이다. 초기 인코더-디코더 구조에서는 인코더가 입력 시퀀스 전체의 정보를 고정된 크기를 가진 문맥 벡터 하나로 압축해 디코더에 전달하는 방식이 주로 사용되었는데 이 과정에서 필연적으로 정보 병목 현상과 손실이 발생할 가능성이 있었다. 이 것을 해결하기 위해 도입된 것이 바로 '''어텐션 메커니즘(attention mechanism)'''. [* 어떤 사람들은 어텐션 메커니즘이 트랜스포머 아키텍처와 동시에 제안된 것으로 착각하기도 하지만 사실 어텐션 메커니즘의 [[Attention Is All You Need]]의 투고보다 빨랐다.] 어텐션 메커니즘은 제안 초반에는 디코더가 필요한 입력 부분에 집중할 수 있게 함으로써 [[RNN]]의 고정된 문맥이 야기하는 문제를 해소하는데 주로 동원됐다. 이런 방식은 효과는 있었지만 근본적으로 [[RNN]] 기반 구조가 지닌 순차적 처리 방식의 한계는 여전히 남아 있었다. 트랜스포머는 이런 문제들을 해결하기 위해 순환 구조를 완전히 배제하고 대신 후술할 '''셀프-어텐션'''(Self-Attention) 메커니즘을 핵심 요소로 사용하여 시퀀스 내의 모든 단어 쌍 간의 관계를 직접적으로 모델링하고 병렬 처리 효율을 극대화했다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]