트랜스포머(인공신경망)_{(r1 문단 편집)}

== 등장배경 ==
트랜스포머 이전의 시퀀스-투-시퀀스(Sequence-to-Sequence) 모델들은 주로 [[RNN]]이나 [[순환 신경망#s-3.5|LSTM]], [[순환 신경망#s-3.6|GRU]]와 같은 순환 신경망 구조에 기반했다. 시퀀스 데이터를 순차적으로 처리하는 이런 [[RNN]] 기반 모델들은 몇 가지 무시할 수 없는 한계를 가지고 있었다.

대표적으로 '''장거리 의존성 문제'''를 들 수 있는데, 장거리 의존성 문제란 시퀀스의 길이가 길어질수록 초반부의 중요 정보가 후반부까지 제대로 전달되지 못하고 소실되거나 변질되기 쉬운 현상을 의미한다. [[LSTM]]이나 [[순환 신경망#s-3.6|GRU]]와 같은 개선된 구조들이 등장하여 이 문제를 상당히 완화했지만, 아주 긴 시퀀스를 다루는 데에는 여전히 뚜렷한 한계가 있었다.

또 다른 난점은 [[RNN]] 모델들이 본질적으로 순차적인 계산 방식을 따른다는데 있었다. 각 시점(단어)의 계산이 이전 시점의 계산이 완료되어야 시작될 수 있다는 '''병렬 처리의 어려움'''이 바로 그것이다. 병렬 처리가 어렵다보니 [[GPU]]와 같은 병렬 연산 장치의 효율성을 충분히 활용하기 어려웠고 모델 학습 속도를 저해하는 요인이 되었다.

마지막으로 언급할 필요가 있는 것은 '''고정된 크기의 문맥 벡터'''가 가진 한계이다. 초기 인코더-디코더 구조에서는 인코더가 입력 시퀀스 전체의 정보를 고정된 크기를 가진 문맥 벡터 하나로 압축해 디코더에 전달하는 방식이 주로 사용되었는데 이 과정에서 필연적으로 정보 병목 현상과 손실이 발생할 가능성이 있었다. 이 것을 해결하기 위해 도입된 것이 바로 '''어텐션 메커니즘(attention mechanism)'''. [* 어떤 사람들은 어텐션 메커니즘이 트랜스포머 아키텍처와 동시에 제안된 것으로 착각하기도 하지만 사실 어텐션 메커니즘의 [[Attention Is All You Need]]의 투고보다 빨랐다.]

어텐션 메커니즘은 제안 초반에는 디코더가 필요한 입력 부분에 집중할 수 있게 함으로써 [[RNN]]의 고정된 문맥이 야기하는 문제를 해소하는데 주로 동원됐다. 이런 방식은 효과는 있었지만 근본적으로 [[RNN]] 기반 구조가 지닌 순차적 처리 방식의 한계는 여전히 남아 있었다.

트랜스포머는 이런 문제들을 해결하기 위해 순환 구조를 완전히 배제하고 대신 후술할 '''셀프-어텐션'''(Self-Attention) 메커니즘을 핵심 요소로 사용하여 시퀀스 내의 모든 단어 쌍 간의 관계를 직접적으로 모델링하고 병렬 처리 효율을 극대화했다.

요약

문서 편집을 저장하면 당신은 기여한 내용을 CC BY-NC-SA 2.0 KR 또는 기타 라이선스 (문서에 명시된 경우) 로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이 동의는 철회할 수 없습니다.

비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.

트랜스포머(인공신경망)(r1 문단 편집)

트랜스포머(인공신경망)_{(r1 문단 편집)}