떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
== 구조 == [[파일:transformer_ANN_model_structure.png|width=70%&align=center]] 트랜스포머의 구조는 크게 위치 인코딩(positional encoding), 멀티헤드 어텐션(Muti-Head Attention), [[FFN]](순방향 신경망)으로 이루어져 있다. 위치 인코딩은 위치 정보를 구분해줄 벡터를 생성하고 이를 임베딩 벡터에 더해주며, 멀티헤드 어텐션은 토큰과의 연관성을 여러 헤드에서 각각 도출하고, 그 결과를 피드 포워드 네트워크 FFN에서 멀티 헤드 어텐션 결과들을 토큰 단위로 point-wise로 종합하여 결과를 다음 트랜스포머 레이어로 출력하는 구조를 갖는다. 학습을 진행하게 되면 FFN (feed-forward network) 뿐만 아니라 attention 연산 직전에 입력 임베딩을 Query, Key, Value로 변환 해주기 위해 weight를 곱해주게 되는데 해당 weight가 학습된다. Encoder only구조인 [[BERT]], Decoder only구조인 [[GPT]]가 워낙 유명하다 보니 간과하기 쉽지만 [[Attention Is All You Need|최초로 제안된 트랜스포머]]는 기본적으로 인코더-디코더 구조를 따른다. 아래에서는 이 인코더-디코더 아키텍처를 기준으로 트랜스포머의 구조를 서술한다. 인코더는 입력 시퀀스를 받아 일련의 연속적인 표현(contextualized embeddings)으로 변환하고 디코더는 이 표현과 이전에 생성된 출력 시퀀스를 활용해 다음 출력 토큰을 예측한다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]