떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
개인정보 처리방침 개정 안내
트랜스포머(인공신경망)
(r1 문단 편집)
닫기
RAW 편집
미리보기
== 한계 == 트랜스포머는 입력 시퀀스의 길이가 길어질수록 계산량과 메모리 사용량이 급격히 증가하는 문제를 가지고 있다. 핵심 메커니즘인 셀프-어텐션이 시퀀스 길이 [math(n)]에 대해 [math(O(n^2 \cdot d))]의 계산 복잡도를 가지기 때문인데 [* 여기서 [math(d)]는 임베딩 차원이다.] 이를 해결하기 위해 Longformer, Reformer, Linformer 등 희소(sparse) 어텐션이나 효율적인 어텐션 메커니즘 연구가 활발히 진행되고 있다. 다행히 동일 성능 대비 요구 연산량이 상당한 속도로 줄어들고 있지만 모델들의 덩치가 너무 커진데다 상업 모델들의 성공으로 날로 늘어가는 연산량 수요를 무마하기엔 역부족인 상태다. 해석의 어려움도 문제다. 어텐션 가중치를 통해 모델이 어떤 부분에 집중하는지 시각화하는 것은 가능하지만 현재는 인공지능 연구자들조차 트랜스포머 모델의 결정 과정을 완전히 설명하지는 못한다. 물론 이는 다른 [[인공 신경망]]에도 똑같이 해당하는 얘기기는 하다. 다만 트랜스포머의 경우 그 규모와 복잡함, 특유의 어텐션 메커니즘 때문에 연구가 더더욱 난해해진다는 것. 모델 내부의 복잡한 상호작용을 이해하기 어렵다는 것은 큰 약점인데, 아키텍처 혁신이 가져온 성능 향상에 비례하여 인공 신경망 모델들의 사회적 영향력도 같이 커지고 있기 때문이다. 과거에는 기능 향상에만 집중하여 간과되기 일쑤였으나 최근 들어 [[LLM]]의 정렬 문제가 실질적인 화두로 떠오르기 시작하면서 설명 가능한 인공지능(XAI) 연구는 더는 무시할 수 없는 분야가 되었다. 업계에서는 [[Anthropic]]이 관련 연구로 꾸준히 성과를 내고 있으며 유수의 대학과 연구기관에서도 트랜스포머라는 블랙박스를 글래스박스로 만드는 기술 개발에 인력과 자원을 쏟고 있다. 또 트랜스포머는 강력한 성능을 발휘하기 위해서 대규모 데이터셋에서의 사전 학습(pre-training)이 거의 필수적이다. 빅테크 기업들이 만든 LLM 프론티어 모델들은 매개변수는 있는대로 늘리고 데이터는 거의 전 [[인터넷]]을 박박 긁어다 쓰는 수준이라 데이터 부족 문제와 더불어 단순한 매개변수 증가로 인한 성능 향상이 점차 포화 상태에 도달하고 있다는 우려가 제기되고 있다. 이러한 한계를 극복하기 위해 최근엔 추론(Reasoning) 능력을 강조한 추론 모델이 등장하고 있다. 추론 모델은 단순히 데이터 크기나 매개변수를 늘리는 것에서 벗어나, 복잡한 추론 작업을 처리할 수 있도록 설계되었다. 대표적으로 [[o1]]및 [[o3]]는 단순히 매개변수를 확장하는 대신 복잡한 추론 능력을 향상시키는 방향으로 발전했으며, 이 같은 추론 중심 접근이 차세대 트랜스포머 모델 개발의 주요 방향으로 떠오르고 있다.
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]