비지도학습

[ 펼치기 · 접기 ]

기반 학문	수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학
하드웨어 구성	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술	기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 에이전트 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · LinuxBoot · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구 및 기타	논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템) · 난수생성 · 이차 표기법 · 놀람 최소화 원칙 · 프레임워크 · 라이브러리 · 모듈 · API · ABI · 이진 탐색

1. 개요2. 적용

2.1. 군집화(Clustering)2.2. 분포 추정(Underlying Probability Density Estimation)2.3. 차원 축소(Dimensionality Reduction)

3. 자기지도학습(self-supervised learning)

3.1. 학습

3.1.1. 자기 예측(Self-Prediction)3.1.2. 대조학습(Contrastive Learning)

3.2. 적용

1. 개요 [편집]

지도학습과 달리 사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것. 즉 y 없이 x만 이용해서 학습하는 것이다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있기도 하다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있다.

2. 적용 [편집]

2.1. 군집화(Clustering) [편집]

데이터가 쭉 뿌려져 있을 때 레이블이 없다고 해도 데이터 간 거리에 따라 데이터를 몇 개의 군집으로 나눌 수 있다. 이렇게 x만 가지고 군집을 학습하는 것이 군집화이다.

2.2. 분포 추정(Underlying Probability Density Estimation) [편집]

군집화에서 더 나아가서, 데이터들이 쭉 뿌려져 있을 때 얘네들이 어떤 확률 분포에서 나온 샘플들인지 추정하는 문제이다.

2.3. 차원 축소(Dimensionality Reduction) [편집]

차원 축소는 비지도학습의 핵심적인 적용 사례로 고차원 데이터를 보다 낮은 차원으로 변환하여 데이터의 핵심 구조를 유지하면서 분석을 용이하게 만드는 방법이다. ’차원의 저주(Curse of Dimensionality)’를 극복하기 위한 것으로, 데이터의 노이즈를 줄이며 계산 효율성을 높이는 효과를 얻을 수 있다.
PCA(Principal Component Analysis), SVD(Singular Value Decomposition), NMF(Non-negative Matrix Factorization), t-SNE(t-Distributed Stochastic Neighbor Embedding) 등의 기법이 있다.

3. 자기지도학습(self-supervised learning) [편집]

생성형 인공지능
관련 문서

[ 펼치기 · 접기 ]

종류	대화형 인공지능(주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음향 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트	프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹
아키텍처	트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습	자기지도학습 · 강화학습(RLHF)
응용	인공지능 검색 엔진 · 바이브 코딩 · 인공지능 로봇(테슬라 옵티머스) · AI 신약개발
밈/유행	쇼거스 · AI 커버 · 창팝 · ChatGPT 지브리풍 이미지 생성 유행 · Italian Brainrot
기타	AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 벤치마크 · MCP · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor

최근에는 사람이 직접 레이블링하는 대신 컴퓨터가 임의로 직접 레이블을 지정해 학습할 수 있는 문제[1]는 자기지도학습(self-supervised learning)이라는 용어로 따로 분류하고 있다.

3.1. 학습 [편집]

자기지도학습의 태스크는 크게 두 가지로 나뉘는데 하나가
Pretext Task, 다른 하나가 Downstream Task이다.

Pretext Task는 시각적 또는 언어적 표현(representation)을 자기지도학습시키기 위해 설계된 보조적인 작업이다. 사람으로 치면 교과서 문제 풀이 같은 것이라, Pretext Task 자체는 학습의 최종 목표라고 할 수는 없다. Pretext Task로 학습을 진행하고 학습된 표현을 전이(transfer)해 성능을 향상시킨 후 진짜로 다루게 되는 것이 downstream task이다. 따라서 자기지도학습의 궁극적인 목적은 downstream task라고 할 수 있다.

3.1.1. 자기 예측(Self-Prediction) [편집]

Self-Prediction은 데이터 샘플 내의 일부 정보를 기반으로 나머지를 예측하는 방식이다. 문장에서 특정 단어를 마스킹하고 이를 예측하거나 이미지의 일부를 가리고 복원하는 등의 방식이 있다.

자기회귀생성(Autoregressive Generation): 이전 정보를 기반으로 다음 정보를 순차적으로 예측하면서 학습하는 방식. 대표적으로 GPT가 이에 해당한다. GPT는 텍스트를 읽고 바로 다음에 올 단어를 예측하는데, 인터넷에서 수집한 대량의 텍스트로 훈련했더니 특별한 지도학습 없이도 대부분의 일을 수행하고 약간의 지도학습을 곁들이면 모든 분야에서 모든 기존 방식을 앞질렀다. 특히 일반 상식을 묻는 시험에서는 아무런 지도 학습 없이도 다른 기존 방식을 큰 폭으로 제치고 1위를 달성했다.
Masked Generation: 데이터의 일부를 마스킹하고 이를 복원하면서 학습하는 방식. BERT가 대표적인 예이다.
Innate Relationship Prediction: 데이터 내의 내재된 관계를 예측하며 학습하는 방식
Hybrid Self-Prediction: 여러 예측 방식을 결합하여 사용하는 반식

3.1.2. 대조학습(Contrastive Learning) [편집]

데이터 샘플 간의 유사성과 차이를 학습하여, 유사한 샘플은 가깝게, 다른 샘플은 멀게 표현하는 방법. 레이블이 없는 데이터에서도 효과적으로 표현을 학습할 수 있다.

Siamese Networks: 두 개의 입력을 비교하여 유사성을 학습하는 방법
SimCLR: 데이터 증강을 통해 생성된 쌍을 사용하여 표현을 학습 하는 방법
MoCo: 동적인 메모리 뱅크를 활용하여 표현을 학습 하는 방법
BYOL, SimSiam: Negative 샘플 없이도 표현을 학습하는 방법

3.2. 적용 [편집]

Downstream Task는 사전 학습된(pre-trained) 모델을 활용해 최종적으로 해결하고자 하는 특정한 과업을 의미한다. 즉, 대규모 데이터셋으로 일반적인 특징(feature)을 학습한 모델을 가져와 우리가 실제로 풀고 싶은 과제에 적용하는 것이다.

지금 유통되는 절대 다수의 생성형 인공지능은 이 자기지도학습 메커니즘으로 학습되었으며 생성 외에도 분류, 객체 탐지 등 다양한 downstream task에 적용가능하다.

이 문서의 내용 중 전체 또는 일부는

기계학습

문서의 r555 판에서 가져왔습니다. 이전 역사 보러 가기

[1] 예를 들어 이미지에 생긴 노이즈를 제거하는(denoising) 문제. 이 경우 데이터로 이미지만 잔뜩 주어지면 노이즈 낀 이미지는 그냥 원본 데이터셋에 노이즈를 뿌리는 것으로 만들 수 있고 이 경우 노이즈를 만든 이미지가 입력, 원본 이미지가 레이블이 된다. 즉 레이블이 주어지지 않은 데이터를 사용한 비지도 학습이지만 실제 학습은 직접 주어진 레이블을 사용하는 지도 학습으로 이루어진다. 해당 학습법의 대표적인 예시로 이미지의 전반적 특징(feature)을 추출하기 위해 이미지를 저차원인 특징 벡터로 인코딩시키고 그 특징 벡터를 디코딩하여 원본 이미지와 같은 이미지를 출력하게 만드는 오토인코더(autoencoder)가 있다.

이 문서의 내용 중 전체 또는 일부는

비지도학습

문서의 r18 판에서 가져왔습니다. 이전 역사 보러 가기