접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지
강화학습(비교)
r6 vs r7 | ||
---|---|---|
... | ... | |
6 | 6 | |
7 | 7 | 강화학습은 동물의 학습 능력을 모방한 것으로, 특정 상태(state)에서 어떤 행동(action)을 취하는 것이 최적인지를 학습하는 것이다. |
8 | 8 | == 원리 == |
9 | [[파일:나무위키강화학습사진.webp| |
|
9 | ||<tablewidth=600><tablealign=center><colbgcolor=#FFFFFF><nopad>[[파일:나무위키강화학습사진.webp|width=100%]]|| |
|
10 | 10 | |
11 | 11 | 강화학습의 주요한 기원 중 하나는 MDP(Markov Decision Process)가 있다. MDP는 1960년대 제안된 방법으로, 확률적 의사결정 문제를 수학적으로 정의하기 위한 프레임워크로 이해할 수 있다. 어떤 상태 S에서 행동 A를 취하면 보상 R을 받는 구조를 통해 심리학의 보상 기반 학습 개념을 수학적으로 모델링하였다. |
12 | 12 | |
... | ... |