접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지

강화학습(비교)

r2 vs r3
... ...
6 6
7 7
강화학습은 동물의 학습 능력을 모방한 것으로, 특정 상태(state)에서 어떤 행동(action)을 취하는 것이 최적인지를 학습하는 것이다.
8 8
== 원리 ==
9
[[파일:RL_main.png|bgcolor=#FFFFFF]]
9
[[파일:나무위키강화학습사진.webp|bgcolor=#FFFFFF]]
10 10
11 11
강화학습의 주요한 기원 중 하나는 MDP(Markov Decision Process)가 있다. MDP는 1960년대 제안된 방법으로, 확률적 의사결정 문제를 수학적으로 정의하기 위한 프레임워크로 이해할 수 있다. 어떤 상태 S에서 행동 A를 취하면 보상 R을 받는 구조를 통해 심리학의 보상 기반 학습 개념을 수학적으로 모델링하였다.
12 12
... ...