강화학습_(비교)

 r6 vs r7
 ...
 강화학습은 동물의 학습 능력을 모방한 것으로, 특정 상태(state)에서 어떤 행동(action)을 취하는 것이 최적인지를 학습하는 것이다.
 == 원리 ==
-[[파일:나무위키강화학습사진.webp|bgcolor=#FFFFFF]]
+||<tablewidth=600><tablealign=center><colbgcolor=#FFFFFF><nopad>[[파일:나무위키강화학습사진.webp|width=100%]]||
 강화학습의 주요한 기원 중 하나는 MDP(Markov Decision Process)가 있다. MDP는 1960년대 제안된 방법으로, 확률적 의사결정 문제를 수학적으로 정의하기 위한 프레임워크로 이해할 수 있다. 어떤 상태 S에서 행동 A를 취하면 보상 R을 받는 구조를 통해 심리학의 보상 기반 학습 개념을 수학적으로 모델링하였다.
 ...

강화학습(비교)