강화학습_(비교)

 r3 vs r4
 ...
 강화학습의 알고리즘은 가치 함수를 최적화 하는가? 아니면 정책 함수를 최적화하는가? 라는 기준에 따른 대분류를 가진다.
 === 가치 기반 알고리즘 ===
+소위 가치함수라고 불리는 Q함수, 행동 가치 함수를 최적화하는 알고리즘. 정책함수를 필요로 하는 on-policy 기법과 정책함수 없이 Q함수만 이용하는 전략인 off-poilcy 기법으로 나뉜다.
+ * Q-learning
+ * SARSA
+ * DQN
 === 정책 경사 알고리즘 ===

강화학습(비교)