접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지

강화학습(비교)

r3 vs r4
... ...
33 33
강화학습의 알고리즘은 가치 함수를 최적화 하는가? 아니면 정책 함수를 최적화하는가? 라는 기준에 따른 대분류를 가진다.
34 34
35 35
=== 가치 기반 알고리즘 ===
36
36
소위 가치함수라고 불리는 Q함수, 행동 가치 함수를 최적화하는 알고리즘. 정책함수를 필요로 하는 on-policy 기법과 정책함수 없이 Q함수만 이용하는 전략인 off-poilcy 기법으로 나뉜다.
37
* Q-learning
38
* SARSA
39
* DQN
37 40
=== 정책 경사 알고리즘 ===