접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지
강화학습(비교)
r3 vs r4 | ||
---|---|---|
... | ... | |
33 | 33 | 강화학습의 알고리즘은 가치 함수를 최적화 하는가? 아니면 정책 함수를 최적화하는가? 라는 기준에 따른 대분류를 가진다. |
34 | 34 | |
35 | 35 | === 가치 기반 알고리즘 === |
36 | ||
36 | 소위 가치함수라고 불리는 Q함수, 행동 가치 함수를 최적화하는 알고리즘. 정책함수를 필요로 하는 on-policy 기법과 정책함수 없이 Q함수만 이용하는 전략인 off-poilcy 기법으로 나뉜다. |
|
37 | * Q-learning |
|
38 | * SARSA |
|
39 | * DQN |
|
37 | 40 | === 정책 경사 알고리즘 === |