접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지

강화학습(비교)

r4 vs r5
... ...
37 37
* Q-learning
38 38
* SARSA
39 39
* DQN
40 40
=== 정책 경사 알고리즘 ===
41
근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning Human Feedback.]기법을 이용한 것으로 유명하다.
42
* REINFORCE
43
* A2C
44
* TRPO
45
* PPO