접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지
강화학습(비교)
r4 vs r5 | ||
---|---|---|
... | ... | |
37 | 37 | * Q-learning |
38 | 38 | * SARSA |
39 | 39 | * DQN |
40 | 40 | === 정책 경사 알고리즘 === |
41 | 근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning Human Feedback.]기법을 이용한 것으로 유명하다. |
|
42 | * REINFORCE |
|
43 | * A2C |
|
44 | * TRPO |
|
45 | * PPO |