접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지
강화학습(비교)
r5 vs r6 | ||
---|---|---|
... | ... | |
38 | 38 | * SARSA |
39 | 39 | * DQN |
40 | 40 | === 정책 경사 알고리즘 === |
41 | 근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning Human Feedback.]기법을 이용한 것으로 유명하다. |
|
41 | 근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning from Human Feedback.]기법을 이용한 것으로 유명하다. |
|
42 | 42 | * REINFORCE |
43 | 43 | * A2C |
44 | 44 | * TRPO |
... | ... |