강화학습_(비교)

 r5 vs r6
 ...
  * SARSA
  * DQN
 === 정책 경사 알고리즘 ===
-근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning Human Feedback.]기법을 이용한 것으로 유명하다.
+근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning from Human Feedback.]기법을 이용한 것으로 유명하다.
  * REINFORCE
  * A2C
  * TRPO
 ...

강화학습(비교)