강화학습_(비교)

 r4 vs r5
 ...
  * Q-learning
  * SARSA
  * DQN
 === 정책 경사 알고리즘 ===
+근본적인 에이전트의 행동원리인 정책함수를 요구로하는 알고리즘. 현재 가장 대세적인 방법이며, 사전학습된 인공신경망을 정책함수로 가정하여 적절한 리워드를 통해 입맛에 맞게 가공하는 기법이 유행중이다. 이 분야의 대표주자는 [[ChatGPT]]로 PPO와 RLHF[* Reinforcement Learning Human Feedback.]기법을 이용한 것으로 유명하다.
+ * REINFORCE
+ * A2C
+ * TRPO
+ * PPO

강화학습(비교)