접속자 폭증으로 서버 상태가 원활하지 않습니다 | 소유권 이전과 관련한 공지
강화학습(r1)
해당 리비전 수정 시각:
[주의!] 문서의 이전 버전(에 수정)을 보고 있습니다. 최신 버전으로 이동
분류
1. 개요[편집]
2. 원리[편집]
파일:RL_main.png
강화학습의 주요한 기원 중 하나는 MDP(Markov Decision Process)가 있다. MDP는 1960년대 제안된 방법으로, 확률적 의사결정 문제를 수학적으로 정의하기 위한 프레임워크로 이해할 수 있다. 어떤 상태 S에서 행동 A를 취하면 보상 R을 받는 구조를 통해 심리학의 보상 기반 학습 개념을 수학적으로 모델링하였다.
강화학습의 또 다른 기원으로는 벨만 방정식이 있다. 1950년대, 동적 프로그래밍을 비롯한 제어이론을 연구하던 미국의 응용수학자 리처드 E. 벨만은 제어 문제를 재귀적인 형태[1]로 정의하였으며, 이를 벨만 방정식이라고 불렀다. 당시에는 연료, 에너지, 시간 등 다양한 요소로 정의된 비용을 최소화하는 방식으로 문제를 해결하였다. 이러한 비용 최소화 문제를 보상 최대화 문제로 등가 변환하는 관점을 채택하는데 이것이 강화학습으로 연결된다.
이 두 이론이 결합된 것이 바로 강화학습의 이론적 기초가 된다. 즉, 보상 기반의 확률적 의사결정 문제를 벨만 방정식을 이용하여 재귀적으로 해석하는 것이 강화학습 이론의 수학적 핵심이라 할 수 있다.
강화학습을 구성하는 주요한 구성요소는 다음과 같다.
강화학습의 주요한 기원 중 하나는 MDP(Markov Decision Process)가 있다. MDP는 1960년대 제안된 방법으로, 확률적 의사결정 문제를 수학적으로 정의하기 위한 프레임워크로 이해할 수 있다. 어떤 상태 S에서 행동 A를 취하면 보상 R을 받는 구조를 통해 심리학의 보상 기반 학습 개념을 수학적으로 모델링하였다.
강화학습의 또 다른 기원으로는 벨만 방정식이 있다. 1950년대, 동적 프로그래밍을 비롯한 제어이론을 연구하던 미국의 응용수학자 리처드 E. 벨만은 제어 문제를 재귀적인 형태[1]로 정의하였으며, 이를 벨만 방정식이라고 불렀다. 당시에는 연료, 에너지, 시간 등 다양한 요소로 정의된 비용을 최소화하는 방식으로 문제를 해결하였다. 이러한 비용 최소화 문제를 보상 최대화 문제로 등가 변환하는 관점을 채택하는데 이것이 강화학습으로 연결된다.
이 두 이론이 결합된 것이 바로 강화학습의 이론적 기초가 된다. 즉, 보상 기반의 확률적 의사결정 문제를 벨만 방정식을 이용하여 재귀적으로 해석하는 것이 강화학습 이론의 수학적 핵심이라 할 수 있다.
강화학습을 구성하는 주요한 구성요소는 다음과 같다.
- 에이전트(Agent): 강화학습 문제 상황에서 학습 혹은 행동의 주체가 되는 시스템을 말한다. 다음과 같은 하위 구성요소를 지닌다.
- 상태(State, ): 에이전트가 환경을 관찰한 결과
- 행동(Action, ): 환경을 관찰한 에이전트의 선택
- 정책(Policy, ): 상태에 따른 행동을 선택하는 전략
- 가치 함수(Value function): 정책하에서 미래 보상의 기댓값
- 상태 가치 함수(State Value Function, ): 어떤 정책 를 따를 때, 상태 가 가지는 미래 보상의 기댓값.
- 행동 가치 함수(Action Value Function, ): 어떤 정책 를 따를 때, 상태 에서 행동 를 선택할때 가지는 미래 보상의 기댓값
- 환경(environments): 에이전트가 상호작용하는 외부 세계를 의미하며, 다음과 같은 구성요소로 정의된다.
- 상태공간(State Space, ): 환경이 정의하는, Agent가 가질 수 있는 모든 상태의 집합
- 행동공간(Action Space, ): 환경이 정의하는, Agent가 선택할 수 있는 모든 행동의 집합
- 상태 전이 함수(State Transition Function, ): 에이전트가 상태 에서 행동 를 선택할 때, 다음 상태를 정의하는 함수
- 보상 함수(Reward Function, ): 에이전트가 상태 에서 행동 를 선택할 때, 그 결과로 제공될 보상을 정의하는 함수
- 보상(Reward, ): 보상함수의 결과값
3. 알고리즘[편집]
강화학습의 알고리즘은 가치 함수를 최적화 하는가? 아니면 정책 함수를 최적화하는가? 라는 기준에 따른 대분류를 가진다.
3.1. 가치 기반 알고리즘[편집]
3.2. 정책 경사 알고리즘[편집]
Contents are available under the CC BY-NC-SA 2.0 KR; There could be exceptions if specified or metioned.
개인정보 처리방침
개인정보 처리방침