본문 바로가기

카테고리 없음

[cs285]lecture1

saeran 2022. 3. 17. 19:44

1. 강화학습이란?

지도학습으로 모델링할 수 없는 연속된 의사결정들을 모델링하고 평가하기 위한 알고리즘

1. agent는 주어진 environment에서 관찰한 1)observation에 따라 2)action(decisions)을 취하고, action에 따른 3)reward를 받게된다.
2. 다른 학습과의 차이점은 이전의 output이 다음 input에 영향을 준다는 것이다. (action → observation)
3. 행동의 순서와 시간을 포괄하여 학습. 현재의 reward를 최대화하는 것이 아니라, long-term cumulative rewards를 최대화하는 행동을 선택하는 방향으로 학습

2. why should we learn deep reinforcement learning?

advances in deep learning : ANN과 함꼐 사용하여 높은 퀄리티의 일반화가 가능하다. instructive training instances, hierarchical learning으로 학습시간을 줄여줌. non-markovian environment
advances in reinforcement learning
advances in computational capability

머신러닝과 달리 학습이 end-to-end 방식으로 진행된다.

기존의 머신러닝은 domain expert가 feature engineering을 진행하고 classification을 진행했다.
딥러닝은 image, text와 같은 raw data를 넣으면 feature까지 한번에 학습을 진행한다.
Application : q-learing, policy gradients, guided policy search, AlphaGo

3. What are the challenges?

올바른 reward를 설정하는 것이 어려움.
예를 들어, 치타가 영양을 잡는 상황이라면, 영양을 잡는 것은 굉장히 희귀한 경험이다. 영양을 잡는 것을 보상으로 한다면 학습이 매우 어려울 것이다. 영양을 아쉽게 놓치는 경우를 보상으로 한다면 ‘아쉽다'라는 것을 수학적으로 정의하고 reward를 설계하는 것이 어렵다. 또는 영양을 잡는 것이 아니라 아쉽게 놓치는 방향으로 학습될 수 있다.

해결방법 :
- imitation learning은 agent들의 행동을 그대로 따라하는 방법이다. 예를 들어, 자율주행에서는 이전의 운전자가 했던 행동을 그대로 따라하도록 학습된다.
- inverse reinforcement learning : 행동 뒤에 숨겨진 의미를 파악하여, 기존의 agent 행동이 보상을 최대화 하기 위한 행동이었다고 가정하고 함수를 역으로 추정하여 학습을 진행
- transfer learning은 이전에 비슷한 task에서 학습한 행동들을 전이 받는 것이다.
- meta learning은 다양한 task에 활용될 수 있게 보편적인 행동을 학습한다.
- model based learning은 prediction을 하고 prediction 기반으로 가장 좋은 행동을 취한다.

티스토리툴바