본문 바로가기

What Get's You Here, Won't Get You There

CS/AI2

Q-learning(Reinforcement learning) 2 Q-learning (Reinforcement Learning) 1 에서 현실세계, 확률적으로 행동하는 적이 있는 게임 환경 등에서 T(s,a,s')와 R(s,a,s')을 알지 못해도 V(s)와 Q(s,a)를 학습할 수 있는 방법이 Q-learning이며, Q-learning은 실제 환경, 게임에 들어가서 직접 행동을 취함으로써(불구덩이에 몸을 던짐으로써) Q(s,a)와 V(s)를 학습하는 'Online learning'이라고 설명했다. 이 학습 방법을 활용하면 항상 최적의 행동 a를 취하지 않고도(초기에는 최적의 행동이 무엇인지 조차 모름) 심지어는 확률적으로 행동을 취해도 model과 sample간의 차이를 기존 모델에 반영함으로써 최적의 Q(s,a)와 V(s)를 얻을 수 있다고도 했다. 하지만 환경.. 2022. 6. 18.

Q-learning (Reinforcement Learning) 1 Q-learning은 모델 없이 학습하는 강화학습 기법 중 하나이다. 배경지식 Agent는 상태 s ∈ S 에서 행동 a ∈ A 를 취할 수 있고, 한 agent가 상태 s에서 행동 a를 취했을 때 s' 으로 이동할 확률은 T(s, a, s'), 얻을 수 있는 보상은 R(s, a, s') 이다. V(s)는 상태 s의 value이고, Q(s, a)는 상태 s에서 행동 a를 취했을 때 얻을 수 있는 V(s')에 할인율을 적용한 결과이며, 해당 행동을 취했을 때 어떤 V(s')값을 얻을 수 있는지에 대한 quality를 나타낸다. 그리고 더 빠른 시일에 획득하는 보상이 선호되기에 할인율 𝜸가 적용된다. 만약 agent가 처한 환경의 모든 것을 알고 있고, T(s, a, s')와 R(s, a, s')을 알고 있.. 2022. 6. 18.

이전 1 다음

티스토리툴바