본문 바로가기

What Get's You Here, Won't Get You There

Q-learning1

Q-learning (Reinforcement Learning) 1 Q-learning은 모델 없이 학습하는 강화학습 기법 중 하나이다. 배경지식 Agent는 상태 s ∈ S 에서 행동 a ∈ A 를 취할 수 있고, 한 agent가 상태 s에서 행동 a를 취했을 때 s' 으로 이동할 확률은 T(s, a, s'), 얻을 수 있는 보상은 R(s, a, s') 이다. V(s)는 상태 s의 value이고, Q(s, a)는 상태 s에서 행동 a를 취했을 때 얻을 수 있는 V(s')에 할인율을 적용한 결과이며, 해당 행동을 취했을 때 어떤 V(s')값을 얻을 수 있는지에 대한 quality를 나타낸다. 그리고 더 빠른 시일에 획득하는 보상이 선호되기에 할인율 𝜸가 적용된다. 만약 agent가 처한 환경의 모든 것을 알고 있고, T(s, a, s')와 R(s, a, s')을 알고 있.. 2022. 6. 18.

이전 1 다음

티스토리툴바