-
What Get's You Here, Won't Get You There
Q-learning(Reinforcement learning) 2
Q-learning (Reinforcement Learning) 1 에서 현실세계, 확률적으로 행동하는 적이 있는 게임 환경 등에서 T(s,a,s')와 R(s,a,s')을 알지 못해도 V(s)와 Q(s,a)를 학습할 수 있는 방법이 Q-learning이며, Q-learning은 실제 환경, 게임에 들어가서 직접 행동을 취함으로써(불구덩이에 몸을 던짐으로써) Q(s,a)와 V(s)를 학습하는 'Online learning'이라고 설명했다. 이 학습 방법을 활용하면 항상 최적의 행동 a를 취하지 않고도(초기에는 최적의 행동이 무엇인지 조차 모름) 심지어는 확률적으로 행동을 취해도 model과 sample간의 차이를 기존 모델에 반영함으로써 최적의 Q(s,a)와 V(s)를 얻을 수 있다고도 했다. 하지만 환경..
2022. 6. 18.
Q-learning (Reinforcement Learning) 1
Q-learning은 모델 없이 학습하는 강화학습 기법 중 하나이다. 배경지식 Agent는 상태 s ∈ S 에서 행동 a ∈ A 를 취할 수 있고, 한 agent가 상태 s에서 행동 a를 취했을 때 s' 으로 이동할 확률은 T(s, a, s'), 얻을 수 있는 보상은 R(s, a, s') 이다. V(s)는 상태 s의 value이고, Q(s, a)는 상태 s에서 행동 a를 취했을 때 얻을 수 있는 V(s')에 할인율을 적용한 결과이며, 해당 행동을 취했을 때 어떤 V(s')값을 얻을 수 있는지에 대한 quality를 나타낸다. 그리고 더 빠른 시일에 획득하는 보상이 선호되기에 할인율 𝜸가 적용된다. 만약 agent가 처한 환경의 모든 것을 알고 있고, T(s, a, s')와 R(s, a, s')을 알고 있..
2022. 6. 18.
백준 5014번 파이썬
문제 링크 https://www.acmicpc.net/problem/5014 5014번: 스타트링크 첫째 줄에 F, S, G, U, D가 주어진다. (1 ≤ S, G ≤ F ≤ 1000000, 0 ≤ U, D ≤ 1000000) 건물은 1층부터 시작하고, 가장 높은 층은 F층이다. www.acmicpc.net 시간 제한 / 메모리 제한 1 초 256 MB 문제 강호는 코딩 교육을 하는 스타트업 스타트링크에 지원했다. 오늘은 강호의 면접날이다. 하지만, 늦잠을 잔 강호는 스타트링크가 있는 건물에 늦게 도착하고 말았다. 스타트링크는 총 F층으로 이루어진 고층 건물에 사무실이 있고, 스타트링크가 있는 곳의 위치는 G층이다. 강호가 지금 있는 곳은 S층이고, 이제 엘리베이터를 타고 G층으로 이동하려고 한다. 보..
2022. 5. 8.