본문 바로가기

What Get's You Here, Won't Get You There

CS78

Q-learning(Reinforcement learning) 2 Q-learning (Reinforcement Learning) 1 에서 현실세계, 확률적으로 행동하는 적이 있는 게임 환경 등에서 T(s,a,s')와 R(s,a,s')을 알지 못해도 V(s)와 Q(s,a)를 학습할 수 있는 방법이 Q-learning이며, Q-learning은 실제 환경, 게임에 들어가서 직접 행동을 취함으로써(불구덩이에 몸을 던짐으로써) Q(s,a)와 V(s)를 학습하는 'Online learning'이라고 설명했다. 이 학습 방법을 활용하면 항상 최적의 행동 a를 취하지 않고도(초기에는 최적의 행동이 무엇인지 조차 모름) 심지어는 확률적으로 행동을 취해도 model과 sample간의 차이를 기존 모델에 반영함으로써 최적의 Q(s,a)와 V(s)를 얻을 수 있다고도 했다. 하지만 환경.. 2022. 6. 18.

Q-learning (Reinforcement Learning) 1 Q-learning은 모델 없이 학습하는 강화학습 기법 중 하나이다. 배경지식 Agent는 상태 s ∈ S 에서 행동 a ∈ A 를 취할 수 있고, 한 agent가 상태 s에서 행동 a를 취했을 때 s' 으로 이동할 확률은 T(s, a, s'), 얻을 수 있는 보상은 R(s, a, s') 이다. V(s)는 상태 s의 value이고, Q(s, a)는 상태 s에서 행동 a를 취했을 때 얻을 수 있는 V(s')에 할인율을 적용한 결과이며, 해당 행동을 취했을 때 어떤 V(s')값을 얻을 수 있는지에 대한 quality를 나타낸다. 그리고 더 빠른 시일에 획득하는 보상이 선호되기에 할인율 𝜸가 적용된다. 만약 agent가 처한 환경의 모든 것을 알고 있고, T(s, a, s')와 R(s, a, s')을 알고 있.. 2022. 6. 18.

사설 IP 주소(CIDR 표기법) 사설 IP 주소 사설 IP 주소는 하나의 local 네트워크 안에서만 사용할 수 있는 IP주소이며, local 네트워크 외부로 트래픽을 내보내고, 외부로부터 유입되는 트래픽을 받기 위해 Network Address Translation과 함께 사용된다. local 네트워크 내 호스트의 IP 주소를 외부에 알리지 않고도 유연하게 할당, 변경할 수 있으며, 사설 주소는 그대로 유지한 채 Internet Service Provider를 교체할 수도 있다. 또 IPv4 주소 공간이 고갈되어도 local 네트워크 내에서만 활용하는 주소이기에 계속 활용할 수 있다. 사설 IP 주소 공간 클래스 별 사설 IP 주소는 다음과 같으며, 클래스 A: 10.0.0.0/8 클래스 B: 172.16.0.0/12 클래스 C:19.. 2022. 6. 14.

백준 2206번 파이썬 문제 링크 https://www.acmicpc.net/problem/2206 2206번: 벽 부수고 이동하기 N×M의 행렬로 표현되는 맵이 있다. 맵에서 0은 이동할 수 있는 곳을 나타내고, 1은 이동할 수 없는 벽이 있는 곳을 나타낸다. 당신은 (1, 1)에서 (N, M)의 위치까지 이동하려 하는데, 이때 최단 경로 www.acmicpc.net 시간 제한 / 메모리 제한 2 초 192 MB 문제 N×M의 행렬로 표현되는 맵이 있다. 맵에서 0은 이동할 수 있는 곳을 나타내고, 1은 이동할 수 없는 벽이 있는 곳을 나타낸다. 당신은 (1, 1)에서 (N, M)의 위치까지 이동하려 하는데, 이때 최단 경로로 이동하려 한다. 최단경로는 맵에서 가장 적은 개수의 칸을 지나는 경로를 말하는데, 이때 시작하는 칸.. 2022. 5. 9.

백준 5014번 파이썬 문제 링크 https://www.acmicpc.net/problem/5014 5014번: 스타트링크 첫째 줄에 F, S, G, U, D가 주어진다. (1 ≤ S, G ≤ F ≤ 1000000, 0 ≤ U, D ≤ 1000000) 건물은 1층부터 시작하고, 가장 높은 층은 F층이다. www.acmicpc.net 시간 제한 / 메모리 제한 1 초 256 MB 문제 강호는 코딩 교육을 하는 스타트업 스타트링크에 지원했다. 오늘은 강호의 면접날이다. 하지만, 늦잠을 잔 강호는 스타트링크가 있는 건물에 늦게 도착하고 말았다. 스타트링크는 총 F층으로 이루어진 고층 건물에 사무실이 있고, 스타트링크가 있는 곳의 위치는 G층이다. 강호가 지금 있는 곳은 S층이고, 이제 엘리베이터를 타고 G층으로 이동하려고 한다. 보.. 2022. 5. 8.

백준 7576번 파이썬 문제 링크 https://www.acmicpc.net/problem/7576 7576번: 토마토 첫 줄에는 상자의 크기를 나타내는 두 정수 M,N이 주어진다. M은 상자의 가로 칸의 수, N은 상자의 세로 칸의 수를 나타낸다. 단, 2 ≤ M,N ≤ 1,000 이다. 둘째 줄부터는 하나의 상자에 저장된 토마토 www.acmicpc.net 시간 제한 / 메모리 제한 1 초 256 MB 문제 철수의 토마토 농장에서는 토마토를 보관하는 큰 창고를 가지고 있다. 토마토는 아래의 그림과 같이 격자 모양 상자의 칸에 하나씩 넣어서 창고에 보관한다. 창고에 보관되는 토마토들 중에는 잘 익은 것도 있지만, 아직 익지 않은 토마토들도 있을 수 있다. 보관 후 하루가 지나면, 익은 토마토들의 인접한 곳에 있는 익지 않은 .. 2022. 5. 7.

백준 6593번 파이썬 문제 링크 https://www.acmicpc.net/problem/6593 6593번: 상범 빌딩 당신은 상범 빌딩에 갇히고 말았다. 여기서 탈출하는 가장 빠른 길은 무엇일까? 상범 빌딩은 각 변의 길이가 1인 정육면체(단위 정육면체)로 이루어져있다. 각 정육면체는 금으로 이루어져 있어 www.acmicpc.net 시간 제한 / 메모리 제한 1 초 128 MB 문제 당신은 상범 빌딩에 갇히고 말았다. 여기서 탈출하는 가장 빠른 길은 무엇일까? 상범 빌딩은 각 변의 길이가 1인 정육면체(단위 정육면체)로 이루어져있다. 각 정육면체는 금으로 이루어져 있어 지나갈 수 없거나, 비어있어서 지나갈 수 있게 되어있다. 당신은 각 칸에서 인접한 6개의 칸(동,서,남,북,상,하)으로 1분의 시간을 들여 이동할 수 있.. 2022. 5. 7.

백준 10026번 파이썬 문제 링크 https://www.acmicpc.net/problem/10026 10026번: 적록색약 적록색약은 빨간색과 초록색의 차이를 거의 느끼지 못한다. 따라서, 적록색약인 사람이 보는 그림은 아닌 사람이 보는 그림과는 좀 다를 수 있다. 크기가 N×N인 그리드의 각 칸에 R(빨강), G(초록) www.acmicpc.net 시간 제한 / 메모리 제한 1 초 128 MB 문제 적록색약은 빨간색과 초록색의 차이를 거의 느끼지 못한다. 따라서, 적록색약인 사람이 보는 그림은 아닌 사람이 보는 그림과는 좀 다를 수 있다. 크기가 N×N인 그리드의 각 칸에 R(빨강), G(초록), B(파랑) 중 하나를 색칠한 그림이 있다. 그림은 몇 개의 구역으로 나뉘어져 있는데, 구역은 같은 색으로 이루어져 있다. 또, .. 2022. 5. 6.

이전 1 2 3 4 5 ··· 10 다음

티스토리툴바