728x90

마르코프 과정은 마르코프 특성(Markov Property)을 지닌 이산시간(Discrete time) 확률과정(stochastic process)입니다.

 

$$x_{1} = Ax_{0}, x_{2} = Ax_{1}, ...,  x_{n+1} = Ax_{n}$$

 

1. x : 상태 벡터

2. 마르코프 체인 : 상태 벡터들의 수열

3. A : 상태변이행렬(=상태전이행렬)

4. A의 각 열/행(합이 1이 되는 열/행) : 확률 벡터

 

초기 상태를 나타내는 벡터가 주어지고, 현재 상태에 따라 다음 상태를 확률적으로 예측하는 행렬(상태변이행렬, 또는 상태전이행렬이라 합니다)이 있을 때, 그 행렬과 벡터의 곱의 결과가 다음 상태 예측의 입력 벡터로 쓰이고 그런 식으로 생성된 일련의 벡터들을 마르코프 체인이라고 합니다. 각 벡터들이 입력, 결과로 이어지면서 생성되기 때문에 체인으로 명명되었다 볼 수 있을 것 같습니다.

 

  1. 먼저 마르코프 특성은 과거 상태들과 현재 상태가 주어졌을 때, 미래 상태는 과거 상태와는 독립적으로(=영향을 끼치지 않고), 현재 상태에 의해서만 결정된다는 것을 의미합니다. 다시 말해, 과거와 현재 상태 모두를 고려했을 때 미래 상태가 나타날 확률과 현재 상태만을 고려했을 때 미래 상태가 발생할 확률이 동일하다는 것입니다. 마르코프 특성을 식으로 나타내면 다음과 같습니다.

$$ P[s_{t+1}|s_t] = P[s_{t+1}|s_1,\cdots , s_t] $$

 

마르코프 특성은 과거 상태를 기억하지 않기 때문에 메모리리스(memoryless) 프로세스라고도 불립니다. 마르코프 체인도 동일한 용어로 쓰입니다.

 

  2.  그리고 이산 시간은 시간이 연속적으로 변하지 않고, 이산적으로 변함을 의미합니다. 예를 들면 1시, 2시 혹은 시간 범주가 있을 때 이를 이산 시간이라 할 수 있습니다.

  3.  마지막으로 확률 과정은 매 단계에서의 결과가 확률에 근거하는 일련의 실험들을 의미합니다. 마르코프 과정에서는 시간에 따라 확률들(=확률 벡터들)이 불변입니다. 현재 상태에서 다음 상태로의 변이를 타나내는 위의 행렬 A가 변하지 않는다는 말입니다.

 

주사위 던지기처럼 모든 시행이 독립적으로 발생하는 경우는 0차 마르코프 체인, 바로 직전 한 개의 상태에만 영향을 받는 경우는 1차 마르코프 체인이라고 합니다. 직전 n개 상태에 영향을 받는 경우 n차 마르코프 체인이라 합니다.

 

$x_0$ 였던 상태 벡터가 수렴하여 안정상태 벡터 $x_n$가 될 경우, 마르코프 체인 모델에서는 아주 오랜 시간이 흐른 뒤 $x_0$가 $x_n$가 될 것으로 예측합니다.

 

Q. 상태변이행렬은 불변인데 왜 이름이 변이행렬인가?

A. 행렬 자체가 변하는 행렬이어서 변이행렬이 아니라, 현재상태에서 다음 상태로 변하는 것에 대한 (확률을 나타낸) 행렬이기 때문에, 상태의 변이를 담고 있다하여 상태변이행렬, 또는 상태전이행렬이라 하는 것 같습니다.

 

 


 

참고

 

[강화학습] 마코프 프로세스(=마코프 체인) 제대로 이해하기

이 포스팅은 어느 카테고리에 넣어야할지 고민이 된다. 확률과도 관련이 있고, 딥러닝의 강화학습과도 관련이 있고, 영상처리의 몇몇 알고리즘에서도 사용되기 때문이다. 짧은 고민 끝에 머신

bskyvision.com

 

선형대수학과 응용 - 교보문고

▶ 이 책은 선형대수학에 대해 다룬 이론서입니다. 선형대수학의 기초적이고 전반적인 내용을 학습할 수 있습니다.

www.kyobobook.co.kr

 

Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?

 

728x90