[AI Math] 6강 확률론 맛보기

지구인 ㅣ 2022. 1. 22. 06:13

728x90

1. 딥러닝에서의 필요성

  1. 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 둠
  2. 예측이 틀릴 위험을 최소화하도록 데이터를 학습하는 원리(손실함수)는 통계적 기계학습의 기본 원리
  3. 회귀분석에서 손실함수로 사용되는 L2 norm : 예측오차의 분산을 최소화하는 방향으로 학습 유도
  4. 분류문제에서 손실함수로 사용되는 교차엔트로피 : 모델 예측의 불확실성을 최소화하는 방향으로 학습 유도
  5. 결론 : 분산 및 불확실성을 최소화하기 위해 이를 측정하는 방법을 알아야 함

 

2. 확률 분포

개념

  • $x \times y$ : 데이터 공간
  • $D$ : 데이터공간에서 데이터를 추출하는 분포. 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없음
  • $(X,y) \sim D$ : 데이터를 확률 변수로 표기한 것
  • $P(X, y)$ : 결합분포. $D$ 를 모델링함.

분류

  • 확률분포 $D$에 따라 이산형과 연속형으로 확률변수를 구분 (→ 데이터 공간 $x \times y$ 이 아닌, 확률분포 $D$에 의해 결정된다.)
  • 이산형 확률변수 : 확률변수가 가질 수 있는 모든 경우의 수 고려, 급수(summation)를 통해 모델링
  • 연속형 확률변수 : 데이터 공간에 정의된 확률변수의 밀도 위에서 적분을 통해 모델링
    • 밀도는 누적확률분포의 변화율을 모델링, 확률로 해석하면 안됨

이외에 특징

  • P(x)는 입력 x에 대한 주변확률분포로, y에 대한 정보는 없음
  • 주변확률분포는 결합분포에서 유도가능

        -->    $P(X) = \sigma_{y}P(X, y)$     $P(X) = \int_{y} P(X, y)dy$

  • 조건부확률분포 $P(X|y)$ 는 데이터 공간에서 입력 $X$ 와 출력 $y$ 사이의 관계를 모델링 - $P(X|y)$ : 특정 클래스가 주어진 조건에서, 데이터의 확률분포 보여줌

 

3. 조건부 확률

  • 조건부확률 $P(y|X)$ : 입력 변수 x에 대해 정답이 y일 확률 의미
  • 연속확률분포의 경우 $P(y|X)$는 확률이 아닌 밀도로 해석하는 점 유의!
  • 분류 문제 : 소프트 맥스 함수가 데이터로부터 추출된 특징 패턴($\phi$)과 가중치 행렬(W)을 통해 조건부확률 계산
  • 회귀 문제 : 조건부 기대값 추정

 

4. 기대값

  • 확률 분포를 통해 다양한 통계적 범함수를 구할 수 있음
  • 기대값 또한 확률 분포를 통해 구해짐
  • 나아가 기대값은 확률 분포를 통해 다른 통계적 범함수를 구하는 데에 쓰일 수 있음

 

5. 기계학습

  • 딥러닝은 다층신경망을 사용해 데이터로부터 특징패턴 $\phi$ (잠재 벡터) 를 추출
  • 단, 특징 패턴을 학습하기 위해 어떤 손실함수를 사용할지기계학습 문제와 모델에 의해 결정

 

6. 몬테카를로 샘플링

  • 문제 : 기계학습의 대부분의 문제들은 확률분포를 명시적으로 알지 못할 때가 다수
  • 해결 : 확률분포를 모르는 상황에서 데이터를 이용해 기대값을 계산하려면 몬테카를로 샘플링 방법을 사용
  • 특징
    • 몬테카를로 샘플링은 이산형, 연속형 무관하게 성립
    • 독립추출만 보장된다면 대수의 법칙에 의해 수렴성 보장
    • 기계학습에서 다양하게 응용되는 방법임

 

7. 몬테카를로 예제 : 적분 계산

  • 문제 : $f(x) = e^{-x^{2}}$ 의 $[-1, 1]$ 상에서 적분값 구하기
  • 한계 : 해석적으로 구할 수는 없음

$e^{x^{2}}$ 함수의 적분
몬테카를로 샘플링으로 적분값 구하는 식

  • 풀이 (이렇게 알려주시진 않았지만 내 나름대로 풀어썼다.)

  1. -1 ~ 1 사이 무수히 많은 수를 뽑아 위 함수에 대입하면 파랑색 곡선에 해당하는 값들이 무수히 많이 반환
  2. 이들 값들의 평균을 구하면 검은 선이 지나는 y축의 값과 비슷하게 도출됨 (그래프에서 대강 최대값이 1, 최소값이 0.4쯤 되어 보이므로 0.7 언저리에 평균선 표시함)
  3. 1,2의 크기가 근사하고, 3,4의 크기가 근사함
  4. y 축 위에 수직으로 그은 평균선의 위치를 h라 하면, 위 그래프의 적분값은 2*h이고, 2는 적분하려는 구간의 길이이다.
728x90