Some Probability Stuffs

2019년 09월 24일   |   by Joohyoung Jeon

Probability and Linear Algebra

writer : jeonjoohyoung@gmail.com


1. Conditional probability (조건부 확률)

  • 정의 사건 A와 B가 표본공간 S상에 정의되어 있으며 이라고 하자. 이때 사건 B가 일어났다는 가정하의 사건 A가 일어날 조건부 확률은 다음과 같이 정의된다. =

 

  • 수리적 해석

    B가 일어났다는 것을 알게 되면 에 포함되는 실험결과들은 관찰이 불가능하므로 전체 표본공간은 B로 국한된다. 이때, 조건부 확률 가 가지는 의미는, A가운데 B에 포함되는 부분의 확률인 라는 표본공간의 확률의 에 대한 상대적 크기를 의미한다.

     

  • 성질

    서로 배반인 두 사건 에 대하여, 다음과 같은 성질이 성립된다.

    =

    =

    = (

    =

 

2. Joint probability distribution (결합확률분포), Conditional probability distribution (조건부확률분포), Marginal probability distribution (주변확률분포)

  • 개요

결합확률은 사건 A, B가 동시에 발생할 확률이다. 사건 A, B가 둘다 진실일 때 A와 B의 교집합의 확률을 계산하는 것과 같다. 결합확률과 대비되는 개념으로 결합되지 않는 개별 사건의 확률 P(A) 또는 P(B)를 주변 확률이라고 한다. 두 사건의 발생 개념에서, 새로운 정보가 주어지든 주어지지 않는 특정 사건의 확률이 변함이 없는 경우에는 서로 독립이라고 한다. (확률질량함수 : 확률변수가 이산형일때, 확률밀도함수 : 확률변수가 연속형일때)

 

2.1 Joint probability distribution (결합확률분포)
  • 두 확률변수에서의 정의

    (1) 이산형 확률변수

    두 확률변수 X, Y가 주어진 경우 결합확률분포의 정의는 다음과 같다. 확률변수 X의 가능한 값이 이고, 확률변수 Y의 가능한 값이 이라면, 결합확률분포 는 결합확률질량함수(Joint probability mass function) 모든 i, j에 대하여 0 이며

    = 이다.

     

    (2) 연속형 확률변수

    두 확률변수 X, Y의 결합확률밀도함수를 라고 정의할때, 모든 에 대해서 이며

    이다.

     

  • 확률벡터에서의 정의

    확률벡터 의 결합 확률분포함수는 다음과 같다.

    로 정의된다.

    따라서, 결합 확률밀도함수를 사용하면 결합 확률분포는 다음과 같다.

     

  • 성질

    확률벡터가 연속형인 경우, 결합 확률밀도함수와 결합 확률분포 함수 사이에는 다음과 같은 관계가 성립된다.

     

2.2 Conditional probability distribution (조건부확률분포)
  • 정의

    이산 또는 연속형 확률분포 에 대하여,

    (1) 로 주어진 확률변수 의 조건부 분포는 다음과 같다.

    , 의 주변확률분포

    (2) 로 주어진 확률변수 의 조건부 분포는 다음과 같다.

    , 의 주변확률분포

 

2.3 Marginal probability distribution (주변확률분포)
  • 두 확률변수에서의 정의

    두 확률변수의 결합분포에 관심이 있더라도 경우에 따라서 각 변수만의 분포를 구할 필요가 있다. 두 확률변수 X, Y의 결합 확률밀도함수가 로 주어졌을 때, 두 변수 X, Y각각의 확률밀도함수 ​는 다음 방법으로 구해진다.

    이산형인 경우 : ,

    연속형인 경우 : ,

     

  • 확률벡터에서의 정의

    확률변수 의 결합 확률밀도함수가 일 때, 의 주변 확률밀도함수는 다음과 같다.

 

3. Independent random variable (독립확률변수)

  • 정의

    두 확률변수 는 임의의 실구간 A와 B에 대하여, 의 경우가 성립할 때 서로 독립이라고 한다. 확률밀도함수의 경우 두 확률변수 가 서로 독립일 필요충분조건은 이다. 두 확률변수가 서로 독립일 필요충분조건은 결합 확률밀도함수가 주변 확률밀도함수들의 곱의 골로 표현되는 것이다.

     

  • 예제

    두 변수 X, Y의 결합 확률밀도함수가 다음과 같다.

    X, Y의 주변 확률밀도함수는 각각

    으로 계산되므로 가 성립한다. 따라서 X, Y는 서로 독립이다.

 

4. Correlation (상관계수), Autocorrelation (자기상관계수)

4.1 Correlation (상관계수)
  • 정의

    두 확률변수 , 에 대하여, 다음과 같이 정의된 측도를 두 확률변수의 상관계수라 한다.

    = =

  • 성질

    : 양의 상관관계. 두 확률변수가 같은 증감추세를 가지려는 경향이 있다. 한쪽이 커지면(작아지면) 동반해서 다른쪽도 커지려는(작아지려는) 경향이 있다.

    : 음의 상관관계. 두 확률변수가 서로 다른 증감추세를 가지려는 경향이다. 한쪽이 커지면(작아지면) 동반해서 다른쪽이 작아지려는(커지려는) 경향이 있다.

    : 무상관 관계

 

4.2 Autocorrelation (자기상관계수)
  • 정의

    확률변수 에 대한 서로 다른 시점에서의 관측값 를 고려하자. 여기서 인 값이다.

    두 가지 성질(등평균, 등분산성)을 가정한다.

    (1)

    관측치들이 관측된 시간에 걸쳐 어떤 추세의 패턴을 가지지 않는다는 것.

    (2)

    관측치들이 관측된 시간에 걸쳐 폭이 일정하다.

    위의 가정들 하에서, 두 확률변수 사이의 자기상관계수는

    = =

  • 성질

    를 "k차 자기상관계수"라 한다. 만약 일 때, 1차 자기상관계수는

    로 얻을 수 있다.

    • 을 만족한다.
    • 가 성립한다.
    • 이 성립한다.

 

  • 해석

    자상관계수 는 여러번 관측했을 때, 현시점의 자료 와 다음 시점의 관측자료나 이전 시점의 관측자와 매우 유사할 가능성이 높다는 것을 말한다. ㄷ또한, 는 여러번 관측했을 때 두 시점 전, 후의 관측값이 현 시점의 관측값에 비해 상이할 가능성이 높다는 것을 말한다. 만약, 이라면 여러번 관측했을 때 현 시점의 관측과 3기간 전, 후의 관측이 거의 무관하다는 것을 말한다.

     

5. Eigenvalue (고유값), Eigenvector (고유벡터)

  • 들어가기

    벡터 에 어떠한 선형변환 를 했을 때, 그 크기만 변하고 원래 벡터와 평행한 벡터 는 무엇인가?

img

위의 그림처럼, 행렬 는 벡터를 다른 벡터로 변환시켜준다. 변환 후의 벡터 는 변환 전의 벡터 에 비해 방향, 크기가 변해 있다. 그런데 특정한 벡터와 행렬은 선형 변환을 취했을 때, 크기만 바뀌고 방향은 바뀌지 않을 수도 있다.

img

위의 그림에서 처럼, 행렬 에 벡터 를 곱하면 방향은 같지만 크기만 바뀐 벡터가 출력된다. 이는 즉, 입력벡터 로 선형변환 시킨 결과()가 상수배라는 것이다.

 

  • 고유값, 고유벡터의 정의

    임의의 크기 행렬 에 대하여, 0이 아닌 벡터 가 존재한다면 상수 는 행렬 의 고유값이며, 이때 벡터 는 고유값 에 대응되는 고유벡터이다. (또 다른 정의) 선형변환 에 의한 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터(eigenvector, 여기서는 ), 상수배 해주는 값을 고유값(eigenvalue, 여기서는 )이라 한다.

     

  • 고유값분해 (eigendecomposition)

    고유값, 고유벡터는 정방행렬의 대각화와 밀접한 관련이 있다. (eigendecomposition은 정방행렬만 가능) 위의 를 다음과 같이 표현할 수 있다.

     

    =

    행렬 의 고유벡터들을 열벡터로 하는 행렬을 , 고유값들을 대각원소(diagonal)로 하는 대각 행렬을 라 하면 다음 식이 성립된다.

    즉, 행렬 는 자신의 고유벡터들을 열벡터로 하는 행렬과 고유값을 대각원소로 하는 행렬의 곱으로 대각화 분해가 가능하다.

 

6. Positive definite matrix, Positive semidefinite matrix

  • 정의

    위의 5장 고유값분해에서 살펴본 행렬과 유사하게, 대칭행렬(symmetric) 이면서 대각원소인 모든 고유값이 양수인 경우를 Positive definite matrix라고 한다. 만약, 해당 고유값이 0을 포함한 양수를 가진다면 Positive semidefinite matrix라고 한다.

    다음과 같은 대칭행렬 이 주어졌다고 하자. 그러면, 는 Positive definite matrix이다. 다음과 같이 가 무조건 양수를 가지기 때문이다.

    와 같다고 가정하자. 그러면 는 다음과 같이 계산된다.

    =

    해당 식이 의미하는 것은 원소 a, b, c가 어떠한 값을 가지든 무조건 양수가 된다는 것을 말한다.

     

  • 응용 (함수의 성질)

    Positive definite matrix와 Postive semidefinite matrix는 다변수 함수의 극값을 판별하는데 사용될 수 있다.

    예를 들어, 두 개의 변수로 구성된 함수 를 다음과 같이 로 나타낼 수 있다.

    여기에서 우리는 행렬 의 원소 특징을 살펴보면, 이변수 함수의 모양을 알 수 있다. 위의 행렬이 Positive definite matrix인 경우 함수 는 그릇 형태로 최소값을 가진다. 만약 Positive semidefinite matrix인 경우에는 아래로 굽은 굴곡 형태이며 기울기가 증가하는 양상을 가지고 있을 것이다. 만약, negative definite인 경우에는 돔 형태로 최대값을 가진다. negative semidefinite인 경우에는 위로 굽은 굴곡으로 기울기는 감소추세를 가진다.

    함수의 극값, 극소값, 안장값을 가지는지 여부는 함수 최적화에 필요하다. 예를 들어 딥러닝의 Loss 함수를 개발하고자 할 때, 개발한 함수가 극값을 가지는지 여부를 확인하고 사용해야 할 것이다.

 

  • Positive definite matrix 여부 확인하는 방법 (5가지 중 하나만 만족하면 된다)

    (1) 영이 아닌 모든 실수 벡터 에 대하여 을 만족한다.

    (2) 행렬 의 모든 고유값들이 0보다 크다.

    (3) 행렬 의 모든 Sub-matrix(상위 왼쪽)의 행렬식들이 0보다 크다.

    (4) 행렬 의 모든 피봇들이 0보다 크다

    (5) 인 독립 열들을 지닌 행렬 이 존재한다.


 

References

  1. 송성주, 수리통계학 4판 (2015), 자유아카데미
  2. 공돌이의 수학정리노트 (https://angeloyeo.github.io/2019/07/17/eigen_vector.html)

 

Leave Your Comment