본문 바로가기
Mathematics/Statistics

『몬테카를로 시뮬레이션으로 배우는 확률통계 with 파이썬 기초 개념부터 확률 과정 기반 데이터 예측까지』 Chapter 3. 확률

by Night Fury 2023. 5. 3.
반응형
장철원, 『몬테카를로 시뮬레이션으로 배우는 확률통계 with 파이썬 기초 개념부터 확률 과정 기반 데이터 예측까지』, 비제이퍼블릭(2023), p43-100.

 

확률의 개념

  • 표본 공간(sample space): 발생 가능한 모든 결과의 집합
  • 기호: \(\varOmega\) (오메가)
  • 사건(event): 표본 공간의 부분 집합
  • 확률(probability): 어떤 사건이 발생할 가능성을 0~1 사이의 숫자로 수치화 시킨 것
  • 독립(independent): 두 사건이 발생할 확률을 곱한 결과가 두 사건이 동시에 발생할 확률과 동일함
    • \(P(A\cap B) = P(A)P(B)\)
  • 배반(disjoint): 동시에 발생할 확률이 0
    • \(P(A\cap B) = 0\)
    • \(P(\displaystyle\bigcup^{\infty}_{i=1}{A_i}) = P(\displaystyle\sum^{\infty}_{i=1}{A_i})\)
  • 모집단(population): 관심 있는 대상이 되는 모든 측정값의 집합
  • 표본(sample): 모집단에서 추출한 측정값의 집합
  • 모수(population parameter): 모집단의 분포 특성을 규정 짓는 척도 (모집단의 대푯값)
  • 표본 통계량(sample statistic): 표본의 대푯값

확률 분포

  • 이산형 확률 분포(discrete probability distribution): 확률 변수가 가질 수 있는 값의 종류를 셀 수 있는 경우
    • 확률 질량 함수를 가짐
  • 연속형 확률 분호(continuous probability distribution): 확률 변수가 가질 수 있는 값의 종류를 셀 수 없는 경우
    • 확률 밀도 함수를 가짐
  • 확률 질량 함수(probability mass function, pmf): 이산형 확률 변수가 특정 값을 가질 확률
    • \(P_x(x) \ge 0\)
    • \(\sum_x{P_x(x)} = 1\)
  • 누적 분포 함수(cumulative distribution function, cdf): 확률 변수 \(X\)가 취할 수 있는 값들을 누적해서 구하는 확률 분포
    • \(F_x(x)=P(X\le x)\)
  • 확률 밀도 함수(probability density function, pdf): 특정 범위(range)가 가질 확률
    • \(f_x(x) \ge 0 \;\; for\; all\; x\)
    • \(\int^{\infty}_{-\infty}f_x(x) = 1\)
    • \(P(a < X < b) = \int^a_bf_x(t)dt\)
    • 연속형 확률 변수의 누적 분포 함수: \(F_x(x) = \int^x_{-\infty}f_x(t)dt\)
  • iid(independent and identically distributed)
    • 확률 변수 \(X_1, X_2, \cdots, X_n\)이 서로 독립이고 동일한 분포를 따르는 경우
    • 독립 항등 분포라고도 불림

평균과 기댓값, 분산

  • 데이터가 주어지면 평균, 주어지지 않은 상태라면 기댓값이라는 용어를 사용
    • 평균: 과거를 바라보는 단어
    • 기댓값: 미래를 바라보는 단어
  • 이산형 확률 변수
    • 변수 \(X\), 확률 질량 함수 \(P(X=x_i)\)
    • 기댓값: \(E(X) = \sum^{\infty}{i=1}{x_iP(X=x_i)} = \sum^{\infty}{i=1}{x_iP_X(x_i)}\)
    • 분산: \(\sigma^2 = Var(X) = E[(X-\mu)^2] = \sum^{\infty}_{i=1}{(x_i-\mu)^2P(X=x_i)}\)
  • 지시함수(indicator function):
    • 1 or 0을 가질 수 있음
    • 지시함수의 기댓값은 해당 사건이 발생할 확률과 동일함
  • 연속형 확률 변수
    • 변수 \(X\), 구간 \([a,b]\), 확률 밀도 함수 \(f_x(x)\)
    • 기댓값: \(E(X) = \int^b_a{xf_X(x)dx}\)
    • 분산: \( \sigma^2 = Var(X) = E[(X-\mu)^2] = \int^b_a{(x-\mu)^2f_x(x)dx} \)
  • 분산의 성질
    • \(Var(aX+b) = a^2Var(X)\)
    • \(Var(X+Y)=Var(X) + Var(Y) + 2Cov(X,Y)\)
    • \(Var(X-Y)=Var(X) + Var(Y) - 2Cov(X,Y)\)
    • \(Var(aX+bY)=a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)\)
    • iid는 확률 변수가 서로 독립이기 때문에 공분산은 0임
    • \(Var(x_i) = E(x^2_i) - [E(x_i)]^2\)
      • \(\Leftrightarrow\; E(x^2_i) = Var(x_i) + [E(x_i)]^2\)
      • \(\Leftrightarrow\; E(x^2_i) = \sigma^2 + \mu^2\)
    • \(Var(\bar{x}) = E(\bar{x}^2) - [E(\bar{x})]^2\)
      • \(\Leftrightarrow\; E(\bar{x}^2) = Var(\bar{x}) + [E(\bar{x})]^2\)
      • \(\Leftrightarrow\; E(\bar{x}^2) = \displaystyle{\sigma^2 \over n} + \mu^2\)
  • 자유도(degree of freedom): 자유로운 데이터의 개수

공분산(covariance)

  • 두 확률 변수의 상관 관계를 나타내는 값
  • 확률 변수 \(X\)의 편차와, 확률 변수 \(Y\)의 편차를 곱한 값의 평균
  • \(Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)] = \displaystyle{1\over {n-1}}\sum^n_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}\)
  • \(Cov(X, Y) = E(XY)-E(X)E(Y)\)
  • 공분산의 성질
    • \(Cov(X,X)=Var(X)\)
    • \(Cov(X,Y)=Cov(Y,X)\)
    • \(Cov(aX,bY)=abCov(X,Y)\)
    • \(Cov(X+Y, Z) = Cov(X,Z) + Cov(Y,Z)\)

상관 계수(coefficient of correlation)

  • 변수 간 단위가 서로 다른 경우를 보완한 개념
  • \(Corr(X, Y)=\displaystyle{{Cov(X,Y)}\over {\sqrt{Var(X)}}{\sqrt{Var(Y)}}}={Cov(X,Y) \over \sigma_x\sigma_yy}\)
  • 표본 상관 계수(sample coefficient of correlation)
    • \(r_{xy} = \displaystyle{\sum(x_i-\bar{x})(y_i-\bar{y}) \over \sqrt{\sum(x_i-\bar{x})^2(y_i-\bar{y})^2}}\)
  • 응용
    • \(\displaystyle\sum^n_{i=1}(x_i-\bar{x})^2=\sum^n_{i=1}{x^2_i} - {1\over n}(\sum^n_{i=1}x_i)^2\)
    • \(\displaystyle\sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y}) = \sum^n_{i=1}{x_iy_i} - {1\over n}(\sum^n_{i=1}x_i)(\sum^n_{i=1}y_i)\)

조건부 확률(conditional probability)

  • 사건 B가 발생하는 경우, 사건 A가 발생할 확률
    • \(P(A|B)=\displaystyle{P(A\cap B) \over P(B)}\)
    • \(P(A\cap B) = P(A|B)P(B)\)
  • 조건부 독립(conditional independence)
    • 사건 \(A,B,C\)가 존재할 때, \(P(A|B,C)=P(A|C)\)를 만족한다면 사건 \(C\)가 주어질 때, 사건 \(A\)와 사건 \(B\)는 조건부 독립이라고 함
    • \(P(A,B|C)=P(A|C)P(B|C)\)를 만족해도 위와 동일
  • 전확률 공식(law of total probability)
    • 표본 공간 \(\varOmega\)를 서로 배반인 부분 공간으로 나누었을 때, 한 사건이 발생할 확률은 부분 공간에 대한 조건부 확률의 합 형태로 나타낼 수 있음을 의미
    • 표본 공간 \(\varOmega\)이 서로 다른 배반 공간 \(B, B^c\)로 구성될 때, \(P(A) = P(A|B)P(B) + P(A|B^c)P(B^c)\)
    • 사건 \(B_1, B_2, \cdots, B_n\)이 표본 공간 \(\varOmega\)의 부분 공간 일 때, \(P(A) = \sum^n_{i=1}{P(A|B_i)P(B_i)}\)
  • 전평균 공식(law of total expectation)
    • \(E(A) = \sum^n_{i=1}{E(A|B_i)P(B_i)}\)
    • 확률 변수 \(A\)의 기댓값은 서로 배반인 부분 공간 \(B_1, B_2, \cdots, B_n\)의 조건부 기댓값의 합 형태로 구할 수 있음
      • \(E_Y(E_X(X|Y))=E(X)\)
  • 적률 생성 함수(moment generation function, mgf)
    • 0 근방의 \(t\)에 대해 기댓값이 존재함
    • 0보다 큰 모든 h에 대해 \(E(e^{tx})\)가 존재함 (\(h>0, \; -h<t<h\))
    • 수식
      • 이산형: \(M_X(t) = \sum_x{e^{tx}P(X=x)}\)
      • 연속형: \(M_X(t) = \int^{\infty}_{-\infty}{e^{tx}f_X(x)dx}\)
    • 확률 변수 \(X\)의 \(n\)차 적률 \(E(X^n)\)를 구할 수 있음
      • \(E(X^n)=M^{(n)}_X(0)\)
      • \(M^{(n)}_X(0)\): 적률 생성 함수 \(M_X{(t)}\)를 \(n\)번 미분하고 \(t=0\)을 대입한 것
      • 기댓값과 분산을 쉽게 구할 수 있음
        • \(E(X) = M'_X{(0)}\)
        • \(Var(X) = E(X^2) - [E(X)]^2\)
          • \(E(X^2) = M''_X{(0)}\)

Reference

반응형

댓글