상세 컨텐츠

본문 제목

[ SAS ] 최우추정법(Maximum Likelihood Estimation Method)

Language/SAS

by bing_su 2024. 12. 17. 22:36

본문

반응형
SMALL

지금까지는 최소제곱법(Least Square Method=OLS)로 회귀 계수들을 추정했다. 이번에는 회귀 계수를 추정하는 또 다른 방식인 최우추정법(Maximum Likelihood Estimation Method, MLE)에 대해 살펴보려고 한다. 프로그램을 작성하고 분석하기에 앞서 필요한 통계 개념을 짚고 넘어가자.

[ 가능도(Likelihood, 우도) ]

최우추정법에서의 Likelihood는 "가능도" 또는 "우도"라고 하며, 이는 다음과 같은 의미를 가진다.

  1. 어떤 값이 관측되었을 때 이것이 특정 확률 분포에서 왔을 확률: P(확률 분포 | 관측값)
  2. 관측 데이터가 주어진 모수 하에서 얼마나 그럴듯하게 나올 수 있는지를 나타내는 값

즉, 가능도란 모형이나 가설이 관찰된 데이터에 얼마나 잘 맞는지를 나타내는 값으로, 특정 parameter를 따르는 분포가 관측값에 부여하는 확률 개념이라고 생각할 수 있다.

[ 최우추정법(MLE, Maximum Likelihood Estimation) ]

OLS 방식은 parameter를 추정하기 위하여 필요한 가정이 없었다. 그러나 이와 다르게 MLE 방식에는 "오차항의 평균은 0이고, 분산이 $\sigma^2$인 정규 분포를 따른다."라는 가정이 필요하다. 이를 나타내면 다음과 같다.

$\varepsilon \sim N(0,\sigma^2)$

 

이러한 가정 하에서 n개의 관찰점을 구했을 때 $\varepsilon_1, \varepsilon_2, \cdots, \varepsilon_n$은 $N(0, \sigma^2)$에서 얻을 수 있는 표본이다. 이때 오차항(error term) $\varepsilon_t$의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같다.

$f(\varepsilon_i)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp^{-\frac{\varepsilon_i^2}{2 \sigma^2}}$

- 가능도 함수(Likelihood Function)

다음과 같은 단순 회귀 모형에서 최우추정법을 사용하여 parameter를 추정한다고 생각해보자.

$y_i =\beta_0 +\beta_1 x_i +\varepsilon_i$

 

최우추정법은 주어진 데이터에 대하여 가능도(Likelihood)를 최대화하는 parameter를 추정하는 방법이다. 관측 데이터로부터 특정 통계 모형의 적합성을 확인하기 위하여 가능도 함수(Likelihood Function)을 사용할 수 있다. 가능도 함수의 의미는 쉽게 설명하자면 앞서 관찰된 n개의 데이터가 parameter $\beta_0$와 $\beta_1$을 가질 확률이라고 할 수 있다. 

 

한편, $\varepsilon_i$ 값은 독립으로 가정되어 있기 때문에 $f(\varepsilon_i)$, $i=1, 2, \cdots, n$들의 곱으로써 다음과 같이 가능도 함수를 표현할 수 있다.

$L=\displaystyle \prod_{i=1}^n f(\varepsilon_i)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp^{-\frac{\sum \varepsilon_i^2}{2 \sigma^2}}=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp^{-\frac{\sum(y_i-\beta_0 -\beta_1 x_i)^2}{2 \sigma^2}}$

 

이때 parameter가 n개의 데이터에 잘 맞을수록 가능도 함수 값도 높게 나온다. 따라서 MLE에서는 이 가능도 함숫값이 최대가 되는 $\beta_0$, $\beta_1$ 값을 찾으면 된다. 최대가 되는 함숫값을 최우추정값, 이 방법으로 구한 $\beta_0$, $\beta_1$의 추정량이 최우추정량이 된다.

※ 로그 가능도 함수(Log-Likelihood Function)

가능도 함수를 최대로 하는 $\beta_0$, $\beta_1$을 구하는 과정은 OLS 방식과 유사하다. 가능도 함수를 각 parameter로 미분한 후, 그 값을 0으로 두어 최적의 parameter 값을 찾을 수 있다. 

 

미분 계산의 편의성을 위하여 가능도 함수의 양변에 자연로그($\ln$)를 취할 수 있으며, 이를 로그 가능도 함수라고 한다. 즉, MLE는 로그 가능도 함수를 각 parameter로 편미분한 식을 0으로 둔 뒤 이 연립방정식을 풀어 각 parameter의 추정값을 구하는 방식인 것이다.

 

이를 유도하는 과정은 이번 학기에 배운 계량경제학 수준에서는 이해가 어렵기 때문에 일단 지금은 다루지 않을 것이다. 결론적으로 해당 모형에서는 MLE 방식과 OLS 방식으로 추정한 parameter가 동일하게 도출된다.

[ 최우추정법의 장점 ]

1. 확률 수렴 또는 일치성(Convergence in Probability or Consistency)

표본(Sample)의 크기 n이 커질수록 추정값 $b_n$은 true value인 $\beta$에 확률적으로 수렴한다는 것이다. 이를 수식으로 표현하면 다음과 같다.

$\displaystyle \lim_{n \to \infty}P(|b_n -\beta|>\varepsilon)=0$

 이는 $b_n$이 일치성(consistent)을 가지는 추정량임을 의미한다.

2. 확률 분포 수렴(Convergence in Distribution)

표본평균 $\bar{X_n}$의 실제 확률 분포가 무엇이든지 관계 없이, 표본 수 $n$이 무한대로 증가하면 확률 분포가 정규 분포(Normal Distribution)으로 수렴한다. 즉, 큰 표본에서 MLE는 정규성을 가진다.

3. 가장 좋은 추정치(The Best Estimator)

최우추정법(MLE)로 얻은 추정량 $b_n$은

  1. 확률 수렴 특성을 가지고,
  2. 확률 분포 수렴을 만족하며,
  3. 모든 추정량(estimators) 중에서 점근적으로 가장 작은 분산을 가진다.

따라서 MLE로 얻은 추정치는 특성 1, 2를 만족시키는 estimator들 중에서 가장 효율적인 추정량(Best Estimator)라고 할 수 있다. 이러한 장점들은 Gauss-Markov Theorem과도 유사한 결론을 제공한다.

[ 모델 선택 기준 (AIC, SBC) ]

다양한 통계 모형들 중 가장 적합한 모형을 선택하기 위하여 AIC(Akaike Information Criterion)와 SBC(Schwarz-Bayesian Criterion)를 활용할 수 있다. 최우추정법(MLE)로 추정한 모형들 중에서 가장 적합한 모델을 선택하기 위하여 AIC와 SBC를 사용할 수 있다. 

  • AIC(Akaike Information Criterion)$=-2 \ln(L)+2k$
    ($\ln(L)$: 최대화된 로그 가능도 값, $k$: 모형의 parameter 개수)
  • SBC(Schwarz-Bayesian Criterion)$=-2 \ln(L)+k \ln(n)$
    ($n$: 표본(Sample)의 크기)

AIC와 SBC는 모형의 적합도와 복잡성을 고려하며, 가장 낮은 값을 가진 모형이 선택된다. 그러나 SBC의 경우에는 parameter 수에 대한 패널티가 부여되므로, AIC에 비하여 모형의 복잡성에 더 강한 패널티를 부여한다고 할 수 있다. 

[ 최우추정법(MLE) 기반 검정 통계량 정리 ]

최우추정법(MLE)을 기반으로 하며, 제약이 있는 모형(Retricted Model)과 제약이 없는 모형(Unrestricted Model) 간의 차이를 검정하는 데 사용되는 검정 통계량 세 가지(Wald Test, Likelihood Ratio Test(LR Test), Lagrange Multiplier Test(LM Test))를 소개하고자 한다. 소개한 검정 통계량은 모두 카이제곱(Chi-Square) 분포를 따른다.

- Wald Test (W)

parameter 추정치들이 제약 조건을 만족하는지를 검정한다. 검정 통계량은 다음과 같은 수식으로 계산된다.

$W=\frac{n(SSE_R -SSE_U)}{SSE_U} \sim \chi_q^2$

  • $SSE_R$: 제약 조건이 적용된 모형의 잔차제곱합
  • $SSE_U$: 제약 조건이 없는 모형의 잔차제곱합
  • $n$: 표본(Sample)의 크기
  • $q$: 제약 조건의 개수 (=자유도)

- Likelihood Ratio Test (LR)

가능도 함수를 기반으로 한 검정이며, 제약 조건을 적용했을 때의 가능도와 적용하지 않았을 때의 가능도 차이를 검정한다. 검정 통계량은 다음과 같은 수식으로 계산된다.

$LR=\frac{n(SSE_R -SSE_U)}{SSE_R}+\frac{n}{2}(\frac{n(SSE_R -SSE_U)}{SSE_R})^2 \sim \chi_q^2$

- Lagrange Multiplier Test (LM)

이전 게시물에서도 다루었지만, LM Test는 제약 조건 하의 모형에서의 오차항의 설명력을 바탕으로 검정을 진행한다. 검정 통계량은 다음과 같은 수식으로 계산된다. 

$LM=\frac{n(SSE_R - SSE_U)}{SSE_R}=nR^2 \sim \chi_q^2$

  • $R^2$: Restricted Model의 설명력

위의 세 통계량 대소 비교를 하면 $W>LR>LM$ 순이다. 

 

이 검정 방법들은 앞서 다루었던 F Test와도 연결될 수 있다. F 검정 통계량은 다음과 같다.

$F=\frac{(SSE_R -SSE_U)/q}{SSE_U /(n-k)} \chi F_{q, (n-k)}$

F Test는 $\chi^2$ 검정과 유사하지만 분포의 자유도가 $q$와 $(n-k)$에 따라 달라진다.

반응형
LIST

관련글 더보기

댓글 영역