상세 컨텐츠

본문 제목

[ SAS ] - 평균 회귀 모형에서 기초 통계량을 추출하는 프로그램 작성 + 가설 검정

Language/SAS

by bing_su 2023. 4. 21. 06:27

본문

반응형
SMALL

다섯 번째 실습으로는 평균 회귀 모형에서 기초 통계량(평균, 표준편차, 분산 등)을 추출하는 프로그램을 작성했을 뿐만 아니라 그 결과를 통해 가설 검정을 해 봤다. 이번 게시물에서는 프로그램 해석을 위하여 필요한 통계 개념을 짚고 넘어가려고 한다.
 
그전에 평균 회귀 모형과 t 분포에 대한 설명/아래의 프로그램에 대한 로직 설명이 필요하다면 이전 게시물(https://bing-su-b.tistory.com/107)을 보고 오도록 합시다. (꼭 보고 오셔야 이해를 할 수 있습니다 !!)

DATA xbar;
	n=120;  /* 표본 크기: 120 */
	seed=1234;  /* seed 값을 1234로 지정 */
	mu=1.0;  /* true mean 값 지정 */
	DO i=1 TO n;
		e=RANNOR(seed);  /* 표준 정규 분포를 따르는 변량을 무작위로 생성 */
		x=mu+e;  /* Xi=μ+εi */
		OUTPUT;  /* DO Loop 내부의 변수 값들을 모두 기억 */
	END;
RUN;

PROC UNIVARIATE DATA=xbar;
	VAR x;  /* x 변수에 대한 통계 데이터 분석 */
RUN;

위 프로그램을 실행하여 통계량을 출력하면 아래와 같다. (개념 설명 시 아래 통계 결과가 사용될 예정)

프로그램 실행 화면

[ 신뢰 구간을 구하여 가설 검정하기 ]

신뢰 구간을 구하기 전, 해당 프로그램에서 분석된 데이터를 정리해 보자.

  • 평균(xbar, $\bar{x}$): n개(120개) $x_i$의 평균(xbar, $\bar{x}$)$=0.9992$
  • 표준편차(s): [ \frac{1}{n-1} \sum_{i=1}^n(x_i-\bar{x})^2 ]^ \frac{1}{2} =1.13235124
  • 분산($s^2$): $(표준편차)^2=(1.13235124)^2=1.28221934$
  • 평균($\bar{X}$)의 표준 오차(standard error of xbar, \bar{x}): $ \sqrt{ \frac{s^2}{n} }= \sqrt{ \frac{1.28221934}{120} }=0.103369 $

신뢰 수준 95%에서의 해당 분포의 신뢰 구간은 아래와 같이 표현된다.

$$Prob[\bar{X}-1.98 \sqrt{ \frac{s^2}{n}} <\mu_0<\bar{X}+1.98\sqrt{ \frac{s^2}{n}}]=0.95$$

이 신뢰 구간을 통해 세 가지의 귀무가설 $\mu_0=0.7, 1.0, 1.3$을 검증해 보자.
먼저 해당 프로그램을 통해 분석된 데이터를 이용하여 신뢰 수준 95%에서의 신뢰 구간을 구하면 아래와 같다.

$$[(0.9992-1.98 \times 0.103369), (0.9992+1.98 \times 0.103369)]=[0.79453, 1.20387]$$

이를 통해 $\mu_0=1.0$은 신뢰 구간 안에 속하므로 채택되어야 하는 가설이고, 나머지 두 가설($\mu_0=0.7, 1.3$)은 신뢰 구간 안에 속하지 않으므로 기각되어야 하는 가설이 된다.

[ t value(t 값)를 사용하여 가설 검정하기 ]

$t= \frac{\bar{X}-\mu}{ \sqrt{ \frac{s^2}{n}} } \sim t_v $  (when $\mu_0=\mu$)이다.
95%의 신뢰 수준에서 $Prob[-1.98< \frac{\bar{X}-\mu_0}{ \sqrt{ \frac{s^2}{n}}}<1.98 ]=0.95$가 된다. 이는 특정 귀무가설은 $\frac{\bar{X}-\mu_0}{ \sqrt{ \frac{s^2}{n}}}$ 값이 1.98보다 크거나, -1.98보다 작으면 귀무가설 $\mu_0$를 기각해야 한다는 것을 의미한다. 즉, $ | \frac{\bar{X}-\mu_0}{ \sqrt{ \frac{s^2}{n}}}|=|t value|>1.98$이면 $\mu_0$를 기각한다. $|t|$가 1.98보다 크면 "평균 회귀 모형"의 모수$(\mu)$ "통계적으로 유의하다(statistically significant)"라고 한다.
 
위의 SAS 예제에서 얻은 값을 사용하면, 귀무가설 $\mu_0=0$에 대한 $|t|$ value는 $|t|=| \frac{0.9992}{0.103369} |=9.666$이다. 이는 5% 유의 수준 임계치(critical value)인 1.98보다 훨씬 큰 값이기 때문에 귀무가설 $\mu_0=0$은 강하게 기각된다고 할 수 있다.
 
$\mu_0=0$이라는 귀무가설은 이후에 나올 회귀 분석에서 더욱 중요해진다. 이 귀무가설은 회귀 모형의 독립 변수가 잘못 선택되었다는 가설이기 때문에 매우 중요하다. 따라서 회귀 분석을 해 주는 거의 모든 프로그램이 회귀 모형 추정에 자동적으로 t 값을 계산하여 제공하고 있다. (위 프로그램 실행 화면에서는 위치모수 검정 part에 해당)
 
우리가 추정한 식 $X_i=\mu+ \varepsilon _i$에서 모르는 모수는 $\mu$ 하나이다. 이렇게 모르는 모수가 하나일 때 우리는 이러한 모형을 "평균 회귀 모형(Mean Regression Model)"이라고 칭한다. 이후에 배울 회귀 모형은 모르는 모수가 2개인 "단순 회귀 모형(Simple Regression Model)"인데 이 모형에는 절편(intercept) $α$와 기울기(slope) $β$, 2개의 모수가 있다. 이 둘 중에서 특히 $β=0$이라는 귀무가설은 매우 중요하여 귀무가설 $α=0$와 함께 귀무가설을 손쉽게 검정할 수 있도록 't 값'을 항상 계산하여 회귀 분석 결과로 제공하고 있다.
(단순 회귀 모형에 대한 설명은 https://bing-su-b.tistory.com/110을 참고해 주세요.)

[ $\mu_0=0$ 가설 검정 및 필요한 가정들 ]

$X_i=\mu+ \varepsilon _i$는 slope $β=0$인 회귀 모형이라고 가정하면 절편 $α=\mu$만 있는 모형이라고 할 수 있다. 이 경우에 SAS가 제공하는 회귀 분석 결과는 아래와 같이 표기할 수 있다.

  Estimate
(추정치)
Standard Error
(표준오차)
t value
(t 값)
Pr > | t |
(p 값)
평균($\bar{X}$) 0.9992 0.10337 9.666 <0.0001
필요한 가정

: $μ$의 추정치$=\bar{X}$: 가정할 필요가 없음.
: $\bar{X}$의 분산$=\frac{\sigma^2}{n} $ / $\bar{X}$의 표준 오차$=\sqrt{\frac{\sigma^2}{n} }$
- 고전적 가정(Classical Assumption) 2: $E( \varepsilon _i)=0$
- 고전적 가정(Classical Assumption) 3: $E(\varepsilon_i  \varepsilon_j)=0$ for $i \neq j$, $E( \varepsilon_i\varepsilon_j)=\sigma^2 $ for $i=j$
: t value$=\frac{\bar{X}}{ \sqrt{ \frac{s^2}{n} } } $: CA 2 and 3 + $ \varepsilon _i \sim N(0, \sigma^2)$
: $Pr>|t|$ $Prob[|t|>9.666]<0.0001$: CA 2 and 3 + $\varepsilon_i \sim N(0, \sigma^2)$

[ p value(p 값)의 의미 ]

통계적 가설 검정에서 p 값은 유의 확률이라고도 한다. 이는 귀무가설이 맞다고 가정할 때 얻은 결과보다 크거나 같은 값을 얻을 수 있는 확률을 의미한다. 즉, 위의 표에서 P 값<0.0001은 귀무가설 $\mu_0=0$가 맞는데도 불구하고 $|t|=| \frac{\bar{X}}{ \sqrt{ \frac{s^2}{n}}}|$를 구하면 $|t|$ 값이 9.666보다 클 확률은 0.0001보다도 작다는 것이다.
 
신뢰 수준이 95% 일 때의 t Test에서 critical value로 사용하는 1.98을 예로 들어 보자. $|t|=| \frac{\bar{X}}{ \sqrt{ \frac{s^2}{n}}}|=1.98$이라면, P 값은 0.05가 될 것이다. 즉, 귀무가설이 맞는데도 불구하고 $|t|$ 값이 1.98보다 클 확률은 95% 신뢰 구간에 사용되는 critical value보다 클 확률인 5%(0.05)가 될 것이다.

[ t 값 / p 값 최종 정리 ]

신뢰 수준이 95%라고 가정한다.

- t 값으로 귀무가설 검정

  • | t | > 1.98: 귀무가설 기각
  • | t | < 1.98: 귀무가설 기각 불가

- P 값으로 귀무가설 검정(Pr > | t |)

  • P < 0.05: 귀무가설 기각
  • P > 0.05: 귀무가설 기각 불가

표본 크기(엄밀하게는 자유도)가 120개 미만이라 t Test의 critical value 1.98을 사용하지 못할 수 있다. 이러한 경우에는 critical value를 직접 찾아봐야 하는 불편을 줄이기 위해서 t 값 대신에 P 값을 사용하는 것이 좋다. 왜냐하면 SAS는 표본의 크기에 맞춰 P 값을 계산해 주기 때문이다.

귀무가설 기각역

파란색 그래프는 $N(0, 1)$을 따르는 표준 정규 분포를 나타낸 것이며, 빨간색 그래프는 자유도가 3인 t 분포를 나타낸 것이다. 자유도가 높을수록 t 분포는 표준 정규 분포에 근사한다. 즉, 자유도가 낮으면 표준 정규 분포보다 두꺼운 꼬리를 가지게 되므로 기각역이 될 수 있는 t 값과 z 값의 지점이 달라질 수 있다.
 
위의 그림은 신뢰 수준이 95% 일 때의 기각역을 나타낸 것이다. 표준 정규 분포의 경우에는 $|z|>1.96$일 때 귀무가설이 기각될 수 있으므로 기각역은 파란색 음영과 같이 표시된다. 자유도가 3인 t 분포의 경우에는 아래의 t 분포표와 같이 $|t|>3.182$일 때 귀무가설이 기각될 수 있으므로 기각역은 빨간색 음영과 같이 표시된다. 즉, 빨간색 음영 표시 자체는 귀무가설이 맞다고 가정했을 때 얻은 결과보다 크거나 같은 값을 얻을 수 있는 확률, 즉, P value의 영역을 표시한 것이라고 할 수 있다.

t 분포표 일부

반응형
LIST

관련글 더보기

댓글 영역