다섯 번째 실습으로는 평균 회귀 모형에서 기초 통계량(평균, 표준편차, 분산 등)을 추출하는 프로그램을 작성했을 뿐만 아니라 그 결과를 통해 가설 검정을 해 봤다. 이번 게시물에서는 프로그램 해석을 위하여 필요한 통계 개념을 짚고 넘어가려고 한다.
그전에 평균 회귀 모형과 t 분포에 대한 설명/아래의 프로그램에 대한 로직 설명이 필요하다면 이전 게시물(https://bing-su-b.tistory.com/107)을 보고 오도록 합시다. (꼭 보고 오셔야 이해를 할 수 있습니다 !!)
DATA xbar;
n=120; /* 표본 크기: 120 */
seed=1234; /* seed 값을 1234로 지정 */
mu=1.0; /* true mean 값 지정 */
DO i=1 TO n;
e=RANNOR(seed); /* 표준 정규 분포를 따르는 변량을 무작위로 생성 */
x=mu+e; /* Xi=μ+εi */
OUTPUT; /* DO Loop 내부의 변수 값들을 모두 기억 */
END;
RUN;
PROC UNIVARIATE DATA=xbar;
VAR x; /* x 변수에 대한 통계 데이터 분석 */
RUN;
위 프로그램을 실행하여 통계량을 출력하면 아래와 같다. (개념 설명 시 아래 통계 결과가 사용될 예정)
신뢰 구간을 구하기 전, 해당 프로그램에서 분석된 데이터를 정리해 보자.
신뢰 수준 95%에서의 해당 분포의 신뢰 구간은 아래와 같이 표현된다.
Prob[ˉX−1.98√s2n<μ0<ˉX+1.98√s2n]=0.95Prob[¯X−1.98√s2n<μ0<¯X+1.98√s2n]=0.95
이 신뢰 구간을 통해 세 가지의 귀무가설 μ0=0.7,1.0,1.3μ0=0.7,1.0,1.3을 검증해 보자.
먼저 해당 프로그램을 통해 분석된 데이터를 이용하여 신뢰 수준 95%에서의 신뢰 구간을 구하면 아래와 같다.
[(0.9992−1.98×0.103369),(0.9992+1.98×0.103369)]=[0.79453,1.20387][(0.9992−1.98×0.103369),(0.9992+1.98×0.103369)]=[0.79453,1.20387]
이를 통해 μ0=1.0μ0=1.0은 신뢰 구간 안에 속하므로 채택되어야 하는 가설이고, 나머지 두 가설(μ0=0.7,1.3μ0=0.7,1.3)은 신뢰 구간 안에 속하지 않으므로 기각되어야 하는 가설이 된다.
t=ˉX−μ√s2n∼tvt=¯X−μ√s2n∼tv (when μ0=μμ0=μ)이다.
95%의 신뢰 수준에서 Prob[−1.98<ˉX−μ0√s2n<1.98]=0.95Prob[−1.98<¯X−μ0√s2n<1.98]=0.95가 된다. 이는 특정 귀무가설은 ˉX−μ0√s2n¯X−μ0√s2n 값이 1.98보다 크거나, -1.98보다 작으면 귀무가설 μ0μ0를 기각해야 한다는 것을 의미한다. 즉, |ˉX−μ0√s2n|=|tvalue|>1.98|¯X−μ0√s2n|=|tvalue|>1.98이면 μ0μ0를 기각한다. |t||t|가 1.98보다 크면 "평균 회귀 모형"의 모수(μ)(μ)는 "통계적으로 유의하다(statistically significant)"라고 한다.
위의 SAS 예제에서 얻은 값을 사용하면, 귀무가설 μ0=0μ0=0에 대한 |t||t| value는 |t|=|0.99920.103369|=9.666|t|=|0.99920.103369|=9.666이다. 이는 5% 유의 수준 임계치(critical value)인 1.98보다 훨씬 큰 값이기 때문에 귀무가설 μ0=0μ0=0은 강하게 기각된다고 할 수 있다.
μ0=0μ0=0이라는 귀무가설은 이후에 나올 회귀 분석에서 더욱 중요해진다. 이 귀무가설은 회귀 모형의 독립 변수가 잘못 선택되었다는 가설이기 때문에 매우 중요하다. 따라서 회귀 분석을 해 주는 거의 모든 프로그램이 회귀 모형 추정에 자동적으로 t 값을 계산하여 제공하고 있다. (위 프로그램 실행 화면에서는 위치모수 검정 part에 해당)
우리가 추정한 식 Xi=μ+εiXi=μ+εi에서 모르는 모수는 μμ 하나이다. 이렇게 모르는 모수가 하나일 때 우리는 이러한 모형을 "평균 회귀 모형(Mean Regression Model)"이라고 칭한다. 이후에 배울 회귀 모형은 모르는 모수가 2개인 "단순 회귀 모형(Simple Regression Model)"인데 이 모형에는 절편(intercept) αα와 기울기(slope) ββ, 2개의 모수가 있다. 이 둘 중에서 특히 β=0β=0이라는 귀무가설은 매우 중요하여 귀무가설 α=0α=0와 함께 귀무가설을 손쉽게 검정할 수 있도록 't 값'을 항상 계산하여 회귀 분석 결과로 제공하고 있다.
(단순 회귀 모형에 대한 설명은 https://bing-su-b.tistory.com/110을 참고해 주세요.)
Xi=μ+εiXi=μ+εi는 slope β=0β=0인 회귀 모형이라고 가정하면 절편 α=μα=μ만 있는 모형이라고 할 수 있다. 이 경우에 SAS가 제공하는 회귀 분석 결과는 아래와 같이 표기할 수 있다.
Estimate (추정치) |
Standard Error (표준오차) |
t value (t 값) |
Pr > | t | (p 값) |
|
평균(ˉX¯X) | 0.9992 | 0.10337 | 9.666 | <0.0001 |
필요한 가정 | ① | ② | ③ | ④ |
①: μμ의 추정치=ˉX=¯X: 가정할 필요가 없음.
②: ˉX¯X의 분산=σ2n=σ2n / ˉX¯X의 표준 오차=√σ2n=√σ2n
- 고전적 가정(Classical Assumption) 2: E(εi)=0E(εi)=0
- 고전적 가정(Classical Assumption) 3: E(εiεj)=0E(εiεj)=0 for i≠ji≠j, E(εiεj)=σ2E(εiεj)=σ2 for i=ji=j
③: t value=ˉX√s2n=¯X√s2n: CA 2 and 3 + εi∼N(0,σ2)εi∼N(0,σ2)
④: Pr>|t|Pr>|t| Prob[|t|>9.666]<0.0001Prob[|t|>9.666]<0.0001: CA 2 and 3 + εi∼N(0,σ2)εi∼N(0,σ2)
통계적 가설 검정에서 p 값은 유의 확률이라고도 한다. 이는 귀무가설이 맞다고 가정할 때 얻은 결과보다 크거나 같은 값을 얻을 수 있는 확률을 의미한다. 즉, 위의 표에서 P 값<0.0001은 귀무가설 μ0=0μ0=0가 맞는데도 불구하고 |t|=|ˉX√s2n||t|=|¯X√s2n|를 구하면 |t||t| 값이 9.666보다 클 확률은 0.0001보다도 작다는 것이다.
신뢰 수준이 95% 일 때의 t Test에서 critical value로 사용하는 1.98을 예로 들어 보자. |t|=|ˉX√s2n|=1.98|t|=|¯X√s2n|=1.98이라면, P 값은 0.05가 될 것이다. 즉, 귀무가설이 맞는데도 불구하고 |t||t| 값이 1.98보다 클 확률은 95% 신뢰 구간에 사용되는 critical value보다 클 확률인 5%(0.05)가 될 것이다.
신뢰 수준이 95%라고 가정한다.
표본 크기(엄밀하게는 자유도)가 120개 미만이라 t Test의 critical value 1.98을 사용하지 못할 수 있다. 이러한 경우에는 critical value를 직접 찾아봐야 하는 불편을 줄이기 위해서 t 값 대신에 P 값을 사용하는 것이 좋다. 왜냐하면 SAS는 표본의 크기에 맞춰 P 값을 계산해 주기 때문이다.
파란색 그래프는 N(0,1)N(0,1)을 따르는 표준 정규 분포를 나타낸 것이며, 빨간색 그래프는 자유도가 3인 t 분포를 나타낸 것이다. 자유도가 높을수록 t 분포는 표준 정규 분포에 근사한다. 즉, 자유도가 낮으면 표준 정규 분포보다 두꺼운 꼬리를 가지게 되므로 기각역이 될 수 있는 t 값과 z 값의 지점이 달라질 수 있다.
위의 그림은 신뢰 수준이 95% 일 때의 기각역을 나타낸 것이다. 표준 정규 분포의 경우에는 |z|>1.96|z|>1.96일 때 귀무가설이 기각될 수 있으므로 기각역은 파란색 음영과 같이 표시된다. 자유도가 3인 t 분포의 경우에는 아래의 t 분포표와 같이 |t|>3.182|t|>3.182일 때 귀무가설이 기각될 수 있으므로 기각역은 빨간색 음영과 같이 표시된다. 즉, 빨간색 음영 표시 자체는 귀무가설이 맞다고 가정했을 때 얻은 결과보다 크거나 같은 값을 얻을 수 있는 확률, 즉, P value의 영역을 표시한 것이라고 할 수 있다.
[ SAS ] - 단순 회귀 모형을 분석하는 프로그램 작성 (1) (1) | 2023.04.22 |
---|---|
[ SAS ] - 실제 Data를 사용한 평균 회귀 모형을 분석하는 프로그램 작성 + FRED site에서 실제 DATA FILE 다운로드 (0) | 2023.04.21 |
[ SAS ] - 정규 분포에서 기초 통계량을 추출하는 프로그램 작성 (0) | 2023.04.15 |
[ SAS ] - 이산 확률 분포에서의 확률을 구하는 프로그램 작성 (0) | 2023.04.07 |
[ SAS ] - 베르누이 분포에서 데이터를 생성하고 표본 평균(xbar)을 구하는 프로그램 작성 (0) | 2023.03.31 |
댓글 영역