본문 바로가기

그냥 노트

최소자승법의 다섯가지 가정



교과서에 있는 내용들이지만, 요즘 모 단체에서 기초계량경제학을 강의하면서 정리한 내용들을 그냥 보관하고 있기 아쉬워서 이따금씩 그 내용들을 글로 써보려고 한다. 강의할 때에는 특별히 강의록을 써서 하고 있지 않기 때문에 사실 상 글을 새로 써야하기는 한다. 때문에 가끔씩만 쓰게 될 것이다.


고전적 회귀분석 모형인 최소자승법(Ordinary Least Square)에는 다섯가지 가정이 존재한다. 그 중에 마지막 가정을 제외한 네 가지 가정은 가우스-마코브 가정이라고 불리기도 한다.


1. 선형성(linearity): $i.e.$ $y_i=\beta x_i+u_i$


선형성 가정은 기본적으로 파라미터의 선형성을 일컫는 것이다. 따라서 변수는 선형일 필요는 없다. 파라미터가 선형임이 보장되지 않는다면, 기본적으로 추정계수 자체가 성립되지 않을 것이다. 회귀선의 기울기를 의미하는 추정계수가 일정하지 않기 때문에 당연히도 ‘선형회귀분석’이 아니다. 한편 선형회귀분석에서도 변수는 종종 비선형적인 경우를 가정하기도 한다. 교차항을 추가하기도 하고, 제곱형태의 변수를 추가하기도 한다. 변수의 비선형적인 효과를 확인하기 위함이다.


2. 선형독립성(full rank): $i.e.$ $X_{n*K}$ $with$ $rank$ $K$


선형독립성은 변수의 수와 추정계수의 수가 일치함을 의미한다. 수학적으로 미지수의 개수와 방정식의 개수가 일치하여 유일해가 도출되는 것과 유사하다. 물론 같은 것이 아니라, 비유하자면 그렇다는 것이다. 따라서 일치하지 않을 경우 완전공선성(perfect collinearity)이 나타날 수 있다. 완전공선성은 특정한 변수와 다른 변수의 선형결합일 경우 나타나는데, 이 경우 추정계수를 얻을 수 없다. 보다 문제인 것은 다중공선성(multicollinearity)이다. 이는 변수와 변수가 완전히 선형결합되어 있는 것은 아니고, 강한 상관관계가 나타나는 경우이다. 이 경우 추정계수를 얻을 수는 있기 때문에 문제를 인식하지 못할 수 있다. 공선성 문제는 분산팽창요인(Variance Inflation Factor)을 구하여 확인할 수 있다. 10 이상인 경우 다중공선성을 의심하는데, 이는 명확한 척도는 아니다. 따라서 10 이상이어도 공선성 문제를 가지지 않을 수 있다.


3. 외생성(exogeneity): $i.e.$ $E(\varepsilon_i \mid x_1,x_2,...,x_i)=0$


외생성 가정은 회귀분석 실시에 있어서 가장 빈번하게 문제가 되는 가정이다. 많은 발전된 계량경제모형은 이 외생성을 치료하기 위한 것들이다. 외생성 가정 변수가 독립변수가 외생변수임을 가정하는 것인데, 즉 독립변수가 오차항과 상관관계가 없어야 한다. 또한 독립변수들 간에 상관관계가 있어도 안된다. 왜냐하면 이 경우에도 오차항과 독립변수가 상관관계를 가지기 때문이다. 외생성 가정이 만족되지 않을 경우, 추정된 계수값이 편의가 존재한다. 따라서 외생성 가정이 만족되지 않는 것은 빈번하면서도 치명적이다. 도구변수를 통해서 외생성을 치료하는 방법이 일반적이다.


4. 동분산성(homoscedasticity): $i.e.$ $Var(\varepsilon_i)=\sigma^2$ $;$ $Cov(\varepsilon_i,\varepsilon_j )=0$


동분산성(homoscedasticity) 가정은 잔차의 분산이 일정한 상수임을 가정하는 것이다. 즉, 분산이 일정한 상수로 동일해야 한다. 동분산성이 어긋나면 이분산성(heteroscedasticity)이 나타난다. 그러나 이분산성 문제는 상대적으로 중요한 문제는 아니다. 왜냐하면 이분산성이 어긋나도 추정계수는 불편추정치를 만족하기 때문이다. 그러나 이 경우 효율성은 만족하지 않는다. 이분산성을 치료하는 것은 상대적으로 간단하다. Generalized Least Square(GLS)가 그 방법이다. Weighted Least Square(WLS)는 GLS의 특수한 경우이다. 이는 오차항의 분산이 어떠한 함수를 갖는지를 알고서 그 함수를 회귀식의 양변에 나누는 방식이다. 그러나 여기서 주의할 점은 잔차와 오류항은 같지 않다는 것이다. 잔차는 어디까지나 추정식을 추정한 그 결과로 계산된 것인 반면, 오류항은 알 수 없는 미지의 것이기 때문이다. 때문에 오차항이 아니라 잔차를 이용하게 되고, 이 경우를 feasible Generalized Least Square(FGLS)라고 부른다. 그러나 오차항은 연구자가 알지 못하는 영역인데 알고 있다고 본다는 점에서 문제적일 수 있다.


5. 정규성(normality): $i.e.$ $\varepsilon_i\mid X_i ~ N(0,\sigma^2 I)$ 


정규성 가정은 잔차가 정규분포를 따른다는 가정이다. 그러나 이는 회귀분석을 실시할 때에는 반드시 필요한 것은 아니다. 정규성 가정은 단지 회귀분석의 결과를 해석할 때에 활용된다. 즉 잔차가 정규분포임이 만족된다면 t-검정을 실시하여 회귀분석 결과가 유의한 지 판별할 수 있기 때문이다. 만일 정규성이 만족되지 않는다면, 로그변환 등 functional form을 바꾸는 것을 통해서 정규성을 만족시킬 수 있다. 그러나 이 경우도 완전한 해답은 아니다. 왜냐하면 처음부터 회귀식 자체가 잘못 설정되었거나 데이터 자체가 잘못 되었을 수 있기 때문이다. 중심극한정리(Central Limit Theorem)을 주지해 볼 때, 데이터의 수가 너무 적기 때문일 수도 있다. 한편 최우추정법(Maximum Likelihood Estimation; MLE) 등 정규성 가정이 반드시 필요하지 않는 다른 추정전략을 세울 수도 있다.


'그냥 노트' 카테고리의 다른 글

일기  (0) 2017.03.07
후기: <내성적인 보스> 또는 <매치포인트>  (0) 2017.03.07
잡담: Woody Allen, <Manhattan>, 1979  (0) 2017.03.04
거시경제와 벡터자기회귀모형  (0) 2017.02.26
4-5년 전 기억  (1) 2017.02.21