본문 바로가기

옛날 노트

계량경제학의 기초적 이해를 위한 노트

요즘 블로그에 글을 자주 안올리는 것 같아서, 과거에 쓰고 워드로만 저장해둔 글들을 가끔씩 블로그에 올리려고 한다. 이 글은 최근에 계량경제학의 기초적인 내용들을 설명할 기회가 생겨서, 몇년전에 썼던 글을 일부 수정한 것이다. 2017년 1월 22일에 쓰여졌다.


* * * * *


1. 통계학과 계량경제학


사전을 찾아보면, 통계학에 대한 정의는 이렇게 기술되어 있다. “Statistics is the study of the collection, analysis, interpretation, presentation, and organization of data.” 즉 통계학은 데이터에 대한 수집과, 분석, 해석, 표현, 그리고 조직화를 연구하는 학문이다. 이러한 설명은 흔히 통계학에 대한 사람들의 일반적인 생각과는 다소 거리가 있다. 다시 말해서 통계학은 단순히 데이터에 대한 평균과 편차를 구하는 것을 의미하지 않는 것이다. 이러한 통계학을 이르러 ‘기술통계학(Descriptive statistics)’이라고 부른다. 평균과 편차 등의 데이터의 특성을 요약적으로 기술하는 것이다. 반면에 데이터의 특성을 통해서 모집단의 특성, 즉 모수(parameter)를 해석하는 것을 이르러 ‘추론통계학(inferential statistics)’이라고 부른다. 우리는 특히 후자의 내용을 중심으로 다루게 될 것이다.


그렇다면, 계량경제학은 무엇일까. 계량경제학은 영어로, econometrics로, 경제학을 의미하는 economics에 통계를 의미하는 metrics를 더한 합성이다. 뉴팔그레이브 경제학사전을 보면, 계량경제학은 다음과 같이 정의되어 있다. “Econometrics is the application of mathematics, statistical methods, and computer science to economic data and is described as the branch of economics that aims to give empirical content to economic relations.” 즉 계량경제학은 수학, 통계학, 컴퓨터과학을 경제 데이터에 응용하여, 경제적 관계에 경험적 내용을 서술하기 위한 경제학의 학 분야이다. 따라서 통계학의 일부를 응용하여 사용하는 경제학의 한 분과라고 할 수 있다. 때문에 계량경제학에서 사용하는 통계모형들은 한편으로는 기존에 존재하던 통계이론을 경제학에 적용하기도 하지만, 또 동시에 독자적으로 발전하여 경제학 내에서 주로 사용되는 모형들도 존재한다.


흔히 계량경제학은 사람들에게 잘 알려져 있지 않지만, 경제학에 있어서는 가장 중요한 분야 중에 하나이다. 일례로 제1대 노벨경제학상을 수상한 인물은 Frisch와 Tinbergen으로 대표적인 계량경제학자들이고, 그 이후에도 Klein, Schultz, Haavelmo, Sims 등 많은 사람들이 계량경제학에서의 공로로 노벨상을 수상하였다. 그렇다면 계량경제학에서의 주로 어떤 것을 연구하는 것일까. 계량경제학의 역사를 통틀어서 계량경제학이 관심을 갖는 주된 질문은 변수와 변수 사이의 인과관계를 밝히는 것이다. 특히 데이터 상에서 여러 변수들 간에는 상관관계를 가지고 있는데, 이때 상관관계 중에서 인과관계를 추출해내는 것이 핵심이다. 회귀분석(regression analysis)은 변수와 변수 사이의 인과관계를 분석하기 위해 계량경제학에서 널리 사용하는 통계적 기법 중 하나로, 앞으로 있을 대부분의 논의는 이 회귀분석에 대한 것이다. 


2. 확률이론의 기본적 개념들


(1) 자료(data)

Cross-sectional data,

Time-series data

Pooled cross-sectional data

Panel data


(2) 확률(probability)


확률은 특정한 사건(Event)가 발생할 가능성을 나타내는 비율로서, 0과 1사이에 위치한 값이다. A라는 사건이 일어날 확률은 50%이다 라는 것은 다음과 같이 표기할 수 있다(이러한 확률분포는 베르누이 분포라고 한다). 


P(A)=0.5


한편 조건부 확률은 다음과 같이 표기할 수 있다.


P(A│B)=(P(A)∩P(B))/(P(B))



(3) 확률분포(probability distribution)와 그 특성(moments)

 

확률분포는 실험에서 어떠한 사건이 발생할 확률을 나타내는 수학적 함수이다. 그리고 그러한 확률분포의 특성을 모멘트(moment)라고 이르며, 1차 모멘트부터, 2차, 3차 등의 모멘트가 존재한다. 1차 모멘트는 평균(또는 기대값; mean, expectation)이고, 2차는 분산(variance), 3차는 왜도(skewness)라고 부른다. 우리는 평균과 분산을 주로 활용할 것이다. 예를 들어, 정규분포(normal distribution)은 평균이 0이고, 분산은 σ^2으로 다음과 같이 표기한다.


Normal distribution ~ N(0,σ^2)


Mean(X)=E(X)=x ̅=(x_1+x_2+···x_n)/n=Σ(x_i )/n

Variance(X)=Var(X)=(Σ(x ̅-x_i )^2)/n=Cov(X,X)


Cf. 공분산(covariance)과 표준편차(standard deviation)


Cov(X,Y)=Σ(x ̅-x_i )Σ(y ̅-y_i )/n

SD=√((Σ(x ̅-x_i )^2)/(n-k))=√(σ^2 )=σ


(4) 자유도(degree of freedom)


자유도는 ‘독립적으로 결정되는 표본의 수’를 의미한다. 즉 표본의 수(n)에서 추정계수의 수(k)를 뺀 값과 같다. 우리가 평균을 구할 때 n으로 나누는 것은 독립적으로 결정되는 표본의 수가 n이기 때문이다. 하지만 표본의 분산을 구할 때 독립적으로 결정되는 표본의 수는 n이 아니라 n-1인데, 그 이유는 분산을 구할 때 이용되는 평균(μ)이 독립적으로 결정되는 것이 아니라, 주어진 수식에 의해서 결정되기 때문이다. 따라서 자유도는 1이 작은 n-1이다. 


(5) 다양한 확률분포


정규분포(Normal Distribution)

X~Nomal(μ,σ^2), for a single such quantity; the most common continuous distribution


표준정규분포(Standardized Normal Distribution)

X~Z(0,1)


이산균등분포(Discrete Uniform Distribution)

X~Uniform((a+b)/2,(n^2-1)/12), for a finite set of values (e.g. the outcome of a fair die)


이항분포(Binomial Distribution)

X~Binomial(n,p), for the number of "positive occurrences" (e.g. successes, yes votes, etc.) given a fixed total number of independent occurrences


지수분포(Exponential Distribution)

X~Exponential(λ^(-1),λ^(-2)), for the time before the next Poisson-type event occurs


카이제곱분포(Chi-square Distribution)

X~X^2 (k,2k), for inference regarding the sample variance of normally distributed samples


t-분포(Student's t-distribution)

X~Student^' s t(0,v/(v-2)), the distribution of the ratio of a standard normal variable and the square root of a scaled chi squared variable; useful for inference regarding the mean of normally distributed samples with unknown variance


F-분포(F-distribution)

the distribution of the ratio of two scaled chi squared variables; useful e.g. for inferences that involve comparing variances or involving R-squared


(6) 중심극한정리(Central Limit theorem)


중심극한정리는 주어진 조건 하에서 독립적인 임의변수의 수가 충분히 크면 임의변수의 분포가 정규분포에 가까워진다는 것이다. 즉 다음과 같이 표현할 수 있다. 


X_i --> X ~ N(0, sigma^2)



3. 회귀분석이란?

 

회귀분석(regression analysis)은 19세기 초반에 등장하였는데, 그 어원은 유전학에서 기원한다. 아들의 키는 아버지의 키로 ‘회귀(regression)’한다는 생각에서 출발한 것이다. 과거로 돌아간다는 의미는 더 이상 유효하지 않지만, 오늘날 회귀분석은 관찰된 두 변수 사이의 적합도를 확인하는 방법으로 변수와 변수 사이의 인과관계를 확인하고 그 양적 정도를 계산하는데 사용한다.


(1) 회귀식의 기본적인 형태와 용어법


y_i=α+βx_i+ε_i

y_i=α+β_1 x_i1+β_2 x_i2+ ··· +β_n x_in+ε_i  ↔  Y_i=α+βX_i+ε_i

y ̂_i=α ̂+β ̂x ··· ε ̂_i


단, y_i= y ̂_i+ε ̂_i 이지만, ε_i은 ε ̂_i와 같지 않다.


(2) 선형회귀모형(Linear Regression model)의 가정: 최소자승법(Ordinary Least Sqaure)


선형성(linearity): i.e. y_i=βx_i+ε_i

선형독립성(full rank): i.e. matrix X_(n*K)  with rank K

외생성(exogeneity): i.e. E(ε_i | x_1,x_2,···,x_i)=0

동분산성(homoscedasticity): i.e. Var(ε_i )=σ^2  /  Cov(ε_i,ε_j )=0

정규성(normality): i.e. ε_i |X_i  ~ N(o,σ^2 I)


단, 마지막 정규성 가정은 회귀분석을 실행하는데 있어서는 불필요하다. 이 가정은 추정결과를 해석(inference)하기 위해 필요한 가정이다.


(3) 추정식의 특성


불편의성(Unbiasedness)

일관성(Consistency)

효율성(Efficiency)


--> BLUE(Best Linear Unbiased Estimator)


4. 참고문헌


Cassella, George; Berger, R. L. (2002). Statistical Inference (2nd ed.). Thomson Learning. 

Durlauf, Steven N.; Blume, Lawrence E. (2008). The New Palgrave Dictionary of Economics (2nd ed.). Palgrave Macmillan

Greene, W. H. (2012). Econometric Analysis (7th ed.). Pearson.