[통계적 추론] 1. 추정 - 점추정
통계학ㅤ/ㅤ추론(Inference)

[통계적 추론] 1. 추정 - 점추정

 

 

점추정(Point Estimation)

Idea: 표본을 이용하여 모수(parameter)의 참 값일거라는 하나의 값을 결정하는 방식이다.

 

 

1. 용어

점추정에서 나오는 주요 단어는 추정량, 추정값이 있다.

  • 모수(paratmeter)란? θ로 표기하며 모집단의 특성을 담는 상수이다.
  • 추정량(Estimator)이란? Θ^로 표기하며 모수(θ)를 추정하기 위해 이용되는 통계량이다. 즉 확률변수이며 함수다.
  • 추정값(Estimate)이란? θ^로 표기하며 추출된 특정 표본에 의해 계산된 추정량Θ^의 특정 값이다. 따라서 표본을 추출할때마다 달라진다.

 

즉, 우리가 알지 못하는 미지의 집단인 모집단을 알아보고 싶을 때(=모집단의 성질을 담고 있는 모수를 알고자 할 때), 추정량(알고리즘, 자판기, 함수)을 이용하여 추정값(output, 캔음료, 결과값)을 뽑아내어 모수를 추정하는 것이다.

따라서 적절한 추정량이란 무엇인가에 대한 이론이 나오게 되며, 적절한 추정량을 이용하여 결과값인 추정값을 구할 수 있게 된다. 

 

<참고> 표기 관련

이 파트에서는 표기를 들쭉날쭉하게 사용하는 경향이 있어 헷갈리기 쉽다.
추정량(통계량)은 대문자 Θ로 써야하며, 특정 값인 추정값은 소문자 θ로 써야하지만 혼용하곤 한다.
예를 들어, 추정량 Θ^는 (X1,X2,...,Xn)의 함수로 Θ^=Θ^(X1,X2,...,Xn)처럼 표기하는 게 덜 헷갈리지만, 대문자가 귀찮아서(??) 통계량과 통계치를 구분지을 필요가 없어서(???) 많은 교재에서 소문자로 쓰곤 한다. (notation이 명확해야 덜 헷갈려하는 나한테는 참 싫은...ㅠㅠ)

결론적으로,
추정량을 나타낼 때는 θ^=θ^(X1,X2,...,Xn)로, 추정값을 나타낼 때는 θ^=θ^(x1,x2,...,xn)로 구분한다.
하지만 주로 추정량을 구하는 문제이므로 문맥으로 대충... 알아채면 된다.

 

2. 추정량 Θ^

추정량 Θ^은 확률변수이므로 확률분포가 존재한다는 점이 중요하다. 이 점 때문에 활용도가 무궁무진해진다.

  • Θ^의 평균: E(Θ^)
  • Θ^의 표준편차를 추정량Θ^표준오차(Standard Error)라고 한다.
  • 어떠한 추정량을 사용하는게 좋을지에 대한 방법으로는 불편성, 일치성, 효율성, 충분성을 고려하며, MSE를 살펴보기도 한다.

 

2-1. 평균제곱오차(MSE)

Idea: 모수와 가까울수록 좋은 추정량일 것이다. 따라서 추정량의 기댓값이 모수와 가까운지, 분산이 작은지를 살펴보아 어떤 추정량이 좋은지 결정하자.

Definition: 

E[(θ^θ)2]를 추정량Θ^의 평균제곱오차(MSE)라고 한다.

표기는 MSE(Θ^)라고 한다.

 

식을 유도해보면,

MSE(Θ^)=E[(θ^θ)2]=E[(θ^μ+μθ)2]=E[(θ^μ)2]+2E[(θ^μ)(μθ)]+E[(μθ)2]=E[(θ^μ)2]+2(μθ)E[θ^μ]+(μθ)2μ,θareconstant=E[(θ^μ)2]+(μθ)2E(θ^)=μE[θ^μ]=0=Var(Θ^)+[Bias(Θ^)]2Bias(Θ^)=E(θ^)θ=μθ

 

즉, MSE는 1)추정량의 분산과 2)편향(bias)의 제곱으로 이루어져 있다. 

 

 

2-2. 바람직한 추정량의 성질

(1) 불편성(Unbiasedness)

 

(2) 일치성(Consistency)

 

(3) 효율성(Efficiency)

 

(4) 충분성(Sufficiency)

 

 

 

나아가 추정량은 확률변수이기 때문에 추정값θ^은 모수와 일치하는 경우는 거의 없다.

 

 

 

 

 

 

점추정의 주요 방법론으로는 1)적률법, 2)최대가능도추정법이 있다.