7. 카이제곱 검정 : 적합도 검정 (Pearson의 카이제곱 검정) Goodness of fit test 예제.

2021년 07월 06일 by Coco___
728x90
반응형

1. 카이제곱 검정


 

카이 제곱 검정은, 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검증하는 통계 검정 방법이다. 

주로 범주형 자료로 구성된 데이터 분석에 이용된다. 핵심은 두 범주형 변수가 서로 상관이 있는 지 혹은 독립 관계인지 이다.  참고로 범주형 자료는 categorical data 로, 월 소득 100만원 미만, 이상 등 구간에 대한 자료를 의미한다. 

 

카이제곱 검정의 형태는 다음과 같다. 

 

1. Goodness of fit test : 적합도 검정.  (Pearson의 카이제곱 검정)

적합도 검정이란, 어떤 모집단의 표본이 그 모집단을 대표할 수 있는 지 검정하는 방법으로, 관찰 된 비율 값이 기대값과 같은지 여부를 검정하는 방법이다. 변수는 1개 이다. 

 

2. Test of homogeneity : 동질성 검정.

동질성 검정이란, 두 집단의 분포가 동일한지 검정하는 방법이다.

 

3. Test for independence : 독립성 검정. 

동립성 검정은 두 개 이상의 변수가 독립인지 검정하는 방법이다. 즉, 각 표본들이 관찰 값에 영향을 주는지 여부를 검정하는 방법이다. 

 

 

 

[이론] 카이제곱 검정(Chi-Squared .. : 네이버블로그 (naver.com)

 


2. 적합도 검정. (Pearson의 카이제곱 검정)

간단한 예시를 통해서 적합도 검정에 대해 알아보자. 참고한 홈페이지는 statistics Knowledge 포털을 참고했다. 

 

2.1 적합도 검정 조건

  • 범주형 변수 값의 갯수를 알 때 (단순 랜덤 표본에 해당하는 값이어야 함)
  • 범주형, 명목형, 연속형 데이터에는 적합하지 않음. 
  • 관측된 각 데이터 범주에서 최소 5개의 값이 기대될 정도의 사이즈. 

 

2.2 적합도 검정 예제. 


 

랜던 표본으로 10개의 사탕을 수집했다. 각 봉지에 5가지 맛과 100개의 사탕이 들어있다. 

가설은 봉지마다 담긴 다섯 가지 맛의 비율이 동일하다. 

 

2.2.1 적합도 검정 조건 Check 

  • 범주형 변수 값의 갯수를 알 때 (단순 랜덤 표본에 해당하는 값이어야 함) -> 캔디는 10봉지이다.
  • 범주형, 명목형, 연속형 데이터에는 적합하지 않음.  -> 범주형 변수 = 캔디의 맛. 맛별 개수는 5가지.
  • 관측된 각 데이터 범주에서 최소 5개의 값이 기대될 정도의 사이즈.  => 맛 별 캔디수는 200으로 5보다 큼. 

 

실제 값은 다음과 같이 나왔다고 가정하자. 

 

2.2.2 카이제곱 검정 값 구하기. 

 

다음 위 식을 사용하여 카이제곱 검정 값을 구해주자. 

위 식에서 우리는 관측값 - 기대값의 제곱값을 기대값으로 나누고 모두 더해 준 값이 카이제곱 검정 값임을 확인할 수 있다. 즉 하나하나 구해보면 하기 식의 값과 같다. 

 

차이제곱 / 기대값의 총 합이 카이제곱 검정값이 되므로, 

 

카이제곱 검정 값 = 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 이다. 

 

 

2.2.3 카이제곱 검정 판단 하기. 

 

신뢰수준을 5%라고 하면 유의 수준은 0.05가 나온다. 

검정 통계량은 52.75이고, 자유도는 5-1=4 가 나온다. 

0.05 유의수준 에서의 자유도 4인 카이제곱값은 9.488이므로, 우리가 구한 값이 더 크다. 

즉, 귀무가설을 기각 할 수 있다. 

 

52.75 > 9.488

 

 

그래프를 이용해서 이해해 보자면, 다음 그림이 바로 자유도가 4일 때의 카이제곱 그래프이다. 

우리가 정한 유의수준 0.05, 자유도 4에서의 카이제곱 함수는 9.488이며 이는 오직 5%의 데이터만이 오른쪽 꼬리 영역에 속하는 데이터임을 확인할 수 있다. 우리가 구한 검정 통계량은 무려 52.75 이므로 이는 임계값보다는 극단값에 훨씬 가깝다는 사실을 확인할 수 있다. 

 

그림에서 파란 색 부분이 기각역 영역이라고 생각하면 된다. 따라서 각 봉지마다 담긴 캔디 수는 동일하지 않다. 

 

 

 

보통 P 값으로 소프트웨어에서 검정 결과가 나오는 데, 이 데이터를 이용해서 보면, P-값은 P < 0.0001이 나오게 된다. 이를 다시 해석하면, 귀무가설이 맞다고 가정할 때 다른 10봉지 표본에서 검정 통계량보다 더 극단값을 보일 확률은 10000분의 1보다 낮다는 의미로 해석할 수 있다. 즉 귀무가설은 기각된다. 

728x90
반응형