9. 카이제곱 검정 : 독립성 검정 (교차 분석)

2021년 07월 08일 by Coco___

    9. 카이제곱 검정 : 독립성 검정 (교차 분석) 목차
728x90
반응형

카이제곱의 마지막 검정 방법인 독립성 검정이다. 두 범주형 변수가 있을 때 서로 연관성이 있는 지, 혹은 독립인지 검정하는 방법이다. 예를 들자면, 연령때에 따른 자동차 선호도가 유의미 한가를 판단할 때 사용한다. 

 

1. 카이제곱 독립성 검정 예제.

 

 

테이블 1: 영화 간식류 데이터에 대한 분할표

영화 장르 간식류 간식류 비구매
작업 50 75
코미디 125 175
가족 90 30
공포 45 10

카이제곱 독립성 검정 예제 | 통계 소개 | JMP

 

다음 예제를 통해 카이제곱 독립성 검정을 알아보자. 

 

 

2. 기대 개수 계산

각 영화-간식류 조합에 대한 기대 개수를 구하려면 먼저 아래 나온 행과 열 합계가 필요합니다.

테이블 2: 행 합계와 열 합계가 포함된 영화 간식류 데이터에 대한 분할표

 

(카이제곱 독립성 검정 예제 | 통계 소개 | JMP 를 참고하였습니다.)

영화 장르 간식류 간식류 비구매 행 총계
작업 50 75 125
코미디 125 175 300
가족 90 30 120
공포 45 10 55
열 총계 310 290 전체 합계 = 600

여기서 각 칸에 대한 기대 개수는 행*열/전체 로 구하면 된다. 

식을 대입해서 각각을 계산하면 다음과 같이 나온다. 

 

대략 반올림 하여 다음처럼 정리하였다. 

영화 장르 간식류 간식류 비구매 행 총계
작업 50
65
75
60
125
코미디 125
155
175
145
300
가족 90
62
30
58
120
공포 45
28
10
27
55
열 총계 310 290 전체 합계 = 600

 

 

 

3. 검정 통계량 계산

 

검정 통계량을 구할 때는 (기대값-실제값)^2 / 기대값 이라는 공식으로 구해 줄 수 있다. (카이제곱 검정 통계량 공식)

이렇게 적용해서 값을 구하면 다음과 같이 값이 나온 다는 것을 알 수 있다. 

 

영화 장르 간식류 간식류 비구매
작업 실제값: 50
기대값: 64.58
실제값: 75
기대값: 60.42
차이: 50 – 64.58 = -14.58

차이 제곱값: 212.67
기대값으로 나누기: 212.67/64.58 = 3.29
차이: 75 – 60.42 = 14.58

차이 제곱값: 212.67
기대값으로 나누기: 212.67/60.42 = 3.52
코미디 실제값: 125
기대값: 155
실제값: 175
기대값: 145
차이: 125 – 155 = -30

차이 제곱값: 900
기대값으로 나누기: 900/155 = 5.81
차이: 175 – 145 = 30

차이 제곱값: 900
기대값으로 나누기: 900/145 = 6.21
가족 실제값: 90
기대값: 62
실제값: 30
기대값: 58
차: 90 – 62 = 28

차이 제곱값: 784
기대값으로 나누기: 784/62 = 12.65
차이: 30 – 58 = -28

차이 제곱값: 784
기대값으로 나누기: 784/58 = 13.52
공포 실제값: 45
기대값: 28.42
실제값: 10
기대값: 26.58
차이: 45 – 28.42 = 16.58
차이 제곱값: 275.01
기대값으로 나누기: 275.01/28.42 = 9.68
차이: 10 – 26.58 = -16.58
차이 제곱값: 275.01
기대값으로 나누기: 275.01/26.58 = 10.35

 

이제 여기서 전체 검정 통계량을 구해준 다음 유의수준 내에서의 검정통계량과 비교하여 기각 여부를 판단하면 된다. 

 

검정 통계량 합은 65.03이 나온 다는 사실을 우리는 쉽게 확인할 수 있다. 

 

카이제곱, 독립성 검정에서의 자유도는 행,열 두가지에 의해 영향을 받는다. 

자유도 공식은 다음과 같다. df=(r−1)×(c−1) 여기서는 행,열이 4,2 이므로 자유도는 3이 나온다. 

 

4. 기각 여부 판단

 

카이제곱 그래프에서, 자유도가 3이고, 유의 수준이 0.05인 카이제곱 값은 7.815이다. 

이는 우리가 구한 값인 65.03보다 작은 값이다. 즉 우리가 구한 카이제곱 검정 통계량은, 기각역에 속한다. 

 

따라서 우리는 영화 장르와 간식류 구매는 서로 독립적이라는 가정을 기각할 수 있다. 

즉, 영화 장르와 간식류 구매는 서로 연관성이 존재한다.

728x90
반응형