회귀분석 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
최고관리자
17-02-28 12:24
조회수15,151
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10. 회귀분석
조사자는 상관계수를 이용하여 두 변수들간의 관계의 정도는 파악할 수 있지만 변수들간의 정확한 관계를 알기는 어렵습니다. 보통 하나 또는 둘 이상의 변수들이 다른 하나의 변수에 미치는 영향의 정도와 방향을 파악하고, 독립변수의 변화에 따라 종속변수에 어떠한 변화가 있는지를 분석하기 위해 회귀분석을 사용합니다. <회귀분석의 목적> ① 독립변수와 종속변수의 관계를 파악할 수 있습니다.? ② 종속변수에 영향을 미치는 독립변수들을 파악할 수 있습니다. ③ 종속변수의 변화를 예측할 수 있습니다. <회귀방정식> 초등학교 교과서에 나오는 ![]() ![]() ![]() ![]() < 가장 적합한 회귀선을 추정하는 방법> 회귀분석에서 가장 적합하게 추정하는 데 사용하는 방법은 최소자승법입니다. 최소자승법이란 잔차들의 제곱의 합을 최소화시키도록 하는 회귀식을 구하는 방법입니다. 회귀분석은 독립변수에 의하여 생기는 종속변수 변화의 변화에 관심을 가집니다. 따라서 기울기와 절편의 값을 구하는 것입니다. 기울기와 절편의 값을 구하기만 하면 변수 ![]() ![]() ![]() ![]() <회귀분석의 자료> 독립변수는 간격척도, 비율척도로 측정됩니다. 그러나 가끔 명목척도로 측정하는 경우가 있는데 이런 경우의 독립변수를 더미변수라고 합니다. 종속변수는 간격척도, 비율척도로 측정됩니다. <가정> 회귀분석에서는 다음의 가정이 만족되어야 합니다. ① 선형성 독립변수와 종속변수간의 관계는 선형적이어야 합니다. 즉, 독립변수가 변화함에 따라 종속변수가 변화할 때에 그 변화가 일정해야 함을 의미하는 것입니다. ② 오차의 정규성 오차란 종속변수의 관측값과 예측값 간의 차이를 말합니다. 오차의 기대값은 0이며, 정규분포를 이룬다고 가정할 수 있을 때에만 회귀분석을 할 수 있습니다. ③ 오차의 독립성 예측의 오차값들은 서로 독립적이어야 합니다. 즉, ![]() ④ 오차의 등분산성 이 오차들의 분산이 모두 일정해야 회귀분석을 할 수 있습니다. 10.1 단순회귀분석(Simple Regression Analysis) 단순회귀분석은 다음과 같이 하나의 독립변수와 종속변수와의 관계를 선형관계식으로 표시하고, 독립변수와 종속변수에 관한 관찰자료를 이용하여 회귀식의 기울기와 절편을 추정하는 통계기법입니다. 예 의지가 강한 사람일수록 자아만족도가 높은지 알고자 한다. 1) 가설설정 <연구문제> 의지는 자아만족도에 영향을 미친다. ![]() ![]() 2) 유의수준설정 ![]() 3) 실행방법 단순회귀분석을 하기 위해 [예제 12-1]를 불러 다음과 같은 절차를 따라합니다. 분석(A)→회귀분석(R)→선형(L) ![]() ①, ② 변수목록 칸에 있는 변수 중 종속변수를 [종속변수(D)]에 독립변수를 [독립변수(I)]에 입력합니다. ③ 방법(M) 방법에는 전진, 후진, 단계선택, 제거, 입력 등의 방식이 있는데 단순회귀분석에서는 입력방식만 사용되므로 나머지 내용에 대해서는 다중회귀분석에서 다루도록 하겠습니다. 입력 : 모든 독립변수들이 동시에 투입됩니다. ④ 통계량(S) ![]() 통계량 버튼을 누르면 [그림 10.3]이 나타나는데 그 대화상자에서 필요한 내용을 선택합니다.
![]() ZPRED : 표준 예측치 ZRESID : 표준잔차 이 도표에 대해서는 중다회귀분석에서 다루도록 하겠습니다. ⑥ 저장(A) ![]() 위와 같은 대화상자에서 원하는 항목들을 선택한 후 [계속]을 누릅니다. ⑦ 옵션(O) ![]() 선택법 기준에서 [F-확률 사용(O)]은 다중회쉬분석을 하는 경우 단계선택법을 사용할 때 어떤 변수가 회귀식에 들어갈 것인가를 결정하는데 사용되는 값이므로 다중회귀분석에서 자세히 다루겠습니다. [방정식에 상수항 포함(I)]에서 상수항 포함 여부를 설정하시고 나서 [계속]을 누릅니다. 마지막으로 [확인]을 누르면 다음과 같은 결과 창이 나타납니다. -->진입/제거된 변수(b)
->모형 요약(b)
[R 제곱] : 결정계수라고도 불리는데, 종속변수의 분산 중 어느 정도 비율(%)이 독립변수에 의해 설명되는가를 나타내는 값으로 0.00~1.00 사이의 값을 갖습니다. 1.00에 가까운 값이 나올수록 완벽한 관계에 가까워지는 것을 의미합니다. 여기서 R 제곱값은 이전에 배운 상관관계의 상관계수의 제곱과 같은 값입니다. 여기서는 R 제곱값이 .200으로 종속변수의 분산이 독립변수의 분산에 의해 20%가 설명됨을 알 수 있습니다. [수정된 R 제곱] : 자유도를 고려한 값으로 모집단의 결정계수를 추정할 때 사용합니다. -->분산분석(b)
-->계수(a)
![]() [(상수)]는 ![]() [의지]는 회귀식의 기울기에 대한 값입니다. 10.2 중다회귀분석 중다회귀분석은 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법으로 단순회귀분석을 확장한 것입니다. 중다회귀분석모형에 있어서도 오류항의 분포에 대한 가정이나 모수에 대한 추정방법, 결과의 해석 등은 단순회귀분석모형과 동일합니다. <중다회귀분석의 고려할 점> ① 중다회귀분석은 회귀계수들을 추정할 때 독립변수들을 모형에 포함시키는 방법과 순서를 결정해야 합니다. 그 방법은 단계적 변수입력방법과 동시적 변수입력방법이 있습니다. ?단계적 변수입력방법 : 여러 개의 가능한 독립변수 중 가장 설명력이 높은 독립변수로부터 순서대로 모형에 포함하는 방법입니다. ?동시적 변수입력방법 : 모든 독립변수를 모형에 포함시키고 동시에 모든 회귀계수들을 추정하는 방법입니다. ② 다중공선성이 발생하는 것을 방지해야 합니다. 다중회귀분석에서는 회귀식에 포함된 독립변수들끼지 높은 상관관계를 가질 경우가 많습니다. 이처럼 독립변수들간의 상관관계가 높을 때, 이것을 변수들간의 다중공선성이 있다고 말합니다. 독립변수들 사이에 다중공선성이 존재한다면 추정된 계수가 통계적으로 유희하지 않게 나타날 가능성이 있기 때문에 다중공선성의 발생을 방지해야 합니다. 이를 방지하기 위하여 미리 변수들간의 상관계수를 파악하여 상관관계가 높은 두 변수들 중 하나를 회귀분석모형에서 제거하거나 단계적 회귀방법을 이용하여 상관관계가 높은 변수들 중 가장 설명력이 있는 독립변수만을 모형에 포함시켜야 합니다. <더미변수의 입력> 회귀분석의 입력자료는 대개의 경우 등간척도, 비율척도로 구성됩니다. 그러나 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있는데 이러한 변수를 더미변수라고 합니다. 더미변수의 수 = 범주의 수 - 1 만약 범주의 수가 두 개인 경우 더미변수으 수는 한 개이며, 한 범주를 1로 다른 범주를 0으로 입력합니다. 범주가 세 개인 경우에는 더미변수는 2개이며, 입력방식은 다음과 같습니다.
자신의 능력, 의지, 자아통제감이 자아만족도에 영향을 미치는지 알고자 조사하려고 한다. 1) 가설설정 <연구문제> 자신의 능력, 의지, 자아통제감은 자아만족도에 영향을 미친다. ![]() ![]() 2) 유의수준설정 ![]() 3) 실행방법 단순회귀분석을 하기 위해 [예제 12-2]를 불러 다음과 같은 절차를 따라합니다. 분석(A)→회귀분석(R)→선형(L) 이 절차를 따르면 [그림 10.7]과 같은 대화상자가 나타납니다. ![]() ①, ② 변수목록 칸에 있는 변수들 중 종속변수를 종속변수(D)칸으로 독립변수를 독립변수(I)칸으로 옮깁니다. ③ 방법(M) ?입력 : 모든 독립변수들이 동시에 투입되도록 하는 설정입니다. ?단계선택 : 여러 개의 독립변수들 중에서 설명력이 어느 정도 높은 변수들로만 회귀모델을 구성하도록 하는 것입니다. 첫 단계에서는 종속변수와 상관관계가 가장 높은 변수가 회귀선에 들어가고, 두 번째 단계에서는 전 단계에서 들어가지 않은 변수들 중 종속변수와 가장 높은 편상관관계를 갖는 변수가 들어갑니다. 각 단계에서는 기존에 진입한 각 변수의 유의성 검증이 이루어지며, 비유의적인 변수는 제거됩니다. ?전진 : 상관관계가 높은 독립변수의 순서로 회귀식에 진입합니다. 단계선택과는 달리 비유의적인 변수도 포함이 됩니다. ?후진 : 모든 독립변수들이 한꺼번에 들어가서 각 단계에서 종속변수에 대한 설명력이 낮은 순서로 제거됩니다. ④ 통계량(S) 통계량에는 여러 가지 선택항목들이 있는데, 평소에 많이 다뤄온 내용이라 다들 많이 알고 계실 것입니다.
![]()
옵션에서 F-확률 사용(O)이나 F-값 사용(V) 중에서 설정해 줍니다. F-확률 사용은 단계선택방식에서만 의미를 가지므로 여기서는 기본설정 그대로 나둔 후 [계속]을 누릅니다. 모든 설정을 마친 후 [확인]을 누르면 다음과 같은 결과 창이 나타납니다. -->기술통계량
-->상관계수
-->진입/제거된 변수(b)
-->모형 요약(b)
-->분산분석(b)
-->계수(a)
![]() <각 독립변수의 유의성 검증> ① 능력은 다른 두 변수가 회귀식에 포함되어 있는 경우 유의하지 못합니다. ② 의지는 다른 두 변수가 회귀식에 포함되어 있는 경우 유의합니다. ③ 통제는 다른 두 변수가 회귀식에 포함되어 있는 경우 유의하지 못합니다. <표준화 계수를 통한 독립변수 영향력의 상대적 크기> 표준화된 회귀계수는 입력된 자료를 표준화시켜 분석한 것이므로, 독립변수 영향력의 크기를 비교할 때에는 단순한 회귀계수가 아닌 표준화된 회귀계수를 이용합니다. 표준화된 회귀계수의 절대값 중에 가장 큰 값이 나타나는 독립변수가 종속변수에 가장 영향을 크게 미치는 것입니다. <공선성 통계량> 공선성 : 두 개의 독립변수들 간의 관계를 말하는 것입니다. 다중공선성 : 세 개 이상의 독립변수들 간의 관계를 말합니다. 한 독립변수가 종속변수에 대한 설명력이 높다고 하더라도 다중공선성이 높으면 설명력이 낮은 것처럼 나타납니다. 공차한계 : 공선성을 검증하기 위해 가장 많이 사용되는 지표입니다. 공차한계는 한 독립변수가 다른 독립변수들에 의해서 설명되지 않은 부분을 의미합니다. 분산팽창요인(VIF) : 공차한계의 역수로 표시되며, VIF값이 클수록 독립변수들간의 공선성 정도가 높음을 의미합니다. -->공선성 진단(a)
--> ![]() ![]() 위의 도표는 [그림 10.7]의 도표에서 표준화된 잔차를 설정해 준 결과입니다. 위의 그래프와 같이 잔차들은 정규성을 만족하고 있습니다. |
글쓰기는 회원가입시 가능합니다.
메일 주소는
serommii@gmail.com로 부탁합니다.
이름
내용