다변량회귀분석 예제
2/08/2019기술적으로 말하자면, 우리는 다변량 다중 회귀를 실시할 것입니다. 이 회귀는 하나 이상의 결과 변수가 있기 때문에 „다변량”입니다. 하나 이상의 예측 변수가 있기 때문에 „다중” 회귀입니다. 물론 실제로는 드물지만 하나의 예측 변수만 으로 다변량 회귀를 수행할 수 있습니다. 다변량 통계는 하나 이상의 결과 변수의 동시 관찰 및 분석을 포괄하는 통계의 세분화입니다. 다변량 통계의 적용은 다변량 분석입니다. 모델의 적합성은 잔류물의 행동을 연구하고 이상값과 같은 „특별한 관찰 / 개인”, 높은 „레버리지”와 영향력있는 포인트를 가진 관찰을 찾고 평가됩니다. 여분의 주의를 기울여야 할 관측은 특이치 즉, 비정상적으로 큰 잔류를 가진 관측이다. 높은 레버리지 포인트: 특이한 x – 패턴, 즉 예측 변수 공간의 이상값; 영향력있는 점: 하나 이상의 β의 추정 또는 표준 오차에 높은 영향을 미치는 개인. 관찰은 세 가지 모두 일 수 있습니다. 이상값에 대한 큰 잔류개인을 검사하는 것이 좋습니다; 레버리지 포인트에 대한 거리를 사용하는 경우 즉, 회귀 모델에 큰 영향을 미칠 수 있는 독립 변수 및 케이스에 대한 값의 비정상적인 조합으로 사례를 식별하는 측정값입니다. 영향력 있는 점의 경우 특정 사례를 배제하여 발생하는 회귀 계수(DfBeta(s)) 및 예측 값(DfFit)의 변경과 같은 영향 통계를 사용합니다. 모든 β의 공동에 미치는 영향에 대한 전반적인 측정은 „쿡의 거리”(COOK)입니다.
표준 오류의 경우 전체 측정값은 COVRATIO6입니다. 이제 다변량 선형 회귀 모델의 개념에 익숙해졌으니 페르난도로 돌아갈 수 있습니다. 다변량 다중 회귀는 단일 예측 변수 집합을 사용하여 여러 응답 또는 종속 변수를 모델링하는 방법입니다. 예를 들어, 성별, 인종, 부모 소득 등의 함수로 수학 및 읽기 SAT 점수를 모두 모델링할 수 있습니다. 이를 통해 각 점수와 성별의 관계를 평가할 수 있습니다. „각 종속 변수에 대해 별도의 회귀를 실행하는 것은 어떨까요?” 그건 실제로 좋은 생각! 그리고 사실 그것은 다변량 다중 회귀가 하는 일입니다. 예측 변수에 따라 각 종속 변수를 별도로 회귀합니다. 그러나 여러 응답이 있기 때문에 회귀 매개 변수에 대한 가설 테스트와 예측에 대한 신뢰 구간을 수정해야 합니다. 이렇게 하면 각 응답에 대해 하나씩 두 개의 값을 예측합니다.
이제 이것은 단지 예측일 뿐이며 불확실성이 있습니다. 우리는 일반적으로 우리에게 우리의 추정에 낮은 및 상한의 몇 가지 아이디어를 제공하기 위해 신뢰 간격으로 불확실성을 정량화. 그러나 이 경우 두 개의 계수 세트가 있는 다변량 모델에서 두 개의 예측이 있습니다. 즉, 신뢰 구간을 계산하는 것이 더 어렵습니다. 실제로 간격을 계산하지 않고 두 차원의 불확실성을 캡처하는 타원입니다. 대부분의 통계 패키지에서 곡선 추정 프로시저는 다양한 모델(선형, 로그, 역, 이차, 입방, 전력, S-커브, 로지스틱, 지수 등)에 대한 곡선 추정 회귀 통계 및 관련 플롯을 생성합니다. 각 depedent 변수에 사용할 모델을 결정하기 위해 데이터를 플롯하는 것이 필수적입니다. 변수가 선형으로 연관된 것처럼 보이는 경우 간단한 선형 회귀 모델을 사용할 수 있지만 변수가 선형으로 관련되지 않은 경우 데이터 변환이 도움이 될 수 있습니다.
변환이 도움이 되지 않으면 더 복잡한 모델이 필요할 수 있습니다. 데이터의 산점도를 일찍 보는 것이 좋습니다. 플롯이 인식하는 수학적 함수와 유사한 경우 데이터를 해당 모델 유형에 맞춥춥습니다. 예를 들어 데이터가 지수 함수와 유사한 경우 지수 모델을 사용해야 합니다.