Wie Excel s RGP () Bearbeitung Kollinearität, InformIT
Vom Autor von
Vom Autor von
Es ist nicht ungewöhnlich in der Tat, es ist der Normalzustand-für die Einflussvariablen in einer Mehrfachregressionsgleichung miteinander korreliert werden. Nehmen wir an, dass Sie die Beziehung zwischen Einkommen als Zielgröße und Alter und Jahre der Ausbildung als Prädiktorvariablen wurden untersucht.
Sie erwarten, Alter positiv mit Jahren Ausbildung korreliert. Sie haben nicht eine perfekte Korrelation von 1,0 zwischen den beiden Variablen erwarten, aber Sie sind nicht überrascht, eine mäßig starke Korrelation, etwas entlang der Linien von 0,7 zu finden.
Die multiple Regressionsanalyse im Allgemeinen (und Excel RGP () Funktion insbesondere) ist durchaus in der Lage mit korrelierten Einflussvariablen zu tun (welche Begriffe Excel die x-Werte. Im Unterschied zu der y-Werte der Zielvariable).
störende Kollinearität
Aber es gibt ein Problem, wenn eine der Prädiktorvariablen vollständig auf einer abhängigen oder mehreren der anderen Prädiktoren. In diesem Fall sind die traditionellen Ansätze zur Erzeugung der multiple Regressionsgleichung (und die Güte der Anpassung Statistiken wie R 2) interpretierbar oder einfach falsch. Siehe Abbildung 1 zeigt ein Beispiel.


In Abbildung 2 ist das Problem, dass die Kollinearität der Matrix X'X Produkts verursacht keine invers haben (es eine Determinante von Null hat), und daher keine der Regressionsstatistik kann mit herkömmlichen Methoden berechnet werden.
Die „klassischen Ansätze“ Ich im Stand der Absatz erwähnt haben mit recht unkompliziert Techniken der Matrix-Algebra zu tun: Matrixtransposition, Multiplikation und Inversion (obwohl kein Matrixinversionsverfahren sollte „einfach“ bezeichnet werden, wenn mehr als drei Variablen beteiligt sind).
Viele Statistiker betrachten die Ungenauigkeiten als völlig unbedeutend und typisch für Freud, in einem anderen Zusammenhang, bezeichnet die „Narzissmus der kleinen Unterschiede.“

Abbildung 3 Die RGP () liefert Regressionsgleichung nicht Null-Standardfehler mit einer Ausnahme.

Abbildung 4 RGP () gibt numerische Ergebnisse eher als eine Matrix von Fehlerwerten.
Beachten Sie in beiden 3 und 4, dass eine der Variablen hat einen Null-Wert sowohl für die Regressionskoeffizienten (Zelle B9 in beiden Figuren) und deren Standardfehler (Zelle B10 in beiden Figuren). Dies ist Excel Weg für den Benutzer zu kommunizieren, die in diesen Fällen ist es die X (1) Variable in beiden Fällen in Bezug auf wie keine eindeutigen Informationen bei der Schätzung von Y. beitragen
Daher RGP () weist X (1), einen Regressionskoeffizienten von 0,0, was auf die Entfernung X gleichbedeutend ist mit (1) aus der Regressionsgleichung:
# 374; = -7,586 + 0,0 * X (1) + 1,480 * X (2)
Wenn Sie X (1) von Null für alle Datensätze multiplizieren, X (1) hat aus der Gleichung heraus fallen gelassen. Wenn X (1) auf X vollständig abhängig ist (1) -oder umgekehrt-dann wird die Information in einer der Variablen ist vollständig redundant und einer von ihnen aus der Gleichung weggelassen werden.
Die Variablen X (1) und X (2) sind vollkommen voneinander abhängig. X (2) ist nur X (1) minus 1 - oder, wenn Sie es vorziehen, X (1) ist nur X (2) plus 1. Daher X (1) keine Informationen über Y nicht zur Verfügung stellen kann, sobald die Informationen in Y zuzurechnenden X (2) wurde berücksichtigt.
Die vollständige Abhängigkeit in X (1) und X (2) bedeutet, dass die Wahl der Variablen, die aus der Regressionsgleichung fallen rechnerisch willkürlich ist. Hier zeichnet Algorithmus X fallen wählt (1). Aus der Sicht der Ergebnisse zu interpretieren, können Sie nicht die Wahl als willkürlich betrachten.
Hinweis, nebenbei gesagt, dass das Weglassen von einem der X-Variablen in den Freiheitsgraden widerspiegeln (df) für die restlichen, in Zelle B12 in beide Abbildung 3 und Abbildung 4. Der df Rest ist die Zahl der Fälle weniger die Anzahl der Einflussvariablen. Es gibt fünf Fälle, jeweils in den Zeilen 2 bis 6. Nach einem der abhängigen Variablen X weggelassen, gibt es eine Variable X auf dem Arbeitsblatt links. Da das dritte Argument RGP () wird weggelassen-the wurde so, wie es auf TRUE -Excel Einstellung liefert automatisch eine Spalte von 1en die Konstante darstellen. So, 5 Fälle weniger der X-Variable auf dem Arbeitsblatt verbleibende, weniger die unsichtbaren Spalt von 1en repräsentieren die Konstante Blätter 3 Freiheitsgrade, wie durch RGP berichtet ().
Schwierige Diagnose
Die Abhängigkeit in den X-Variablen muß nicht auf zwei der Variablen, wie beispielsweise den Fall beschränkt, in dem Variable X (2) ist das Ergebnis der Multiplikation Variable X (1) durch eine Konstante. In dieser Art von Situation, zeigt eine einfache Korrelationsanalyse die Abhängigkeit. Siehe Abbildung 5.

Abbildung 5 Die Abhängigkeit ergibt sich aus der Korrelationsmatrix in B9: D11, insbesondere Zelle B10, jedoch nicht aus B23: D25.
In Abbildung 5 wird die Korrelation zwischen B2: B6 und C2: C6 ist sowohl perfekt und offensichtlich aus der Korrelationsmatrix in B9: D11. X (2) ist einfach zweimal X (1).
Aber es gibt keine nullter Ordnung Korrelation von 1,0 in den gezeigten Daten in B16: D20; gibt es keine Korrelation von 1,0 in der Matrix in B23 gezeigt: D25. Hier, X (3) die Summe von X (1) und X (2). Es gibt keine perfekte Korrelation zwischen jedem der einzelnen Variablen, aber es ist perfekt lineare Abhängigkeit zwischen X (3) und, wie in Zellen G23 und G25 gezeigt. Um festzustellen, dass die Abhängigkeit existiert ohne RGP läuft (). Sie würden für eine gültige Determinante der SSCP-Matrix zu überprüfen.
Keine Warnung
Das ist alles sinnvoll und es ist der Ansatz von den wichtigsten statistischen Anwendungen wie SAS genommen, SPSS und R.
Allerdings gehen diese Pakete einen Schritt weiter und alarmieren die Benutzer mit einer Nachricht an den Effekt, dass es vollständig lineare Abhängigkeit in den zugrunde liegenden Daten, und dass ein oder mehr Variablen aus der Gleichung entfernt wurden. Dies ist rücksichtsvoll. Excel bietet dem Benutzer ohne Vorwarnung in diese Richtung, abgesehen von nullwertigen Regressionskoeffizienten und Standardfehler.
Ohne Kenntnis von dem, was Excel tun könnte, wenn es diese Art von linearen Abhängigkeit begegnet, verstehen die Benutzer möglicherweise nicht den Grund, dass einer der Regressionskoeffizienten Variablen 0.0, dass deren Standardfehler als 0,0 gegeben ist, und dass die df für die Rest hat sich in der Folge um 1 erhöht.
Weiterhin Trend () verwendet den gleichen Ansatz, um die Regressionsgleichung zur Berechnung ebenso wie RGP (). Aber nirgends im TREND () Ergebnisse ist es offensichtlich, dass eine Variable aus der Regressionsgleichung wurde verzichtet. Zugegeben, sollte ein Benutzer immer arrangieren und die Ergebnisse von RGP () vor kritiklos akzeptieren die Ergebnisse der RGP () zurückgegeben untersuchen. Dennoch TREND () wird durch keine Warnung an alle, die etwas unerwartet möglicherweise aufgetreten begleitet.