Genug ist genug! Umgang mit Multikollinearität in Regressionsanalyse

In der Regressionsanalyse, betrachten wir die Korrelationen zwischen einem oder mehreren Eingangsvariablen oder Faktoren, und eine Antwort. Wir könnten uns an, wie die Backzeit und Temperatur beziehen sich auf die Härte eines Stück Plastik, oder wie das Bildungsniveau und die Region der Geburt beziehen sich auf Jahreseinkommen. Die Zahl der potenziellen Faktoren, die Sie in einem Regressionsmodell enthalten könnten, wird nur durch Ihre Phantasie. und Ihre Fähigkeit zu sammeln tatsächlich die Daten, die Sie sich vorstellen.

Aber bevor Daten über jeden potentiellen Prädiktor unter der Sonne in Ihr Regressionsmodell zu werfen, denken Sie daran, eine Sache genannt multicollinearity. Mit Regression, wie bei so vielen Dingen im Leben, kommt ein Punkt, wo mehr Zugabe ist nicht besser. In der Tat, das Hinzufügen manchmal nicht nur „mehr“ Faktoren, die zu einem Regressionsmodell scheitern Dinge klarer zu machen, macht es tatsächlich Dinge schwerer zu verstehen!

Was ist Multikollinearität und warum sollte es mich kümmern?

Sie können in Bezug auf ein Fußballspiel darüber nachdenkt: Wenn ein Spieler den gegnerischen Quarterback greift, ist es einfach, durch Kredit für den Sack in dem Kredit des geben. Aber wenn drei Spieler die quarter gleichzeitig angehen, ist es viel schwieriger, welche der drei zu bestimmen, macht den größten Beitrag zu dem Sack.

Nicht, dass in dem Fußball? In Ordnung, versuchen Sie diese Analogie statt: Sie gehen, um eine Rock-and-Roll-Band mit zwei großen Gitarristen zu sehen. Sie sind gespannt, welche man am besten spielt. Aber auf der Bühne, sie sind beide spielen wütend führt zur gleichen Zeit! Wenn sie beide laut und schnell zu spielen, wie kann man sagen, welcher Gitarrist auf dem Sound den größten Effekt hat? Auch wenn sie die gleichen Noten nicht spielen, was sie tun, ist so ähnlich ist es schwierig, von dem anderen zu erzählen.

Das ist das Problem mit multicollinearity.

Warnzeichen von Multikollinearität

Ein wenig multicollinearity nicht unbedingt ein großes Problem ist: die Rockband Analogie erstreckt, wenn ein Gitarrenspieler lauter als der andere ist, können Sie sie leicht auseinanderhalten. Aber schwere multicollinearity ist ein großes Problem, weil es die Varianz der Regressionskoeffizienten erhöht, so dass sie instabil machen. Je mehr Varianz sie haben, desto schwieriger wird es, die Koeffizienten zu interpretieren.

Also, wie Sie wissen, ob Sie multicollinearity in Ihrem Regressionsmodell betroffen sein müssen? Hier sind einige Dinge zu beachten gilt:

Eine Möglichkeit, multicollinearity zu messen, ist die Varianz Inflationsfaktor (VIF), die beurteilt, wie viel die Varianz der geschätzten Regressionskoeffizienten erhöht sich, wenn Ihre Prädiktoren korreliert sind. Wenn keine Faktoren korreliert sind, werden die VIFs alle 1 sein.

Haben Minitab Statistical Software berechnen und die VIF für Ihre Regressionskoeffizienten anzuzeigen, wählen Sie einfach es im Dialog „Optionen“, wenn Sie Ihre Analyse durchführen.

Mit VIF Anzeige als Option gewählt hat, wird Minitab eine Tabelle von Koeffizienten als Teil seiner Ausgabe zur Verfügung stellen. Hier ist ein Beispiel einige Daten beteiligt Blick auf die Beziehung zwischen Forscher Gehalt, Publikationen und Jahre der Beschäftigung:

Sie werden etwas dagegen tun wollen.

Wie kann ich Deal mit Multikollinearität?

  • Entfernen hoch aus dem Modell korreliert Prädiktoren. Wenn Sie zwei oder mehr Faktoren, die mit einem hohen VIF, entfernen Sie eine aus dem Modell. Weil sie redundante Informationen liefern, einen der korrelierten Faktoren zu entfernen in der Regel nicht reduziert drastisch die R-Quadrat. Erwägen Sie die Verwendung schrittweise Regression, beste Subsets Regression. oder spezielle Kenntnisse des Datensatzes, diese Variablen zu entfernen. Wählen Sie das Modell, das den höchsten R-Quadrat-Wert hat.
  • Verwenden Sie Partial Least Squares Regression (PLS) oder Hauptkomponentenanalyse. Regressionsmethoden, die die Anzahl von Prädiktoren zu einer kleineren Menge unkorrelierter Komponenten geschnitten.

Mit Minitab Statistical Software, ist es einfach, die Werkzeuge zur Verfügung, in Stat> Regression Menü verwenden, um schnell verschiedene Regressionsmodelle zu testen, die besten zu finden. Wenn Sie sie nicht verwenden, laden wir Sie Minitab 30 Tage lang kostenlos ausprobieren.

Haben Sie schon einmal in Probleme mit multicollinearity laufen? Wie haben Sie das Problem lösen?

Genug ist genug! Umgang mit Multikollinearität in Regressionsanalyse

In Verbindung stehende Artikel