Wiederholte Messungen Varianzanalyse Mit R

David C. Howell

dhowell / StatPages / missing_data / gemischte Modelle für wiederholten Measures.pdf.

1.1 Die Art der fehlenden Daten

Fehlende völlig zufällig

Beachten Sie, dass es den Wert der Beobachtung ist, und nicht seine „Fehlüber“, die wichtig ist. Wenn Menschen, die das persönliche Einkommen zu berichten weigerte sich auch wahrscheinlich verweigern Familieneinkommen zu berichten, die Daten immer noch als MCAR, könnte man so lange wie keine dieser einen Bezug zu den Ertragswert hatte sich. Dies ist ein wichtiger Aspekt, denn wenn ein Datensatz von Antworten auf mehrere Erhebungsinstrumente besteht, jemand, der nicht das Beck-Depressions-Inventar nicht abgeschlossen all BDI subscores fehlen würde, aber das würde nicht beeinflussen, ob die Daten als MCAR eingestuft werden.

Fehlende zufällig

Fehlende Nicht bei Random

1.2 Traditionelle Behandlungen für fehlende Daten

Der einfachste Ansatz - listwise Löschung.

Bei weitem der häufigste Methode Daten fehlen, ist einfach die Fälle weglassen mit fehlenden Daten und unsere Analysen auf laufen, was bleibt. Wenn also 5 Probanden in Gruppe 1 nicht zeigen, bis zu testen, dass Gruppe 5 Beobachtungen kurz. Oder wenn 5 Personen fehlendes Scores auf einem oder mehr Variablen, lassen wir einfach die Personen aus der Analyse. Dieser Ansatz wird in der Regel listwise Löschung genannt, aber es ist auch als komplette Fallanalyse bekannt.

1.3 Andere Nicht-So-Gut Approaches

Eine schlechte Ansatz - paarweise Löschung

Viele Computer-Pakete bieten die Möglichkeit, mit was allgemein als paarweise Löschung bekannt ist, sondern auch „unklug“ Löschung genannt. Bei diesem Ansatz jedes Element der Inter Matrix alle verfügbaren Daten geschätzt. Wenn ein Teilnehmer sein Einkommen und Lebenszufriedenheit Index berichtet, aber nicht sein Alter, er ist in der Korrelation von Einkommen und Lebenszufriedenheit enthält, aber nicht in den Korrelationen Einbeziehung Alters. Das Problem bei diesem Ansatz ist, dass die Parameter des Modells werden auf unterschiedlichen Datensätzen basieren, mit unterschiedlichen Probengrößen und unterschiedlichen Standardfehler. Es ist auch durchaus möglich, eine Inter Matrix zu erzeugen, die nicht positiv definit ist, was wahrscheinlich ist, Ihre gesamte Analyse zum Stillstand bringen.

Es wurde vorgeschlagen, dass, wenn es nur ein paar fehlenden Beobachtungen sind es nichts schadet paarweise Löschung zu verwenden. Aber ich würde behaupten, dass, wenn es nur ein paar fehlenden Beobachtungen sind, dass es nicht viel schaden, jene Teilnehmer zu werfen und vollständige Fälle verwenden. Wenn es viele fehlenden Beobachtungen sind, können Sie entweder mit Analyse erheblichen Schaden anrichten. In beiden Fällen sind die unten angegebenen Ansätze sind in der Regel vorzuziehen.

Ich möchte ein paar Ansätze, darüber zu sprechen, die manchmal verwendet werden, und dass wir wissen, sind nicht sehr weise Entscheidungen. Es ist wichtig, über diese zu sprechen, weil es wichtig ist, ihre Verwendung zu entmutigen, sondern vor allem, weil sie logisch zu modernen Ansätzen führen, die sehr viel besser sind.

mittlere Substitution

Beachten Sie, dass Durchschnittssubstitution unter Verwendung macht nur eine triviale Änderung des Korrelationskoeffizienten und keine Veränderung in dem Regressionskoeffizient ist. Aber die st. err (b) ist deutlich kleinere mittlere Substitutions verwenden. Das sollte nicht überraschen. Wir haben wirklich keine neue Informationen zu den Daten hinzugefügt, aber wir haben die Stichprobengröße erhöht. Die Wirkung der Probengröße zu erhöhen, ist der Nenner für die Berechnung des Standardfehlers zu erhöhen, wodurch die Standardfehler reduziert. sicherlich sollten keine neuen Informationen Hinzufügen nicht machen Sie sich wohler mit dem Ergebnis, aber dies scheint zu. Die Reduktion ist unecht und sollten vermieden werden - wie wir weiter unten sehen werden.

Regression Substitution

Wenn wir mittlere Substitution nicht gefällt, warum nicht versuchen, lineare Regression, um vorherzusagen, was die fehlenden Werte auf der Basis anderer Variablen sein sollte, die vorhanden sind? Wir verwenden vorhandene Variablen, um eine Vorhersage zu machen, und dann zu ersetzen, dass vorhergesagten Wert, als ob es ein tatsächlicher erhaltene Wert war. Dieser Ansatz hat sich für eine lange Zeit und zumindest einen Vorteil gegenüber den mittleren Substitution. Zumindest ist der rechnerische Wert in irgendeiner Weise abhängig, andere Informationen, die wir über die Person haben. Mit mittlerer Substitution, wenn wir das Gewicht einer Person fehlen zugewiesen wir ihm das durchschnittliche Gewicht. Setzen Sie etwas falsch, mit Regressions Substitution wir ihm das Gewicht der Männchen im selben Alter zuweisen würde. Das hat eine Verbesserung sein. Aber das Problem der Fehlervarianz bleibt. Durch einen Wert ersetzt, der perfekt vorhersehbare von anderen Variablen ist, haben wir nicht wirklich mehr Informationen hinzugefügt, aber wir haben die Stichprobengröße und reduziert den Standardfehler erhöht.

Es gibt einen Ausweg aus dieser Schwierigkeit ist jedoch, als stochastische Regression Anrechnungs bekannt ist. Der Ansatz fügt eine zufällig abgetastete Restlaufzeit von der normalen (oder andere) Verteilung an jedem des rechnerischen Wert. SPSS hat dies in ihrer Analyse fehlender Werte Verfahren implementiert. Standardmäßig fügt dieses Verfahren ein wenig Zufallsfehler an jede Substitution. Das beseitigt nicht vollständig das Problem, aber es es nicht verringert. Es gibt bessere Möglichkeiten, aber, und sie bauen auf diese einfache Idee.

1.4 Der Sonderfall der Verfehlung der Gruppenmitgliedschaft

Fehlende Identifikation der Gruppenmitgliedschaft

Die naheliegendste Sache in dieser Situation zu tun wäre all diese Non-Responder aus der Analyse fallen zu lassen und versuchen, sie davon zu überzeugen, dass diese Daten fehlen völlig zufällig. (Auch wenn wir sie überzeugen, bezweifle ich, dass wir unsere Leser täuschen würden.) Aber ein besserer Ansatz ist die Tatsache zunutze zu machen, dass Nicht-Antwort ist selbst ein wenig von Daten, und diese Themen in eine eigenen Gruppe zu setzen . Wir würden dann einen spezifischen Test auf der Nullhypothese, die Non-Responder unterscheiden sich nicht von anderen Themen in Bezug auf ihrem Optimismus Punktzahl. Und wenn wir die Tatsache fest, dass diese Nullhypothese angemessen ist (wenn wir sollen) können wir dann weitermachen und den Rest der Gruppen mit etwas mehr Vertrauen vergleichen. Auf der anderen Seite, wenn wir, dass die Non-Responder unterscheiden sie systematisch von den anderen auf Optimismus zu finden, dann müssen wir bei der Interpretation Unterschiede zwischen den übrigen Gruppen, dass berücksichtigen.

Ein Beispiel

Tabelle 1 Beschreibende Statistik für Optimism als Funktion der Gruppenmitgliedschaft


Aus dieser Tabelle sehen wir, dass es erhebliche Unterschiede zwischen den drei Gruppen, für die ist Religiöse Ausrichtung bekannt. Wir sehen auch, dass der Mittelwert für die fehlenden Themen ist viel näher an den Mittelwert des Fundamentalisten als zu den anderen Mitteln, das den Eindruck erwecken könnte, dass Fundamentalisten eher eine religiöse Zugehörigkeit zu schaffen, zu verweigern, als Mitglieder der anderen Gruppen.

Die Ergebnisse einer Varianzanalyse auf Optimism Noten von allen vier Gruppen sind in Tabelle 2 Hier habe ich gefragt SPSS zu verwenden, was „Simple Kontraste“ mit der letzten (fehlt) Gruppe als Referenzgruppe genannt werden. Dies wird SPSS verursacht einen Vergleich von jedem der ersten drei Gruppen mit der fehlenden Gruppe auszudrucken. Ich entschied ich für einfache Kontraste zu verwenden, weil ich, wie fehlende Themen zu jedem der drei nicht-fehlenden Gruppen im Vergleich sehen wollte.

Tabelle 2 Varianzanalyse mit allen vier Gruppen - Einfache Kontraste

Eine Berechnung Moment wird Ihnen zeigen, dass die Differenz zwischen dem Mittelwert der Fundamentalisten und dem Mittelwert der fehlenden Gruppe ist 3,094-3,533 = -0,439. Ähnlich der gemäßigte Gruppe bedeuten unterscheidet sich von dem Mittelwert der fehlenden Gruppe von 1,942-3,533 = -1,591 und die Liberal und fehlenden Mittel unterscheiden sich von 0,878-3,533 = -2,655. So Teilnehmer, die nicht geben, ihre religiöse Zugehörigkeit Partituren haben Optimism, die viel näher an denen von Fundamentalisten sind als die der anderen Zugehörigkeiten.

In dem Abschnitt der Tabelle mit der Bezeichnung „Parameterschätzer“ sehen wir die Koeffizienten von -.439, 1,592 und -2,655. Sie sollten beachten, dass diese Koeffizienten zwischen jeder Gruppe Mittelwert der Differenz gleich sind und der Mittelwert der letzten (fehlt) Gruppe. Darüber hinaus stellen die t-Werte in diesem Abschnitt der Tabelle einen Signifikanztest auf den Abweichungen vom Mittelwert der fehlenden Gruppe, und wir können sehen, dass vermisste signifikant von Moderaten abweicht und Liberalen, aber nicht von Fundamentalisten. Dies legt nahe, mir, dass es ein systematisches Muster von nicht-Reaktion, die wir im Auge behalten müssen, wenn wir unsere Daten auswerten. Themen sind nicht zufällig fehlt, weil Fehlüber auf den Wert dieser Variablen abhängt. (Beachten Sie, dass der Koeffizient für die fehlende auf 0 gesetzt ist und die Aufschrift „überflüssig.“ Es ist überflüssig, denn wenn jemand nicht in der Fundamentalisten, Moderat, oder liberale Fraktion ist, wissen wir, dass sie fehlen. „Missing“, in diesem Fall, fügt keine neuen Informationen.)

orthogonal Kontraste

Man könnte geneigt sein zu lassen vermuten, dass die vorherige Analyse uns nicht genau, was wir wollen, weil es uns nicht zwischen den drei Gruppen über Beziehungen nicht sagen nicht fehlenden Mitgliedschaft haben. Im zweiten Teil ist, dass der Punkt, weil wir alle Daten in einer Weise, die erzählt uns etwas über die Menschen, die nicht reagiert haben, als auch diejenigen, die haben die nötigen Angaben enthalten wollte.

Ich werde ein wenig weg von dem Problem der fehlenden Daten bewegen, um dieses Beispiel mehr vollständig zu machen. Wenn Sie möchten, können Sie auf den nächsten Haupttitel springen. Für diejenigen, die sich auf Themen konzentrieren wollen, die religiöse Zugehörigkeit zur Verfügung gestellt, während nicht ganz jene ignorieren, die nicht eine alternative Analyse täte, würde die Verwendung von orthogonalen Kontrasten beinhalten nicht nur die Non-Responder mit allen Responder zu vergleichen, sondern auch spezifische Vergleiche machen unter den drei bekannten Gruppen. Aber denken Sie daran, dass, weil die Daten nicht die Mittel MCAR, vor allem der großen mittleren, wahrscheinlich ist, vorgespannt sein. (Wenn Fundamentalisten sind weniger wahrscheinlich, zu reagieren, und wenn sie höher Optimismus Partituren haben, wird der Gesamtmittelwert von Optimismus voreingenommen sein nach unten von dem, was hätte es gehabt hat sie geantwortet.)

Sie können SPSS (OneWay) oder ein anderes Programm verwenden, um die Kontraste in Frage auszuführen. (Oder Sie können es leicht mit der Hand). Nehmen wir an, ich bin besonders daran interessiert zu wissen, wie die Non-Responder aus dem Durchschnitt aller Responder unterscheiden, aber ich interessiere mich auch für den Vergleich der Moderaten mit den beiden anderen Gruppen identifiziert und dann die Fundamentalisten mit den Liberalen. Ich kann diese Kontraste, indem SPSS mit folgenden Koeffizienten ausgeführt werden.

Der erste Kontrast behandelt die fehlenden Antworten, die uns ein Problem verursacht haben, und die zweiten und dritte Kontraste mit den Unterschieden zwischen den identifizierten Gruppen beschäftigen. Die Ergebnisse dieser Analyse sind nachfolgend dargestellt. (Ich habe diese Arbeit mit SPSS Syntax ausgeführt werden, da es sinnvollen Ausdruck erzeugt.)

Tabelle 3 OneWay Varianzanalyse auf Optimism mit Orthogonal Gegensatz


Beachten Sie in Tabelle 3, dass die Gegensätze werden berechnet mit und ohne Bündelung von Fehlertermen. In unserem speziellen Fall sind die Abweichungen ausreichend gleich uns zu erlauben, Fehler zu bündeln, aber in der Tat, für diese Daten würde es keinen wesentlichen Unterschied zu den Ergebnissen machen, die Analyse, die wir verwenden. In 3 Tabelle sehen Sie, dass alle von den Kontrasten von Bedeutung sind. Dies bedeutet, dass nicht-Respondern von signifikant unterschiedlich sind (und optimistischer als) Responder, dass Fundamentalisten und moderiert kombiniert sind optimistischer als Liberals und dass Fundamentalisten sind wiederum optimistischer als Moderate.

Ich habe diese letzte Analyse vorgestellt, um den Punkt zu machen, dass Sie nicht eine Sache, indem die fehlenden Fälle in Ihrer Analyse in Bezug auf Durchführung der Analyse ohne fehlende Beobachtungen verloren haben. Die zweite und dritte Kontraste sind genau die gleichen, wie Sie laufen würde, wenn man nur die drei identifizierten Gruppen benutzt hatte. Allerdings enthält diese Analyse die Variabilität der Optimism Partituren aus der fehlenden Gruppe in die Fehlerterm zu bestimmen, Ihnen etwas mehr Freiheitsgrade geben. In gewisser Weise können Sie Ihren Kuchen haben und ihn auch essen, obwohl, wie ich oben erwähnt, ist die mittlere Gesamt zu voreingenommen relativ ist, was würde es uns gesammelte vollständige Daten hatte wurde.

Diese Situation, wo Daten über die Gruppenmitgliedschaft fehlt, wird durch die Analyse oben behandelt. Beachten Sie, dass, anders als der Gesamtmittelwert ist die Analyse nicht abhängig von der Art des Mechanismus hinter Fehlüber, die in der Tat durch die Analyse gerichtet ist. Dies wird nicht unbedingt der Fall sein, in der folgenden Analyse, in denen die Art des Fehlüber wichtig ist.

1.5 Der allgemeineren Fall fehlt abhängige Variablen

Wir haben eine andere Art von Problem, wenn wir Daten auf die abhängige Variable fehlt, die die Ergebnisse unserer Studie viel schwieriger zu interpretieren macht. Wenn unsere Daten sind in Form einer Einwegvarianzanalyse, und wenn wir davon ausgehen können, dass die Daten völlig zufällig fehlen, sind die Dinge nicht besonders schlimm. Wir werden Macht verlieren, weil der kleineren Probengrößen, und die Mittel für größere Gruppen mit weniger Fehlern als Mittel kleinerer Gruppen geschätzt werden, aber wir werden keine Probleme mit verzerrten Schätzungen haben. Aber bedenken Sie, dass ich hier von Daten bin zu sprechen, die völlig zufällig fehlen.

Aber nehmen sich an, dass unsere Daten nicht vollständig zufällig fehlen. Nehmen wir an, dass wir zwei Behandlungen für Hypertonie vergleichen. Im Ideal Studie haben wir alle Teilnehmer nehmen die Medikamente sie verschrieben werden und dann vergleichen wir Blutdruckwerte am Ende der Behandlung. Aber in der realen Welt wissen wir, dass es in medizinischen Studien in der Regel ein Dropout Problem. Insbesondere diejenigen, die durch die Behandlung nicht geholfen werden, sind eher herausfallen, oder zu sterben. Wenn ein Medikament sehr erfolgreich ist und der andere ist so ziemlich ein Fehler auftritt, wird die endgültige Probengröße sehr viel kleiner in der zweiten Behandlung. Darüber hinaus ist die, die bleiben, und dessen Blutdruck schließlich gemessen wird, ist wahrscheinlich diejenigen sein, die von der Behandlung profitierten. Also, wenn wir sehen, dass die Mittel der beiden Gruppen nahezu gleich sind am Ende der Behandlung, könnten wir zu dem Schluss geführt, dass die beiden Behandlungen gleich wirksam sind. In der Tat war man eine schreckliche Behandlung, aber wir haben keine Daten von seinem haben „Ausfälle.“ In einer solchen Einstellung machen fehlende Daten die Interpretation der Mittel ziemlich riskant. (Vielleicht ist die am besten geeignete Statistik würde die Dropout-Rate sein anstelle des Mittelwerts.)

Fehlende Daten Imputation

Dies ist, wo ich werde eine separate Web-Seite auf das Problem der fehlenden abhängigen Variablen abzuspalten und erstellen. Die Techniken, gibt es durchaus etwas anspruchsvolle, dass die, die wir bisher gesehen haben, aber mit Software, die jetzt allgemein verfügbar ist, gibt es viel, dass wir unsere Studie retten tun können. Um fortzufahren, gehen Sie zu Fehlende Daten Anrechnungs

Alternative Software Solutions

Ich habe gezeigt, wie dies mit NORM zu tun. Ich wurde von einem ehemaligen Schüler gefragt, ob ich etwas schreiben könnte, dass ein Schritt-für-Schritt-Ansatz zur Verwendung von NORM war, und das Dokument auf „MissingDataNorm.html“ zur Verfügung.

Sie können auch etwas ähnliches mit SPSS und SAS tun. Darüber hinaus gibt es ein R-Programm namens Amelia (zu Ehren von Amelia Earhart). Ich habe geschrieben (oder schreibt) Anweisungen für die Verwendung dieser Programme. Ein wichtiger Punkt ist jedoch, dass jedes Programm seinen eigenen Algorithmus verwendet, um Daten für die Zuschreibung, und es ist nicht immer klar, was genau Algorithmus sie verwenden. Für alle praktischen Zwecke ist es wahrscheinlich keine Rolle, aber ich würde gerne wissen.

Die Fortsetzung Seite für die aktuelle Seite kann bei fehlenden Daten Zweiten Teils gefunden werden.

Referenzen

Cohen, J. - Cohen, P. (1983) multiple Regression / Korrelationsanalyse für die Verhaltenswissenschaften Angewandte Hillsdale, NJ: Erlbaum (2. Aufl.).. Rückkehr

Kleiner, R.J.A. - Rubin, D. B. (1987) Die statistische Analyse mit fehlenden Daten. New York, Wiley. Rückkehr

In Verbindung stehende Artikel