Chi-Quadrat-Test

Chi-Quadrat-Suchtest Datenkategorien

Hintergrund: Der t-Test und Varianzanalyse Student verwendet werden Messdaten zu analysieren, die in der Theorie, sind stufenlos regelbar. Zwischen einer Messung von beispielsweise 1 m und 2 m m m gibt es einen fortlaufenden Bereich von 1,0001 bis 1,9999 m m.

Aber bei einigen Arten von Experiment wollen wir erfassen, wie viele Menschen fallen in eine bestimmte Kategorie, wie blaue Augen oder braune Augen, motile oder unbewegliche Zellen usw. Diese Zählungen oder enumerationdata. diskontinuierlich sind (1, 2, 3 etc.) und müssen unterschiedlich von fortlaufenden Daten behandelt werden. Oft ist der entsprechende Test ist Chi-Quadrat (c 2), die wir zu testen, ob die Anzahl der Personen in verschiedenen Kategorien eine Nullhypothese passen (eine Erwartung irgendeiner Art).

Chi-Quadrat-Analyse ist einfach, und wertvoll für alle möglichen Dinge - nicht nur Mendel'sche Kreuze! Auf dieser Seite bauen wir von den einfachsten Beispielen zu komplexeren. Wenn Sie die Beispiele gegangen sind, sollten Sie durch die Checkliste der Verfahren und möglichen Gefahren beraten.

Nehmen wir an, dass das Verhältnis von männlichen zu weiblichen Studenten in der Fakultät ist genau 1: 1, aber in der Pharmakologie Honors Klasse in den letzten zehn Jahren gab es 80 Frauen gewesen und 40 Männer. Ist dies eine erhebliche Abweichung von Erwartung? Wir gehen Sie wie folgt vor (aber beachten Sie, dass wir einen sehr wichtigen Punkt übersehen werden, dass wir mit später beschäftigen werden).

Set aus einer Tabelle, wie unten gezeigt, wobei die „beobachteten“ Zahlen und die „erwarteten“ Zahlen (d.h. unsere Nullhypothese).

Dann subtrahiert jeden „erwarteten“ Wert von dem entsprechenden „beobachtet“ -Wert (O-E)

Square "O-E" -Werte, und teilen die jeweils durch den entsprechenden "erwarteten" Wert zu geben (O-E) 2 / E

Fügen Sie alle (O-E) 2 / E-Werte und rufen Sie die Gesamt "X 2"

Notizen:
Diese Summe * 1 muss immer die gleiche sein wie die beobachtete Gesamt
Diese Summe * 2 muss immer Null sein
* 3 Die Nullhypothese war hier offensichtlich: uns gesagt, dass es die gleiche Anzahl von Männern und Frauen in der Wissenschaft Fakultät ist, könnten wir also erwarten, dass es die gleiche Anzahl von Männern und Frauen in Pharmakologie sein wird. Also haben wir unsere Gesamtzahl der Pharmakologie Studenten teilen (120) in einem 1: 1-Verhältnis zu erhalten unsere # 145; erwartet # 146; Werte.

Nun müssen wir unseren X 2 -Wert mit einem c 2 vergleichen (Chi-Quadrat-Wert) in einer Tabelle von c 2 mit n-1 Freiheitsgraden (wobei n die Anzahl der Kategorien ist d 2 in unserem Fall -. Männer und Frauen). Wir haben nur einen Freiheitsgrad (n-1). Von der c 2 Tabelle finden wir einen „kritischen Wert von 3,84 für p = 0,05.

Wenn unser berechneter Wert von X 2 den kritischen Wert von c 2 übersteigt, dann haben wir einen signifikanten Unterschied von der Erwartung. In der Tat, unsere berechneten X 2 (13,34) übertrifft sogar den tabellierten c 2-Wert (10,83) für p = 0,001. Dies zeigt eine extreme Abweichung von Erwartung. Es ist immer noch möglich, dass wir dieses Ergebnis durch Zufall bekommen haben könnte - eine Wahrscheinlichkeit von weniger als 1 in 1000. Aber wir konnten 99,9% sicher sein, dass einige Faktor auf einen „bias“ führt in Richtung Frauen Pharmacology Honors eintreten. [Natürlich müssen die Daten uns nicht sagen, warum das so ist - es könnte Selbstselektion oder aus irgendeinem anderen Grund sein]

Nun, diese Analyse wiederholen, aber zu wissen, dass 33,5% aller Studierenden in der Fakultät Männchen

Beobachtete Nummern (O)

Erwartete Zahlen (E)

* Anmerkung 1: Wir wissen, dass die erwartete Gesamt 120 sein (das gleiche wie das beobachtete insgesamt), so können wir die erwarteten Zahlen als 66,5% und 33,5% dieser Summe berechnen.

Hinweis * 2: Diese Summe muss immer Null sein.

Einige wichtige Punkte über Chi-Quadrat

Chi-Quadrat eine mathematische Verteilung mit Eigenschaften, die es uns ermöglichen, unsere berechnet X 2 Werte c 2 Werte zu. Die Details müssen betreffen uns nicht, aber wir müssen wegen einiger Einschränkungen nehmen, so dass c 2 kann wirksam für statistische Tests verwendet werden.

(I) Yates-Korrektur für zwei Kategorien von Daten (ein Freiheitsgrad)

Wenn es nur zwei Kategorien (beispielsweise männlich / weiblich), oder, genauer gesagt, wenn es nur ein Freiheitsgrad ist, sollte der C-2-Test nicht, ausschließlich, verwendet werden. Es gibt verschiedene Versuche, diesen Mangel zu beheben, aber die einfachste ist Yates Korrektur auf unsere Daten anzuwenden. Um dies zu tun, ziehen wir einfach 0,5 von jedem berechneten Wert von „O-E“, ignoriert das Vorzeichen (plus oder minus). Mit anderen Worten wird eine „O-E“ -Wert von +5 +4,5, und eine „O-E“ -Wert von -5 -4.5 wird. Um anzuzeigen, dass wir den absoluten Wert reduzieren, ohne auf das Zeichen, die wir verwenden vertikale Linien: | O-E | -0.5. Dann geht es weiter wie gewohnt, aber mit diesen neuen (korrigierten) OE Werte: wir berechnen (mit den korrigierten Werten) (OE) 2. (OE) 2 / E und dann fassen die (OE) 2 / E-Werte X 2 zu erhalten. Yates Korrektur gilt nur, wenn wir zwei Kategorien haben (ein Freiheitsgrad).

Wir ignorierten diesen Punkt in unserer ersten Analyse der Schülerzahlen (siehe oben). Also hier ist die Tabelle wieder, mit Yates-Korrektur:

In diesem Fall waren die beobachteten Zahlen so verschieden von dem erwarteten 1: 1-Verhältnis, die Yates Korrektur wenig Unterschied gemacht - es verringerte nur den X 2 -Wert von 13,34 bis 12,67. Aber es wäre andere Fälle, in denen Yates Korrektur die Differenz zwischen der Annahme oder Ablehnung der Nullhypothese machen würde.

(Ii) Beschränkungen hinsichtlich der Zahlen in „erwartet“ Kategorien

Wieder die mathematischen Annahmen erfüllen relativ große zugrunde liegenden c 2. sollten die erwarteten Werte sein. Die folgenden einfachen Regeln angewendet:

  • nicht zu erwarten Kategorie weniger als 1 (es spielt keine Rolle, was die beobachteten Werte sind)
  • Und nicht mehr als ein Fünftel der erwarteten Kategorien sollen als 5 weniger sein.

Was können wir tun, wenn unsere Daten, die diese Kriterien nicht erfüllen? Wir entweder größere Proben sammeln können, so dass wir die Kriterien erfüllen, oder wir können die Daten für die kleineren „erwarteten“ Kategorien kombinieren, bis ihr kombinierten erwarteter Wert 5 oder mehr beträgt, dann tut einen c 2-Test auf den kombinierten Daten. Wir werden ein Beispiel siehe unten.

Chi-Quadrat mit drei oder mehr Kategorien

Nehmen wir an, dass wir die Ergebnisse einer Mendelschen genetischen Kreuzung testen möchten. Wir beginnen mit 2 Eltern-Genotyp AABB und AABB (wobei A und A die dominanten und rezessiven Allele eines Gens darstellen, und B und B repräsentieren die dominanten und rezessiven Allelen eines anderen Gens).

Wir wissen, dass die gesamte F1-Generation (erste Generation Nachkommen dieser Eltern) wird Genotyp AaBb haben und dass ihre Phänotyp sowohl dominante Allele angezeigt werden (zB in Fruchtfliegen alle die F1-Generation roten Augen eher als weiße Augen haben, und normale Flügel eher als Stummelflügel).

Diese F1-Generation wird 4 Arten von Gameten (AB, AB, ab und ab) erzeugt, und wenn wir die F1-Generation selbst überqueren wir mit einer Vielzahl von F2 Genotypen am Ende werden (siehe Tabelle unten).

Einer unserer erwarteten Kategorien (ab) weniger als 5 (fett und kursiv in der Tabelle gezeigt). So haben wir diese Kategorie mit einem der anderen kombiniert und dann müssen die Ergebnisse mit einem erwarteten Verhältnis von 9 zu analysieren: 3: 4. Die Zahlen in den erwarteten Kategorien wurden durch Division der Summe (70) in diesem Verhältnis eingegeben.

Jetzt, mit 3 Kategorien haben wir nur zwei Freiheitsgrade. Der Rest der Analyse wird wie üblich durchgeführt, und wir haben noch keinen Grund, die Nullhypothese abzulehnen. Aber es ist eine andere Null-Hypothese: das erwartete Verhältnis 9: 3: 4 (Doppel dominant: single dominant Ab: single dominant aB Plus Doppel rezessive ab).

Chi-Quadrat: Doppel Klassifikationen

Nehmen wir an, dass wir eine Bevölkerung von Pilzsporen haben, die deutlich fallen in zwei Größenklassen, groß und klein. Wir brüten diese Sporen auf Agar und die Anzahl der Sporen zählen, die durch die Herstellung eines einzigen Auswuchs oder mehrere Auswüchse keimen.

120 Sporen große, von denen 80 mehrere Ausstülpungen bilden, und 40 erzeugen einzige Auswüchse
60 kleine Sporen, von denen 18 und 42 mehr Auswüchse erzeugen einzelne Auswüchsen bilden

Gibt es einen signifikanten Unterschied in der Art und Weise, dass große und kleine Sporen keimen?

1. Eine Tabelle wie folgt aus

In diesem Fall gibt es keine „Theorie“, die uns eine offensichtliche Nullhypothese gibt. Zum Beispiel haben wir keinen Grund zu der Annahme, dass 55% oder 75% oder andere Prozentsatz von großen Sporen mehr Auswüchse produzieren. So ist die vernünftigste Nullhypothese ist, dass sowohl die großen und die kleinen Sporen ähnlich verhalten und dass beide Arten von Spore 50% mehr Auswüchse und 50% einzelne Auswüchse produzieren. Mit anderen Worten, prüfen wir vor einem 1: 1: 1: 1-Verhältnis. Dann wird, wenn unsere Daten mit dieser Erwartung nicht einverstanden sind wir haben Beweise dafür, dass Sporengrße die Art der Keimung beeinflusst.

3. Berechnen Sie die erwarteten Frequenzen, basierend auf der Nullhypothese.

Dieser Schritt wird durch die Tatsache erschwert, dass wir eine unterschiedliche Anzahl von großen und kleinen Sporen und eine unterschiedliche Anzahl von mehreren gegen einzelne Auswüchse haben. Wir können jedoch die erwarteten Frequenzen finden (a. B. C und d) durch die Gesamtsumme unter Verwendung von (180) und die Spalten- und Zeilensummen (siehe Tabelle unten).

Um den erwarteten Wert „a“ finden wir wissen, dass insgesamt 98 Sporen mehrere Auswüchsen hatte und dass 120 der insgesamt 180 Sporen waren groß. So ist eine 98 (120/180) = 65,33.

In ähnlicher Weise zu finden b wir wissen, dass 98 Sporen mehrere Auswüchsen hatte und dass 60 der insgesamt 180 Sporen waren klein. Also, b ist 98 (60/180) = 32,67. [Dies tatsächlich einfach gemacht haben, konnten wir durch eine von der erwarteten 98 Zeilensumme abgezogen - die zu erwartende Summe immer gleich der beobachteten Gesamt sein müssen]

Für c wir wissen, dass ein 82-Sporen einzelne Auswüchse und 120 der insgesamt 180 Sporen hatten, waren groß. So c ist 82 (120/180) = 54,67.

Für d wir wissen, dass 82 Sporen einzelne Auswüchse hatten und dass 60 der insgesamt 180 Sporen waren klein. So d 82 (60/180) = 27,33. [Dieser Wert wird auch durch Subtraktion erhalten worden sein könnte]

Man könnte denken, dass es drei Freiheitsgrade sind (weil es vier Kategorien). Aber es gibt tatsächlich einen Freiheitsgrad! Der Grund dafür ist, dass wir ein Maß an Freiheit zu verlieren, weil wir vier Kategorien haben, und wir verlieren weitere 2 Freiheitsgrade, weil wir zwei Informationen verwendet, um unsere Nullhypothese zu konstruieren - wir eine Spalte insgesamt verwendet und eine Zeilensumme. Sobald wir diese wir in den restlichen Werten zu füllen wären nur eine Dateneingabe erforderlich, um benutzt hatten (daher haben wir einen Freiheitsgrad).

Natürlich mit einem Freiheitsgrad müssen wir Yates-Korrektur (subtrahieren 0,5 von jedem O-E-Wert) verwenden.

5. Führen Sie die Analyse wie gewohnt. Berechnen von O-E, (O-E) und 2 (O-E) 2 / E für jede Kategorie, dann ergibt die Summe des (O-E) 2 / E. Werte 2 X 2 und testen diese gegen c zu erhalten.

Die folgende Tabelle zeigt einige der Arbeiten. Die Summe der in rot gezeigten Werte gibt X 2 von 20.23

Wir vergleichen den X 2 -Wert mit einem tabellarischen c 2 mit einem Freiheitsgrad. Unser berechnet X 2 überschreitet die tabellierten c 2 -Wert (10,83) für p = 0,001. Wir schließen daraus, dass es eine sehr deutliche Abkehr von der Nullhypothese ist - wir sehr starke Beweise haben, dass große Sporen und kleine Sporen unterschiedliche Keimverhalten zeigen.

Checkliste: Verfahren und mögliche Gefahren

Chi-Quadrat ist ein sehr einfacher Test zu verwenden. Die einzigen potenziell schwierigen Dinge über sie sind:

Wenn Sie die Beispiele auf dieser Seite angegeben folgen sollten Sie nicht zu viele Schwierigkeiten haben.

Einige Punkte zu sehen:

Statistische Tests:
Student'st-Test die Mittel von zwei Proben zum Vergleich
Gepaart-Proben zu testen. (Wie ein t-Test, aber verwendet, wenn Daten können kombiniert werden)
Die Analyse der Varianz für über drei oder mehr Proben zu vergleichen:

Chi-squaredtest für Datenkategorien
Poisson-Verteilung für Zähldaten
Korrelationskoeffizient und Regressionsanalyse für Leitungsanschluss:

Transformation von Daten: Prozent, Logarithmen, Probits und arcsin Werte

In Verbindung stehende Artikel