Statistische Begriffe in Sampling

Lassen Sie uns beginnen, indem sie einige sehr einfache Begriffe definiert, die hier relevant sind. Zuerst schauen wir uns die Ergebnisse unserer Bemühungen Probenahme aussehen. Wenn wir probieren, die Einheiten, die wir probieren - in der Regel Menschen - liefern uns eine oder mehrere Antworten. In diesem Sinne ist eine Reaktion ein bestimmte Messwert, der eine Abtasteinheit liefert. In der Figur ist die Person auf ein Vermessungsinstrument reagiert und gibt eine Antwort von ‚4‘. Wenn wir über die Antworten suchen, die wir für unsere gesamte Probe zu erhalten, verwenden wir eine Statistik. Es gibt eine Vielzahl von Statistiken, die wir verwenden können - Mittelwert, Median, Modus, und so weiter. In diesem Beispiel sehen wir, dass die mittlere oder durchschnittliche für die Probe 3,75 ist. Aber der Grund, warum wir probieren, damit wir eine Schätzung für die Bevölkerung erhalten wir aus abgetastet. Wenn wir könnten, würden wir viel lieber die gesamte Bevölkerung zu messen. Wenn Sie die gesamte Bevölkerung messen und ein Wert wie ein Mittelwert oder Durchschnitt berechnen, wir beziehen sich nicht auf diese als Statistik, nennen wir es ein Parameter der Bevölkerung.

Die Stichprobenverteilung

So wie wir aus unserer Stichprobe Statistik zu einer Schätzung des Populationsparameters erhalten? Ein entscheidende Mitte Konzept müssen Sie verstehen, ist die Stichprobenverteilung. Um sich zu verstehen, müssen Sie in der Lage und bereit sein, ein Gedankenexperiment zu tun. Stellen Sie sich vor, dass statt nur eine einzige Probe nehmen, wie wir in einer typischen Studie tun, Sie haben drei unabhängige Proben der gleichen Bevölkerung. Und außerdem vorstellen, dass für jede Ihrer drei Proben, Sie eine einzige Antwort gesammelt und eine einzige Statistik berechnet, sagen, den Mittelwert der Antwort. Obwohl alle drei Proben aus derselben Population kamen, würde man nicht erwarten, die genau die gleiche Statistik von jedem zu erhalten. Sie würden unterscheiden sich geringfügig nur aufgrund der zufälligen „Losglück“ oder zu den natürlichen Schwankungen oder Launen der eine Probe zu ziehen. Aber man würde erwarten, dass alle drei Proben würden eine ähnliche statistische Schätzung ergeben, weil sie aus derselben Population gezogen wurden. Nun, für den Sprung der Phantasie! Stellen Sie sich vor, dass Sie eine unendliche Anzahl von Proben aus derselben Population haben und berechnet den Durchschnitt für jeden einzelnen. Wenn Sie sie in einem Histogramm oder Balkendiagramm aufgetragen werden Sie feststellen, dass die meisten von ihnen auf dem gleichen zentralen Wert konvergieren und dass Sie bekommen immer weniger Proben, die Mittelwert weiter weg nach oben oder unten von diesem zentralen Wert. Mit anderen Worten, würde das Balkendiagramm auch durch die Glockenkurvenform beschrieben, die eine Anzeige einer „normalen“ Verteilung in der Statistik ist. Die Verteilung von einer unendlichen Anzahl von Proben der gleichen Größe wie die Probe in Ihrer Studie wird als Stichprobenverteilung bekannt. Wir nicht immer tatsächlich eine Stichprobenverteilung aufzubauen. Warum nicht? Sie zahlen nicht Aufmerksamkeit! Weil es zu konstruieren, würden wir eine unendliche Anzahl von Proben und zumindest ich das letzte Mal überprüft, auf diesem Planeten unendlich ist keine Zahl, die wir wissen, wie man erreichen nehmen. Warum also reden wir auch über eine Stichprobenverteilung? Nun, das ist eine gute Frage! Weil wir müssen erkennen, dass unsere Probe nur eine von einer potentiell unendlichen Anzahl von Proben, die wir genommen haben könnten. Wenn wir die Stichprobenverteilung im Auge zu behalten, erkennen wir, dass, während die Statistik wir von unserer Probe bekamen ist wahrscheinlich in der Nähe der Mitte der Stichprobenverteilung (weil die meisten der Proben dort wären) wir eine der extremen Proben hätten bekommen nur durch das Glück der Auslosung. der Durchschnitts des Mittelwert von einer unendlichen Anzahl von Proben - - Wenn wir den Durchschnitt der Stichprobenverteilung nehmen würden wir viel näher an den wahren Bevölkerungsdurchschnitt - der Parameter von Interesse. So ist der Durchschnitt der Stichprobenverteilung ist im wesentlichen äquivalent zu dem Parameter. Aber was ist die Standardabweichung der Stichprobenverteilung (OK, nie Statistik hatte? Es gibt eine beliebige Anzahl von Stellen im Internet, wo man über sie lernen kann, oder auch nur auffrischen, wenn Sie rostig bekommen haben. Das ist nicht einer von sie. ich gehe davon aus, dass Sie zumindest wissen, was eine Standardabweichung ist, oder dass Sie sind in der Lage, herauszufinden, relativ schnell). Die Standardabweichung der Stichprobenverteilung sagt uns etwas darüber, wie verschiedene Proben verteilt würden. In der Statistik wird es als Standardfehler bezeichnet (so können wir halten Sie es von Standardabweichungen in unseren Köpfen trennen. Verwirrt? Gehen Sie eine Tasse Kaffee bekommen und in 10 Minuten zurückkommen. OK, lassen Sie uns noch einmal versuchen. Eine Standardabweichung die Streuung der Punkte um den Mittelwert in einer einzigen Probe. der Standardfehler ist die Streuung der Mittelwerte um den Mittelwert der Mittelwerte in einer Stichprobenverteilung. Verstanden?)

Stichprobenfehler

In Probenahme Kontexten wird der Standardfehler Abtastfehler genannt. Stichprobenfehler gibt uns eine Vorstellung von der Präzision unserer statistischen Schätzung. Ein niedriger Abtastfehler bedeutet, dass wir relativ weniger Variabilität oder einen Bereich in der Stichprobenverteilung hatten. Aber hier gehen wir wieder - wir eigentlich nie die Stichprobenverteilung sehen! So, wie Sie berechnen Abtasten wir Fehler? Wir stützen unsere Berechnung auf der Standardabweichung der Probe. Je größer die Proben-Standardabweichung, desto größer ist der Standardfehler (und der Stichprobenfehler). Der Standardfehler wird auch auf die Probengröße. Je größer Ihre Stichprobengröße, desto kleiner ist der Standardfehler. Warum? Da die größer die Stichprobengröße, desto näher Ihre Probe ist auf die tatsächliche Bevölkerung selbst. Wenn Sie eine Probe nehmen, die der gesamten Bevölkerung besteht eigentlich Sie kein Stichprobenfehler haben, weil Sie keine Probe haben, haben Sie die gesamte Bevölkerung. In diesem Fall schätzt die mittlere Sie ist der Parameter.

Die 68, 95, 99-Prozent-Regel

Nun, hier ist, wo alles in einem großen aha zusammen kommen soll! Erfahrung, wenn Sie folgende entlang habe. Wenn wir hatten eine Stichprobenverteilung. wir könnten die 68, 95 und 99% Konfidenzintervall für in denen die Bevölkerung Parameter sein sollte vorherzusagen! Und ist das nicht, warum wir in erster Linie abgetastet? Damit wir könnten vorhersagen, wo die Bevölkerung auf diese Variable ist? Es gibt nur einen Haken. Wir haben nicht wirklich die Stichprobenverteilung haben (das ist jetzt das dritte Mal, dass ich dies in diesem Essay gesagt habe)! Aber wir haben die Verteilung für die Probe selbst. Und wir können aus dieser Verteilung schätzen den Standardfehler (der Stichprobenfehler), weil es auf der Standardabweichung basiert und wir haben das. Und natürlich, wir wissen nicht wirklich die Bevölkerung Parameterwert - wir versuchen, das herauszufinden - aber wir können unsere beste Schätzung für das verwenden - die Stichprobenstatistik. Nun, wenn wir den Mittelwert der Stichprobenverteilung (oder stellen Sie den Mittelwert aus unserer Stichprobe) und wir haben eine Schätzung der Standardabweichung (wir berechnen, dass aus unserem Beispiel), dann haben wir die zwei wichtigsten Zutaten, die wir brauchen für unsere Stichprobenverteilung, um Konfidenzintervalle für den Populationsparameter zu schätzen.

Vielleicht wird ein Beispiel helfen. Nehmen wir an, wir eine Studie gemacht und zog aus der Bevölkerung eine einzelne Probe. Außerdem nehmen wir an, dass der Durchschnitt für die Probe betrug 3,75 und die Standardabweichung betrug 0,25. Dies ist die Rohdaten Verteilung oben dargestellt. jetzt, was würde die Stichprobenverteilung in diesem Fall? Nun, wir bauen nicht wirklich es (weil wir eine unendliche Anzahl von Proben nehmen müssen), aber wir können es schätzen. Für den Anfang gehen wir davon aus, dass der Mittelwert der Stichprobenverteilung der Mittelwert der Probe, die 3,75 ist. Dann berechnen wir den Standardfehler. Um dies zu tun, werden wir die Standardabweichung für unsere Probe verwenden und die Stichprobengröße (in diesem Fall N = 100) und wir kommen mit einem Standardfehler von .025 (vertrauen nur mir auf diesem). Jetzt haben wir alles, was wir brauchen einen Konfidenzintervall für den Populationsparameter zu schätzen. Wir würden schätzen, dass die Wahrscheinlichkeit von 68% ist, dass der wahre Parameterwert liegt zwischen 3.725 und 3.775 (d 3,75 plus und minus .025); dass der 95% Konfidenzintervall von 3,700 bis 3,800; und dass wir mit 99% Sicherheit sagen, dass die Bevölkerung Wert zwischen 3,675 und 3,825. Der reale Wert (in diesem fiktiven Beispiel) war 3,72 und so haben wir geschätzt, richtig, diesen Wert mit unserer Stichprobe.