Toleranzintervall

Hauptartikel: Intervallschätzung

Das Toleranzintervall ist weniger bekannt als das Konfidenzintervall und das Vorhersageintervall, was von einigen Pädagogen beklagt wird, da es zu einem Missbrauch der anderen Intervalle führen kann, wenn ein Toleranzintervall besser geeignet ist.

Das Toleranzintervall unterscheidet sich von einem Konfidenzintervall dadurch, dass das Konfidenzintervall einen einwertigen Populationsparameter (z. B. den Mittelwert oder die Varianz) mit einer gewissen Sicherheit eingrenzt, während das Toleranzintervall den Bereich der Datenwerte eingrenzt, der einen bestimmten Anteil der Population umfasst. Während die Größe eines Konfidenzintervalls vollständig auf den Stichprobenfehler zurückzuführen ist und sich mit zunehmendem Stichprobenumfang einem Intervall mit der Breite Null beim wahren Populationsparameter annähert, ist die Größe eines Toleranzintervalls zum Teil auf den Stichprobenfehler und zum Teil auf die tatsächliche Varianz in der Population zurückzuführen und nähert sich mit zunehmendem Stichprobenumfang dem Wahrscheinlichkeitsintervall der Population an.

Das Toleranzintervall ist mit einem Vorhersageintervall insofern verwandt, als beide die Variation in künftigen Stichproben begrenzen. Das Vorhersageintervall begrenzt jedoch nur eine einzige zukünftige Stichprobe, während das Toleranzintervall die gesamte Grundgesamtheit (d.h. eine beliebige Folge zukünftiger Stichproben) einschließt. Mit anderen Worten, ein Vorhersageintervall deckt im Durchschnitt einen bestimmten Anteil einer Grundgesamtheit ab, während ein Toleranzintervall diese mit einem bestimmten Konfidenzniveau abdeckt, so dass das Toleranzintervall besser geeignet ist, wenn ein einzelnes Intervall mehrere künftige Stichproben begrenzen soll.

BeispieleBearbeiten

gibt das folgende Beispiel:

Betrachten wir also noch einmal das sprichwörtliche Szenario eines EPA-Kilometertests, bei dem mehrere nominell identische Autos eines bestimmten Modells getestet werden, um die Kilometerstände y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},…,y_{n}}

y_{1},y_{2},...,y_{n}

. Wenn solche Daten verarbeitet werden, um ein 95 %-Konfidenzintervall für den mittleren Kilometerstand des Modells zu erhalten, ist es z. B. möglich, sie zu verwenden, um den mittleren oder gesamten Benzinverbrauch für die hergestellte Flotte solcher Autos über die ersten 5.000 Kilometer ihrer Nutzung zu prognostizieren. Ein solches Intervall würde jedoch einer Person, die eines dieser Autos mietet und sich fragt, ob der (volle) 10-Gallonen-Tank für die 350 Meilen bis zum Zielort ausreichen wird, nicht viel helfen. Für diese Aufgabe wäre ein Vorhersageintervall viel nützlicher. (Man bedenke die unterschiedlichen Implikationen, wenn man „95% sicher“ ist, dass μ ≥ 35 {\displaystyle \mu \geq 35}

\mu \geq 35

im Gegensatz zu „95% sicher“ zu sein, dass y n + 1 ≥ 35 {\displaystyle y_{n+1}\geq 35}

y_{{n+1}}\geq 35

.) Aber weder ein Konfidenzintervall für μ {\displaystyle \mu }

\mu

noch ein Vorhersageintervall für einen einzigen zusätzlichen Kilometerstand ist genau das, was ein Konstrukteur braucht, der bestimmen soll, wie groß der Benzintank des Modells wirklich sein muss, um zu garantieren, dass 99 % der produzierten Autos eine Reichweite von 400 Meilen haben werden. Was der Ingenieur wirklich braucht, ist ein Toleranzintervall für einen Bruchteil p = .99 {\displaystyle p=.99}

p=.99

der Laufleistung solcher Autos.

Ein anderes Beispiel ist gegeben durch:

Die Bleiwerte in der Luft wurden von n = 15 {\displaystyle n=15}

n=15

verschiedenen Bereichen innerhalb der Einrichtung gesammelt. Es wurde festgestellt, dass die logarithmisch transformierten Bleiwerte gut zu einer Normalverteilung passen (d. h. die Daten stammen aus einer Lognormalverteilung). Lassen Sie μ {\displaystyle \mu }

\mu

und σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

bezeichnen den Populationsmittelwert und die Varianz für die log-transformierten Daten. Wenn X {\displaystyle X}

X

die entsprechende Zufallsvariable bezeichnet, haben wir also X ∼ N ( μ , σ 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})}

X\sim {\mathcal {N}}(\mu ,\sigma ^{2})

. Wir stellen fest, dass exp ( μ ) {\displaystyle \exp(\mu )}

{\displaystyle \exp(\mu )}

der Median des Bleigehalts in der Luft ist. Ein Konfidenzintervall für μ {\displaystyle \mu }

\mu

kann auf die übliche Weise auf der Grundlage der t-Verteilung konstruiert werden; dies wiederum liefert ein Konfidenzintervall für den Median des Bleigehalts in der Luft. Wenn X ¯ {\displaystyle {\bar {X}}

{\bar {X}}

und S {\displaystyle S}

S

bezeichnen den Stichprobenmittelwert und die Standardabweichung der log-transformierten Daten für eine Stichprobe des Umfangs n, ein 95%-Konfidenzintervall für μ {\displaystyle \mu }

\mu

ist gegeben durch X ¯ ± t n – 1 , 0,975 S / ( n ) {\displaystyle {\bar {\}}\pm t_{n-1,0.975}S/{\sqrt {(}}n)}

{\bar {X}}\pm t_{{n-1,0.975}}S/{\sqrt (}n)

, wobei t m , 1 – α {\displaystyle t_{m,1-\alpha }}

t_{{m,1-\alpha }}

bezeichnet die 1 – α {\displaystyle 1-\alpha }

1-\alpha

Quantil einer t-Verteilung mit m {\displaystyle m}

m

Freiheitsgraden. Es kann auch von Interesse sein, eine obere Konfidenzgrenze von 95 % für den Median des Bleigehalts in der Luft abzuleiten. Eine solche Schranke für μ {\displaystyle \mu }

\mu

ist gegeben durch X ¯ + t n – 1 , 0.95 S / n {\displaystyle {\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}}

{\bar {X}}+t_{{n-1,0.95}}S/{\sqrt {n}}

. Folglich ist eine obere Konfidenzgrenze von 95 % für den Median der Luftführung gegeben durch exp ( X ¯ + t n – 1 , 0,95 S / n ) {\displaystyle \exp {\left({\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}\right)}}

\exp {\left({\bar {X}}+t_{{n-1,0.95}}S/{\sqrt {n}}\right)}

. Nehmen wir nun an, wir wollen den Bleigehalt der Luft in einem bestimmten Bereich des Labors vorhersagen. Eine 95%ige obere Vorhersagegrenze für den logarithmisch transformierten Bleispiegel ist gegeben durch X ¯ + t n – 1 , 0,95 S ( 1 + 1 / n ) {\displaystyle {\bar {X}}+t_{n-1,0,95}S{\sqrt {\left(1+1/n\right)}}

{\bar {X}}+t_{{n-1,0.95}}S{\sqrt {\left(1+1/n\right)}}

. Ein zweiseitiges Vorhersageintervall kann auf ähnliche Weise berechnet werden. Die Bedeutung und Interpretation dieser Intervalle ist allgemein bekannt. Wenn beispielsweise das Konfidenzintervall X ¯ ± t n – 1 , 0,975 S / n {\displaystyle {\bar {\bar {X}}\pm t_{n-1,0.975}S/{\sqrt {n}}}

{\bar {X}}\pm t_{{n-1,0.975}}S/{\sqrt {n}}

wiederholt aus unabhängigen Stichproben berechnet wird, werden 95% der so berechneten Intervalle den wahren Wert von μ {\displaystyle \mu }

\mu

auf lange Sicht. Mit anderen Worten: Das Intervall soll Informationen über den Parameter μ {\displaystyle \mu }

\mu

geben. Ein Vorhersageintervall ist ähnlich zu interpretieren und soll nur Informationen über einen einzigen Leitwert liefern. Nehmen wir nun an, wir wollen anhand der Stichprobe feststellen, ob mindestens 95 % der Bleikonzentrationen in der Bevölkerung unter einem Schwellenwert liegen oder nicht. Das Konfidenzintervall und das Vorhersageintervall können diese Frage nicht beantworten, da sich das Konfidenzintervall nur auf den mittleren Bleigehalt und das Vorhersageintervall nur auf einen einzigen Bleigehalt bezieht. Erforderlich ist ein Toleranzintervall, genauer gesagt, eine obere Toleranzgrenze. Die obere Toleranzgrenze ist unter der Bedingung zu berechnen, dass mindestens 95 % der Bleikonzentrationen in der Bevölkerung mit einem bestimmten Konfidenzniveau, z. B. 99 %, unter dieser Grenze liegen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.