Toleranceinterval

Hovedartikel: Intervalestimation

Toleranceintervallet er mindre kendt end konfidensintervallet og forudsigelsesintervallet, hvilket nogle undervisere har beklaget, da det kan føre til misbrug af de andre intervaller, hvor et toleranceinterval er mere passende.

Toleranceintervallet adskiller sig fra et konfidensinterval ved, at konfidensintervallet afgrænser en enkeltværdi af en populationsparameter (for eksempel middelværdien eller variansen) med en vis sikkerhed, mens toleranceintervallet afgrænser det område af dataværdier, der omfatter en bestemt andel af populationen. Mens et konfidensintervals størrelse udelukkende skyldes stikprøvefejl og vil nærme sig et nulbreddeinterval ved den sande populationsparameter, når stikprøvestørrelsen øges, skyldes et toleranceintervals størrelse dels stikprøvefejl og dels den faktiske varians i populationen og vil nærme sig populationens sandsynlighedsinterval, når stikprøvestørrelsen øges.

Toleranceintervallet er beslægtet med et forudsigelsesinterval, idet begge sætter grænser for variationen i fremtidige stikprøver. Forudsigelsesintervallet afgrænser imidlertid kun en enkelt fremtidig prøve, hvorimod et toleranceinterval afgrænser hele populationen (tilsvarende en vilkårlig række fremtidige prøver). Med andre ord dækker et forudsigelsesinterval en bestemt andel af en population i gennemsnit, mens et toleranceinterval dækker den med et bestemt konfidensniveau, hvilket gør toleranceintervallet mere hensigtsmæssigt, hvis et enkelt interval skal afgrænse flere fremtidige prøver.

EksemplerRediger

giver følgende eksempel:

Så tænk endnu en gang på det berømte scenario med en EPA-kilometertest, hvor flere nominelt identiske biler af en bestemt model testes for at producere kilometertallene y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},…,y_{n}}

y_{1},y_{2},...,y_{n}

. Hvis sådanne data behandles for at frembringe et 95 % konfidensinterval for modellens gennemsnitlige kilometertal, er det f.eks. muligt at bruge det til at fremskrive det gennemsnitlige eller samlede benzinforbrug for den fremstillede flåde af sådanne biler i løbet af deres første 5.000 miles i brug. Et sådant interval ville imidlertid ikke være til megen hjælp for en person, der lejer en af disse biler og spekulerer på, om den (fyldte) 10-gallons benzintank vil være tilstrækkelig til at transportere ham de 350 miles til sin destination. Til den opgave ville et forudsigelsesinterval være langt mere nyttigt. (Overvej de forskellige konsekvenser af at være “95% sikker” på, at μ ≥ 35 {\displaystyle \mu \geq 35}

\mu \geq 35

i modsætning til at være “95% sikker” på, at y n + 1 ≥ 35 {\displaystyle y_{n+1}\geq 35}

y_{{{n+1}}}\geq 35

.) Men hverken et konfidensinterval for μ {\displaystyle \mu }

\mu

eller et forudsigelsesinterval for en enkelt ekstra kilometerstand er præcis det, som en konstruktør, der har til opgave at bestemme, hvor stor en benzintank modellen reelt skal have for at garantere, at 99 % af de producerede biler vil have en rækkevidde på 400 mil, har brug for. Det, ingeniøren virkelig har brug for, er et toleranceinterval for en brøkdel p = .99 {\displaystyle p=.99}

p=.99

af kilometertallet for sådanne biler.

Et andet eksempel er givet ved:

Luftblyindholdet blev indsamlet fra n = 15 {\displaystyle n=15}

n=15

forskellige områder i anlægget. Det blev bemærket, at de log-transformerede blyniveauer passede godt til en normalfordeling (det vil sige, at dataene er fra en lognormalfordeling. Lad μ {\displaystyle \mu }

\mu

og σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

henholdsvis populationens middelværdi og varians for de log-transformerede data. Hvis X {\displaystyle X}

X

betegner den tilsvarende tilfældige variabel, har vi således X ∼ N ( μ , σ 2 ) {\displaystyle X\sim {\mathcal {N}}}(\mu ,\sigma ^{2})}

X\sim {\mathcal {N}}(\mu ,\sigma ^{2})

. Vi bemærker, at exp ( μ ) {\displaystyle \exp(\mu )}

{\displaystyle \exp(\mu )}

er medianen af blyindholdet i luften. Et konfidensinterval for μ {\displaystyle \mu }

\mu

kan konstrueres på den sædvanlige måde, baseret på t-fordelingen; dette vil igen give et konfidensinterval for medianen af blyindholdet i luften. Hvis X ¯ {\displaystyle {\bar {\bar {X}}}}

{\bar {X}}}

og S {\displaystyle S}

S

betegner stikprøvens gennemsnit og standardafvigelse for de log-transformerede data for en stikprøve af størrelse n, er et 95 % konfidensinterval for μ {\displaystyle \mu }

\mu

er givet ved X ¯ ± t n – 1 , 0,975 S / ( n ) {\displaystyle {\bar {\bar {X}}}\pm t_{n-1,0,975}S/{\sqrt {(}}}n)}

{\bar {X}}}\pm t_{{{n-1,0.975}}}S/{\sqrt (}n)

, hvor t m , 1 – α {\displaystyle t_{m,1-\alpha }}

t_{{{m,1-\alpha }}

betegner den 1 – α {\displaystyle 1-\alpha }

1-\alpha

quantile af en t-fordeling med m {\displaystyle m}

m

frihedsgrader. Det kan også være af interesse at udlede en øvre 95 % konfidensgrænse for medianen af blyindholdet i luften. En sådan grænse for μ {\displaystyle \mu }

\mu

er givet ved X ¯ + t n – 1 , 0,95 S / n {\displaystyle {\bar {X}}}+t_{n-1,0,95}S/{\sqrt {n}}}}

{\bar {X}}}+t_{{{n-1,0.95}}}S/{\sqrt {n}}}

. Følgelig er en øvre 95 % konfidensgrænse for medianen af luftledninger givet ved exp ( X ¯ + t n – 1 , 0,95 S / n ) {\displaystyle \exp {\left({\bar {X}}}+t_{n-1,0,95}S/{\sqrt {n}}\right)}}

\exp {\left({\bar {X}}}+t_{{{n-1,0.95}}}S/{\sqrt {n}}}\right)}

. Lad os nu antage, at vi ønsker at forudsige blyindholdet i luften i et bestemt område i laboratoriet. En 95% øvre forudsigelsesgrænse for det log-transformerede blyniveau er givet ved X ¯ + t n – 1 , 0,95 S ( 1 + 1 / n ) {\displaystyle {\bar {\bar {X}}}+t_{n-1,0,95}S{\sqrt {\left(1+1/n\right)}}}

{\bar {X}}}+t_{{{n-1,0.95}}}S{\sqrt {\left(1+1/n\right)}}

. Et tosidet forudsigelsesinterval kan beregnes på samme måde. Betydningen og fortolkningen af disse intervaller er velkendt. For eksempel, hvis konfidensintervallet X ¯ ± t n – 1 , 0,975 S / n {\displaystyle {\bar {\bar {X}}}\pm t_{n-1,0,975}S/{\sqrt {n}}}}

{\bar {X}}}\pm t_{{{n-1,0.975}}}S/{\sqrt {n}}}

beregnes gentagne gange ud fra uafhængige stikprøver, vil 95% af de således beregnede intervaller omfatte den sande værdi af μ {\displaystyle \mu }

\mu

, i det lange løb. Med andre ord er det meningen, at intervallet skal give oplysninger om parameteren μ {\displaystyle \mu }

\mu

kun. Et forudsigelsesinterval har en lignende fortolkning og er kun beregnet til at give oplysninger om et enkelt ledningsniveau. Lad os nu antage, at vi ønsker at bruge stikprøven til at konkludere, om mindst 95 % af befolkningens blyindhold ligger under en tærskelværdi eller ej. Tillidsintervallet og forudsigelsesintervallet kan ikke besvare dette spørgsmål, da tillidsintervallet kun gælder for medianblyniveauet, og forudsigelsesintervallet kun gælder for et enkelt blyniveau. Det, der er behov for, er et toleranceinterval, nærmere bestemt en øvre tolerancegrænse. Den øvre tolerancegrænse skal beregnes under forudsætning af, at mindst 95 % af blyniveauerne i befolkningen ligger under grænsen med et bestemt konfidensniveau, f.eks. 99 %.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.