Toleransintervallet är mindre känt än konfidensintervallet och prediktionsintervallet, en situation som vissa pedagoger har beklagat, eftersom det kan leda till felaktig användning av de andra intervallen där ett toleransintervall är mer lämpligt.
Toleransintervallet skiljer sig från konfidensintervallet på så sätt att konfidensintervallet avgränsar en populationsparameter med ett enskilt värde (t.ex. medelvärdet eller variansen) med en viss konfidens, medan toleransintervallet avgränsar intervallet för datavärden som innefattar en viss andel av befolkningen. Medan ett konfidensintervalls storlek helt och hållet beror på provtagningsfel och kommer att närma sig ett nollbreddsintervall vid den sanna populationsparametern när stickprovsstorleken ökar, beror ett toleransintervalls storlek delvis på provtagningsfel och delvis på den faktiska variationen i populationen och kommer att närma sig populationens sannolikhetsintervall när stickprovsstorleken ökar.
Toleransintervallet är besläktat med ett prediktionsintervall i det avseendet att båda sätter gränser för variationen i framtida stickprov. Prediktionsintervallet begränsar dock endast ett enda framtida prov, medan ett toleransintervall begränsar hela populationen (motsvarande en godtycklig sekvens av framtida prov). Med andra ord täcker ett prediktionsintervall i genomsnitt en specificerad andel av en population, medan ett toleransintervall täcker den med en viss konfidensnivå, vilket gör toleransintervallet mer lämpligt om ett enda intervall är avsett att avgränsa flera framtida prover.
ExempelRedigera
ger följande exempel:
Visa återigen ett scenario med ett EPA-kilometertest, där flera nominellt identiska bilar av en viss modell testas för att få fram kilometersiffrorna y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},…,y_{n}}
. Om sådana uppgifter bearbetas för att ta fram ett 95 % konfidensintervall för modellens genomsnittliga körsträcka, är det till exempel möjligt att använda dem för att beräkna den genomsnittliga eller totala bensinförbrukningen för den tillverkade bilparken av sådana bilar under de första 5 000 milen av deras användning. Ett sådant intervall skulle dock inte vara till någon större hjälp för en person som hyr en av dessa bilar och undrar om den (fulla) bensintanken på 10 gallon kommer att räcka för att transportera honom de 350 milen till sin destination. För det jobbet skulle ett prognostiserat intervall vara mycket mer användbart. (Tänk på de olika konsekvenserna av att vara ”95 % säker” på att μ ≥ 35 {\displaystyle \mu \geq 35}
jämfört med att vara ”95 % säker” på att y n + 1 ≥ 35 {\displaystyle y_{n+1}\geq 35}
.) Men varken ett konfidensintervall för μ {\displaystyle \mu }
eller ett prognosintervall för en enda extra körsträcka är exakt det som behövs för en konstruktör som har till uppgift att avgöra hur stor bensintank modellen verkligen behöver för att garantera att 99 % av de bilar som tillverkas kommer att ha en räckvidd på 400 mil. Vad ingenjören verkligen behöver är ett toleransintervall för en bråkdel p = .99 {\displaystyle p=.99}
av milenivåerna för sådana bilar.
Ett annat exempel ges av:
Blyhalten i luften samlades in från n = 15 {\displaystyle n=15}
olika områden inom anläggningen. Det noterades att de logtransformerade blyhalterna passade väl in i en normalfördelning (dvs. uppgifterna kommer från en lognormalfördelning). Låt μ {\displaystyle \mu }
och σ 2 {\displaystyle \sigma ^{2}}
, beteckna populationens medelvärde och varians för de logtransformerade uppgifterna. Om X {\displaystyle X}
betecknar motsvarande slumpvariabel har vi således X ∼ N ( μ , σ 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})}
. Vi noterar att exp ( μ ) {\displaystyle \exp(\mu )}
är medianvärdet för blyhalten i luften. Ett konfidensintervall för μ {\displaystyle \mu }
kan konstrueras på det vanliga sättet, baserat på t-fördelningen; detta ger i sin tur ett konfidensintervall för medianvärdet för blyhalten i luften. Om X ¯ {\displaystyle {\bar {\bar {X}}}}
och S {\displaystyle S}
betecknar urvalets medelvärde och standardavvikelse för de logtransformerade uppgifterna för ett urval av storlek n, kan ett 95-procentigt konfidensintervall för μ {\displaystyle \mu }
ges av X ¯ ± t n – 1 , 0,975 S / ( n ) {\displaystyle {\bar {X}}\pm t_{n-1,0,975}S/{\sqrt {(}}n)}
, där t m , 1 – α {\displaystyle t_{m,1-\alpha }}
betecknar 1 – α {\displaystyle 1-\alpha }
kvantil av en t-fördelning med m {\displaystyle m}
frihetsgrader. Det kan också vara av intresse att ta fram en övre konfidensgräns på 95 % för medianvärdet för blyhalten i luften. En sådan gräns för μ {\displaystyle \mu }
ges av X ¯ + t n – 1 , 0,95 S / n {\displaystyle {\bar {X}}+t_{n-1,0,95}S/{\sqrt {n}}}}
. Följaktligen ges en övre konfidensgräns på 95 % för medianvärdet för bly i luften av exp ( X ¯ + t n – 1 , 0,95 S / n ) {\displaystyle \exp {\left({\bar {X}}+t_{n-1,0,95}S/{\sqrt {n}}\right)}}
. Anta att vi nu vill förutsäga blyhalten i luften vid ett visst område i laboratoriet. En 95-procentig övre prediktionsgräns för den logtransformerade blyhalten ges av X ¯ + t n – 1 , 0,95 S ( 1 + 1 / n ) {\displaystyle {\bar {\bar {X}}}+t_{n-1,0,95}S{\sqrt {\left(1+1/n\right)}}}
. Ett tvåsidigt prediktionsintervall kan beräknas på samma sätt. Betydelsen och tolkningen av dessa intervall är välkända. Om till exempel konfidensintervallet X ¯ ± t n – 1 , 0,975 S / n {\displaystyle {\bar {\bar {X}}\pm t_{n-1,0,975}S/{\sqrt {n}}}}
beräknas upprepade gånger från oberoende stickprov, kommer 95 % av de intervall som beräknas på detta sätt att inkludera det sanna värdet av μ {\displaystyle \mu }
, på lång sikt. Med andra ord ska intervallet ge information om parametern μ {\displaystyle \mu }
endast. Ett prognosintervall har en liknande tolkning och är avsett att ge information endast om en enda blynivå. Anta nu att vi vill använda stickprovet för att dra slutsatser om huruvida minst 95 % av befolkningens blynivåer ligger under ett tröskelvärde eller inte. Konfidensintervallet och prediktionsintervallet kan inte besvara denna fråga, eftersom konfidensintervallet endast gäller medianen av blyhalten och prediktionsintervallet endast gäller en enda blyhalt. Vad som krävs är ett toleransintervall, närmare bestämt en övre toleransgräns. Den övre toleransgränsen ska beräknas under förutsättning att minst 95 % av befolkningens blynivåer ligger under gränsen, med en viss konfidensnivå, till exempel 99 %.