Het tolerantie-interval is minder bekend dan het betrouwbaarheidsinterval en het voorspellingsinterval, een situatie die door sommige voorlichters wordt betreurd, omdat het kan leiden tot verkeerd gebruik van de andere intervallen waar een tolerantie-interval meer op zijn plaats is.
Het tolerantie-interval verschilt van een betrouwbaarheidsinterval in die zin dat het betrouwbaarheidsinterval een populatieparameter met één waarde (bijvoorbeeld het gemiddelde of de variantie) met enig vertrouwen begrenst, terwijl het tolerantie-interval het bereik van gegevenswaarden begrenst dat een specifiek deel van de populatie omvat. Terwijl de grootte van een betrouwbaarheidsinterval volledig toe te schrijven is aan steekproeffouten en een nulbreedte-interval bij de ware parameter van de populatie zal benaderen naarmate de steekproefgrootte toeneemt, is de grootte van een tolerantie-interval gedeeltelijk toe te schrijven aan steekproeffouten en gedeeltelijk aan de werkelijke variantie in de populatie, en zal het waarschijnlijkheidsinterval van de populatie benaderen naarmate de steekproefgrootte toeneemt.
Het tolerantie-interval is verwant met een voorspellingsinterval in die zin dat beide grenzen stellen aan de variatie in toekomstige steekproeven. Het voorspellingsinterval begrenst echter slechts één toekomstig monster, terwijl een tolerantie-interval de gehele populatie begrenst (d.w.z. een willekeurige opeenvolging van toekomstige monsters). Met andere woorden, een voorspellingsinterval bestrijkt een gespecificeerd deel van een populatie gemiddeld, terwijl een tolerantie-interval het bestrijkt met een bepaald betrouwbaarheidsniveau, waardoor het tolerantie-interval geschikter is als een enkel interval bedoeld is om meerdere toekomstige steekproeven te begrenzen.
VoorbeeldenEdit
geeft het volgende voorbeeld:
Overweeg opnieuw een spreekwoordelijk EPA-testscenario, waarin verscheidene nominaal identieke auto’s van een bepaald model worden getest om kilometerstanden te produceren y 1 , y 2 , … , y n {Displaystyle y_{1},y_{2},…,y_{n}}
. Indien dergelijke gegevens worden verwerkt om een 95%-betrouwbaarheidsinterval voor het gemiddelde aantal afgelegde kilometers van het model te verkrijgen, is het bijvoorbeeld mogelijk deze gegevens te gebruiken om het gemiddelde of totale benzineverbruik voor de geproduceerde vloot van dergelijke auto’s over hun eerste 5.000 gebruikskilometers te projecteren. Een dergelijk interval zou echter niet van veel nut zijn voor iemand die een van deze auto’s huurt en zich afvraagt of de (volle) 10-gallon tank met benzine voldoende zal zijn om hem de 350 mijl naar zijn bestemming te brengen. Voor die taak zou een voorspellingsinterval veel nuttiger zijn. (Denk eens aan de verschillende implicaties van “95% zeker” zijn dat μ ≥ 35 {\displaystyle \mu \geq 35}
in tegenstelling tot “95% zeker” zijn dat y n + 1 ≥ 35 {\displaystyle y_{n+1}\geq 35}
). Maar noch een betrouwbaarheidsinterval voor μ {\displaystyle \mu }
noch een voorspellingsinterval voor een enkele extra kilometerstand is precies wat een ontwerpingenieur nodig heeft die moet bepalen hoe groot de benzinetank van het model moet zijn om te garanderen dat 99% van de geproduceerde auto’s een actieradius van 400 mijl heeft. Wat de ingenieur echt nodig heeft is een tolerantie-interval voor een breuk p = .99 {\displaystyle p=.99}van het aantal kilometers van dergelijke auto’s.
Een ander voorbeeld wordt gegeven door:
De loodgehaltes in de lucht werden verzameld van n = 15 {\displaystyle n=15}
verschillende gebieden binnen de faciliteit. Opgemerkt werd dat de log-getransformeerde loodniveaus goed passen bij een normale verdeling (d.w.z. dat de gegevens afkomstig zijn van een lognormale verdeling. Laat μ
μmuen σ 2 {\displaystyle \sigma ^{2}}
de overeenkomstige willekeurige variabele is, dan geldt dus X ∼ N ( μ , σ 2 ) {\displaystyle X {\sim {\mathcal {N}(\mu ,\sigma ^{2})}
. We merken op dat exp ( μ ) {\exp(\mu )}
de mediaan van het loodgehalte in de lucht is. Een betrouwbaarheidsinterval voor μ {\displaystyle \mu }
kan op de gebruikelijke manier worden geconstrueerd, op basis van de t-verdeling; dit levert op zijn beurt een betrouwbaarheidsinterval voor de mediaan van het loodgehalte in de lucht op. Als X ¯ {bar {X}}
en S {\displaystyle S}
staan voor het steekproefgemiddelde en de standaardafwijking van de log-getransformeerde gegevens voor een steekproef met grootte n, een 95%-betrouwbaarheidsinterval voor μ {\displaystyle \mu }
wordt gegeven door X ¯ ± t n – 1 , 0.975 S / ( n ) {Displaystyle {X}}pm t_{n-1,0.975}S/{\sqrt {(}}n)}
, waarbij t m , 1 – α {{displaystyle t_{m,1-alpha }}
de 1 – α {{displaystyle 1-XXalpha }}
van een t-verdeling met m {{displaystyle m}
vrijheidsgraden. Het kan ook interessant zijn om een 95%-betrouwbaarheidsgrens voor de mediaan van het loodgehalte in de lucht af te leiden. Een dergelijke limiet voor μ {displaystyle \mu}
Smuwordt gegeven door X ¯ + t n – 1 , 0,95 S / n {{\displaystyle {X}}+t_{n-1,0,95}S/{\sqrt {n}}
. Bijgevolg wordt een 95%-betrouwbaarheidsbovengrens voor de mediaan van de luchtlood gegeven door exp ( X ¯ + t n – 1 , 0,95 S / n ) {\left({bar {X}}+t_{n-1,0,95}S/{\sqrt {n}}right)}}
. Stel nu dat we het loodgehalte in de lucht op een bepaalde plaats binnen het laboratorium willen voorspellen. Een 95%-bovengrens voor de voorspelling van het log-getransformeerde loodgehalte wordt gegeven door X ¯ + t n – 1 , 0,95 S ( 1 + 1 / n ) {\displaystyle {X}}+t_{n-1,0,95}S{\sqrt {n}}}
. Een tweezijdig voorspellingsinterval kan op soortgelijke wijze worden berekend. De betekenis en interpretatie van deze intervallen zijn welbekend. Bijvoorbeeld, als het betrouwbaarheidsinterval X ¯ ± t n – 1 , 0,975 S / n {\displaystyle {X}}pm t_{n-1,0,975}S/{\sqrt {n}}
herhaaldelijk wordt berekend uit onafhankelijke steekproeven, zal 95% van de aldus berekende intervallen de werkelijke waarde van μ bevatten {\displaystyle \mu }
, op de lange termijn. Met andere woorden, het interval is bedoeld om informatie te verschaffen over de parameter μ {{displaystyle \mu }
mualleen. Een voorspellingsinterval heeft een soortgelijke interpretatie en is alleen bedoeld om informatie te verschaffen over een enkel loodniveau. Stel nu dat we de steekproef willen gebruiken om te concluderen of ten minste 95% van de loodniveaus in de bevolking al dan niet onder een drempelwaarde liggen. Het betrouwbaarheidsinterval en het voorspellingsinterval kunnen deze vraag niet beantwoorden, aangezien het betrouwbaarheidsinterval alleen voor het mediane loodgehalte geldt en het voorspellingsinterval alleen voor één loodgehalte. Wat nodig is, is een tolerantie-interval; meer specifiek, een bovenste tolerantiegrens. De bovenste tolerantiegrens moet worden berekend onder de voorwaarde dat ten minste 95% van de loodgehalten in de bevolking onder de grens ligt, met een bepaald betrouwbaarheidsniveau, zeg 99%.