L’intervallo di tolleranza è meno conosciuto dell’intervallo di confidenza e dell’intervallo di previsione, una situazione che alcuni educatori hanno lamentato, in quanto può portare ad un uso improprio degli altri intervalli dove un intervallo di tolleranza è più appropriato.
L’intervallo di tolleranza differisce da un intervallo di confidenza in quanto l’intervallo di confidenza circonda un parametro della popolazione a valore singolo (la media o la varianza, per esempio) con una certa confidenza, mentre l’intervallo di tolleranza circonda l’intervallo dei valori dei dati che include una proporzione specifica della popolazione. Mentre la dimensione di un intervallo di confidenza è interamente dovuta all’errore di campionamento, e si avvicinerà a un intervallo di larghezza zero al vero parametro della popolazione all’aumentare della dimensione del campione, la dimensione di un intervallo di tolleranza è dovuta in parte all’errore di campionamento e in parte alla varianza reale nella popolazione, e si avvicinerà all’intervallo di probabilità della popolazione all’aumentare della dimensione del campione.
L’intervallo di tolleranza è collegato a un intervallo di previsione in quanto entrambi mettono dei limiti alla variazione nei campioni futuri. Tuttavia, l’intervallo di previsione vincola solo un singolo campione futuro, mentre un intervallo di tolleranza vincola l’intera popolazione (equivalentemente, una sequenza arbitraria di campioni futuri). In altre parole, un intervallo di previsione copre una proporzione specificata di una popolazione in media, mentre un intervallo di tolleranza la copre con un certo livello di confidenza, rendendo l’intervallo di tolleranza più appropriato se un singolo intervallo è destinato a delimitare più campioni futuri.
EsempiModifica
fornisce il seguente esempio:
Consideriamo ancora una volta un proverbiale scenario di test del chilometraggio EPA, in cui diverse auto nominalmente identiche di un particolare modello sono testate per produrre cifre di chilometraggio y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},…,y_{n}}
. Se tali dati vengono elaborati per produrre un intervallo di confidenza del 95% per il chilometraggio medio del modello, è, per esempio, possibile utilizzarlo per proiettare il consumo medio o totale di benzina per il parco macchine fabbricato di tali auto per le loro prime 5.000 miglia di utilizzo. Un tale intervallo, tuttavia, non sarebbe di grande aiuto per una persona che noleggia una di queste auto e si chiede se il serbatoio (pieno) da 10 galloni di benzina sarà sufficiente per portarlo a 350 miglia dalla sua destinazione. Per quel lavoro, un intervallo di previsione sarebbe molto più utile. (Considerate le diverse implicazioni dell’essere “sicuri al 95%” che μ ≥ 35 {displaystyle \mu \geq 35}
rispetto all’essere “sicuri al 95%” che y n + 1 ≥ 35 {displaystyle y_{n+1}\geq 35}
). Ma nemmeno un intervallo di confidenza per μ {displaystyle \mu }
né un intervallo di previsione per un singolo chilometraggio aggiuntivo è esattamente ciò di cui ha bisogno un ingegnere di progettazione incaricato di determinare quanto grande sia il serbatoio di gas di cui il modello ha realmente bisogno per garantire che il 99% delle auto prodotte abbia un’autonomia di 400 miglia. Ciò di cui l’ingegnere ha davvero bisogno è un intervallo di tolleranza per una frazione p = .99 {\displaystyle p=.99}
dei chilometraggi di tali auto.
Un altro esempio è dato da:
I livelli di piombo nell’aria sono stati raccolti da n = 15 {\displaystyle n=15}
aree diverse all’interno della struttura. Si è notato che i livelli di piombo log-trasformati si adattano bene a una distribuzione normale (cioè, i dati provengono da una distribuzione lognormale. Sia μ {displaystyle \mu }
e σ 2 {displaystyle \sigma ^{2}}
, rispettivamente, indicano la media e la varianza della popolazione per i dati log-trasformati. Se X {displaystyle X}
denota la variabile casuale corrispondente, abbiamo quindi X ∼ N ( μ , σ 2 ) {displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})}
. Notiamo che exp ( μ ) {\displaystyle \exp(\mu )}
è il livello mediano di piombo nell’aria. Un intervallo di confidenza per μ {displaystyle \mu }
può essere costruito nel solito modo, basandosi sulla distribuzione t; questo a sua volta fornirà un intervallo di confidenza per il livello mediano di piombo nell’aria. Se X ¯ {\displaystyle {\bar {X}}}
e S {displaystyle S}
indicano la media campionaria e la deviazione standard dei dati log-trasformati per un campione di dimensione n, un intervallo di confidenza del 95% per μ {displaystyle \mu }
è dato da X ¯ ± t n – 1 , 0.975 S / ( n ) {\displaystyle {\bar {X}}\pm t_{n-1,0.975}S/{sqrt {(}}n)}
, dove t m , 1 – α {\displaystyle t_{m,1-\alpha }
denota l’1 – α {displaystyle 1-\alpha}
quantile di una distribuzione t con m {displaystyle m}
gradi di libertà. Può anche essere interessante ricavare un limite di confidenza superiore del 95% per il livello mediano di piombo nell’aria. Tale limite per μ {displaystyle \mu }
è dato da X ¯ + t n – 1 , 0.95 S / n {\displaystyle {\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}}
. Di conseguenza, un limite di confidenza superiore del 95% per il piombo mediano dell’aria è dato da exp ( X ¯ + t n – 1 , 0.95 S / n ) {displaystyle \exp {\left({\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}\right)}}
. Ora supponiamo di voler prevedere il livello di piombo nell’aria in una particolare area del laboratorio. Un limite superiore di previsione del 95% per il livello di piombo log-trasformato è dato da X ¯ + t n – 1 , 0.95 S ( 1 + 1 / n ) {\displaystyle {\bar {X}}+t_{n-1,0.95}S{sqrt {\left(1+1/n\right)}}
. Un intervallo di predizione a due lati può essere calcolato in modo simile. Il significato e l’interpretazione di questi intervalli sono ben noti. Per esempio, se l’intervallo di confidenza X ¯ ± t n – 1 , 0.975 S / n {\displaystyle {\bar {X}\pm t_{n-1,0.975}S/{\sqrt {n}}
è calcolato ripetutamente da campioni indipendenti, il 95% degli intervalli così calcolati includerà il vero valore di μ {\displaystyle \mu }
, nel lungo periodo. In altre parole, l’intervallo ha lo scopo di fornire informazioni sul parametro μ {displaystyle \mu }
soltanto. Un intervallo di predizione ha un’interpretazione simile, ed è destinato a fornire informazioni riguardanti solo un singolo livello di piombo. Ora supponiamo di voler usare il campione per concludere se almeno il 95% dei livelli di piombo della popolazione sono sotto una soglia. L’intervallo di confidenza e l’intervallo di previsione non possono rispondere a questa domanda, poiché l’intervallo di confidenza è solo per il livello mediano di piombo, e l’intervallo di previsione è solo per un singolo livello di piombo. Ciò che è necessario è un intervallo di tolleranza; più specificamente, un limite di tolleranza superiore. Il limite di tolleranza superiore deve essere calcolato a condizione che almeno il 95% dei livelli di piombo della popolazione sia al di sotto del limite, con un certo livello di confidenza, diciamo il 99%.