S4_variabilità-eterogeneità - Università degli Studi della Basilicata
by user
Comments
Transcript
S4_variabilità-eterogeneità - Università degli Studi della Basilicata
Indici di variabilità ed eterogeneità Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 1 Obiettivi dell’unità didattica • Definire i concetti di base sulla variabilità ed eterogeneità • Richiamare l’attenzione su alcune proprietà della varianza Contenuti • • Indici di variabilità – Campo di variazione – Varianza, Scarto quadratico medio, Devianza – Coefficiente di variazione – Differenza interquartile Indici di eterogeneità – Indice del Gini – Indice di entropia Prof. Roberta Siciliano Statistica 2 1 Generalità sulla variabilità • La variabilità è espressione dell’attitudine di un carattere quantitativo ad assumere diverse modalità • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione • Variabilità assoluta e relativa Prof. Roberta Siciliano Statistica 3 Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti che hanno superato ciascuno tre esami: È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente esso è pari a 24 Prof. Roberta Siciliano Statistica 4 2 Variabilità e Dispersione (cont.) Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami? Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare esaustivamente il “segreto” delle distribuzioni!! Prof. Roberta Siciliano Statistica 5 Caratteristiche di un indice di variabilità • Assume valori maggiori o uguali a zero • E’ pari a zero quando il carattere si presenta con una sola modalità distinta (assenza di variabilità) • E’ invariante (ossia non modifica il suo valore) quando si aggiunge una costante a ciascun valore della distribuzione • Assume valori crescenti all’aumentare della variabilità Prof. Roberta Siciliano Statistica 6 3 Campo di variazione V = max(X) − min(X) = x( N ) − x(1) E’ un indice di variabilità assoluta € Prof. Roberta Siciliano Statistica 7 Varianza N 2 1 2 σ = ∑ ( x l − µ) N l =1 K 2 1 2 σ = ∑ ( x i − µ) n i N i=1 E’ un indice di variabilità assoluta Prof. Roberta Siciliano € Statistica 8 4 Caratteristiche principali • È una media • Vale sempre che: 2 0 ≤σ ≤ ∞ Prof. Roberta Siciliano Statistica 9 € Consideriamo la distribuzione massimizzante la variabilità Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia Nµ perché 1 N µ = ∑ xl N l =1 Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.) € Prof. Roberta Siciliano € Statistica 10 5 Determiniamo il massimo della varianza Allora abbiamo: σ 2 = 1 (0 − µ) 2 (N −1) + (Nµ − µ) 2 ] = [ N 1 2 µ (N −1) + µ 2 (N −1) 2 ] = [ N 1 = [ µ 2 (N −1)(1+ N −1)] = N 1 = Nµ 2 (N −1) = µ 2 (N −1) N = Prof. Roberta Siciliano MAX Statistica 11 € La varianza può essere anche scritta come …. σ € σ 2 2 N N 2 1 1 = ∑ ( x l − µ) = ∑ x l2 − µ 2 N l =1 N l =1 2 1 N 1 N 2 = ∑ ( x l − µ) = ∑ ( x l − 2x l µ + µ 2 ) = N l =1 N l =1 1 N 2 1 N 1 = ∑ x l − 2 µ ∑ x l + Nµ 2 = N l =1 N l =1 N 1 N 2 1 N 2 2 2 = ∑ x l − 2µ + µ = ∑ x l − µ 2 N l =1 N l =1 Prof. Roberta Siciliano Statistica 12 € 6 Scarto Quadratico Medio σ= 2 1 N ∑ ( x − µ) N l =1 l σ= 2 1 K x − µ ni ( ) ∑ i N i=1 E’ un indice di variabilità assoluta € Prof. Roberta Siciliano Statistica 13 Perché è utile lo s.q.m. Il problema principale della varianza è che è espressa nell’unità di misura del fenomeno al quadrato!!!! Lo scarto quadratico medio risolve questo problema!!!! Prof. Roberta Siciliano Statistica 14 7 Coefficiente di Variazione σ CV = µ E’ un indice di variabilità relativa € Prof. Roberta Siciliano Statistica 15 Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione massimizzante la variabilità Sappiamo che: 0 ≤ σ 2 ≤ µ 2 (N −1) ⇒ 0 ≤ σ ≤ µ N −1 0≤ € σ ≤ N −1 µ € € Prof. Roberta Siciliano Statistica 16 8 Coefficiente di Variazione normalizzato CVnorm CV = N −1 con 0 ≤ CVN ≤ 1 E’ un indice normalizzato € € Prof. Roberta Siciliano Statistica 17 Proprietà della varianza Consideriamo una variabile X e consideriamo la seguente trasformazione lineare: abbiamo che: σY2 = β 2σX2 Prof. Roberta Siciliano Statistica 18 € 9 Proprietà della varianza Consideriamo una variabile X e consideriamo la seguente trasformazione lineare: Y = βX + α abbiamo che: σY2 = β 2σX2 € ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della distribuzione stessa Prof. Roberta Siciliano Statistica 19 € Altri indici di variabilità Median Absolute Deviation (MAD) [ ( MAD = 1.8426 median x l − Me l = 1,...,N )] Differenza Interquartile D = Q3 − Q1 € Prof. Roberta Siciliano Statistica 20 € 10 Eterogeneità e omogeneità • Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze. • Eterogeneità per dati qualitativi: mutabilità • Omogeneità per dati quantitativi: concentrazione Prof. Roberta Siciliano Statistica 21 Omogeneità vs. eterogeneità • Massima omogeneità: tutte le unità presentano la stessa modalità di X f i* = 1 fi = 0 i ≠ i * fi = 1 K i = 1,…,K • Massima eterogeneità: le unità si distribuiscono uniformemente tra € le K modalità distinte di X Prof. Roberta Siciliano €Statistica 22 11 L’indice di eterogeneità di Gini K H = 1 − ∑ f i2 i=1 • In presenza di massima omogeneità • In presenza di massima eterogeneità € H max ⎛ 1 ⎞ 2 ⎛ 1 ⎞ K −1 = 1 − ∑ f i = 1 − ∑⎜ ⎟ = 1 − K ⎜ 2 ⎟ = ⎝ K ⎠ ⎝ K ⎠ K 2 Prof. Roberta Siciliano Statistica 23 € L’indice “normalizzato” di Gini 1 − ∑ fi H H norm = = K −1 H max K con 0 ≤ H norm ≤ 1 € Prof. Roberta Siciliano Statistica 2 24 12 Indice di Entropia di Shannon H S = −∑ f i log( f i ) Indice normalizzato di Entropia di Shannon H S norm = € Prof. Roberta Siciliano −∑ f i log( f i ) log(K ) Statistica 25 € 13