TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di
by user
Comments
Transcript
TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di
TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di Statistica I Mario Romanazzi ii Indice Dai dati alla distribuzione 1.1 Variabili statistiche . . . . 1.2 Popolazione e campioni . 1.3 Perchè casualizzare . . . . 1.4 Calcolo statistico . . . . . 1.5 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 6 7 7 Distribuzioni numeriche 11 2.1 Presentazioni ramo-foglie . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Tipologie distributive . . . . . . . . . . . . . . . . . . . . . . . . 18 Statistiche ordinate e quantili 3.1 Statistiche ordinate . . . . . . . 3.2 Quantili . . . . . . . . . . . . . 3.3 Diagrammi scatola-baffi . . . . 3.4 Funzioni di ripartizione . . . . 3.5 Dal campione alla popolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 24 28 32 38 Media 4.1 4.2 4.3 4.4 4.5 4.6 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 44 45 48 51 56 58 Distribuzione gaussiana 5.1 La curva gaussiana . . . . . . . . 5.2 La famiglia gaussiana . . . . . . 5.3 Aree sottese alla curva gaussiana 5.4 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 69 70 73 e deviazione standard Media . . . . . . . . . . Momenti . . . . . . . . . Deviazione standard . . Minimi quadrati . . . . Trasformazioni . . . . . Scala standard . . . . . Unità divise in gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii iv INDICE Confrontare distribuzioni 79 6.1 Ordinamento in distribuzione . . . . . . . . . . . . . . . . . . . . 80 6.2 Curve di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . 84 Relazioni tra variabili 7.1 Distribuzioni congiunte . . . . 7.2 Distribuzioni marginali . . . . 7.3 Distribuzioni subordinate . . 7.4 Dipendenza in senso statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 88 91 92 99 Regressione e correlazione 8.1 Funzioni di regressione . . . . . . . . . 8.2 Proprietà della funzione di regressione 8.3 Correlazione statistica . . . . . . . . . 8.4 Distribuzione gaussiana bivariata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 103 105 109 111 . . . . . . . . . . . . . . . . . . . . . . . . quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 117 121 124 127 130 . . . . Correlazione lineare 9.1 Covarianza . . . . . . . . . . . 9.2 Combinazioni lineari . . . . . . 9.3 Proprietà della covarianza . . . 9.4 Retta dei minimi quadrati . . . 9.5 Proprietà della retta dei minimi . . . . . . . . . . . . Elenco delle tabelle 1.1 Nazionalità dei premi Nobel per la Fisica. . . . . . . . . . . . . . 2.2 Numero di componenti delle famiglie, censimenti 1961-2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sviluppo costiero e superficie delle regioni. . . . . . . . . . . . . . Ramo-foglia dello sviluppo costiero delle regioni. . . . . . . . . . Ramo-foglia della magnitudo dei terremoti. . . . . . . . . . . . . Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti successivi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Età dei premi Nobel per la Fisica (a destra) e la Letteratura (a sinistra), 1901-2006. . . . . . . . . . . . . . . . . . . . . . . . . . SAU delle aziende agricole, 2000 e 2005 (fonte: ISTAT). . . . . . 2.3 2.4 2.5 2.6 2.7 2.8 Età dei presidenti della Repubblica Italiana e degli Stati Uniti, 1945-2006. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10 Decili del reddito familiare, 2004 (fonte: Banca d’Italia). . . . . . 3.11 Ramo-foglia dell’intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. . . . . . . . . . . . . . . . . . . . 8 12 13 14 14 15 16 17 3.9 4.12 Scostamenti delle età dei Presidenti dalla media (a sinistra Presidenti italiani, a destra americani). . . . . . . . . . . . . . . . . . 4.13 Scostamenti delle età dei premi Nobel per la Fisica dalla media. . 4.14 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. . 4.15 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. . 4.16 Statistiche riassuntive delle temperature medie giornaliere a New York, gennaio 2006. . . . . . . . . . . . . . . . . . . . . . . . . . 4.17 Statistiche riassuntive del reddito delle famiglie italiane, per titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). . . . . . 4.18 Statistiche riassuntive dell’età dei docenti di Statistica, per qualifica, 2005 (fonte: Ministero per l’Università e la Ricerca). . . . . 4.19 Statistiche riassuntive del primo numero estratto sulle ruote di Napoli, Roma e Venezia, 2006. . . . . . . . . . . . . . . . . . . . 5.20 Decili positivi della normale standard. . . . . . . . . . . . . . . . v 24 27 30 46 48 54 54 56 60 62 63 72 vi ELENCO DELLE TABELLE 5.21 Aree di intervalli centrati sulla media di N (µ, σ). . . . . . . . . . 5.22 Temperatura corporea. . . . . . . . . . . . . . . . . . . . . . . . . 73 74 7.23 Caratteristiche di alcuni modelli di autovetture . . . . . . . . . . 88 7.24 Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03. . 89 7.25 Famiglie italiane per classi quintiliche di reddito 2002 e 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . 90 7.26 Trasferimenti di residenza interregionali, per area di origine e destinazione, 2002 (fonte: ISTAT). . . . . . . . . . . . . . . . . . 91 7.27 Popolazione con 18 anni e più per genere, età e indice di massa corporea (IMC), 1999 (fonte: ISTAT). . . . . . . . . . . . . . . . 93 7.28 Immatricolati a Ca’ Foscari. Distribuzioni subordinate della facoltà, per genere. . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.29 Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere, per facoltà. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.30 Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). 95 7.31 Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03. Frequenze teoriche di indipendenza. . . . . . . . . . . . . . . . . 101 8.32 Reddito medio familiare (migliaia di euro) in funzione del numero di percettori di reddito, 2004 (fonte: Banca d’Italia). . . . . . . . 104 8.33 Distribuzione congiunta con variabili indipendenti in media e dipendenti in distribuzione. . . . . . . . . . . . . . . . . . . . . . 105 9.34 Bilanci familiari. Distribuzione congiunta del numero di componenti delle famiglie e del numero di figli, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.35 Reti segnate e subite e punteggio finale nella stagione 2007-08 del campionato di calcio di serie A e B. . . . . . . . . . . . . . . . . . 9.36 Ramo-foglia della differenza reti nella stagione 2007/08 del campionato di calcio di serie B. . . . . . . . . . . . . . . . . . . . . . 9.37 Scomposizione della varianza per la regressione lineare delle emissioni di CO2 sulla cilindrata dell’Esempio 73. . . . . . . . . . . . 118 120 124 134 Elenco delle figure 1.1 Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). . 9 2.2 2.3 SAU delle aziende agricole, 2005 (fonte: ISTAT). . . . . . . . . . Numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipologie distributive. . . . . . . . . . . . . . . . . . . . . . . . . Cifre decimali di π (linea tratteggiata: approssimazione uniforme). 18 2.4 2.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 19 21 22 Reddito familiare e decili, 2004 (fonte: Banca d’Italia). . . . . . . 28 Intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Età dei premi Nobel per la Fisica e la Letteratura, 1901-2006. . . 31 Funzione di ripartizione della SAU delle aziende agricole, 2005. . 33 Funzione di ripartizione del numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . 35 Funzione di ripartizione empirica della magnitudo dei terremoti (terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006). 36 Età degli ordinari di Statistica, 2005 (fonte: Ministero per l’Università e la Ricerca). . . . . . . . . . . . . . . . . . . . . . . . . . 39 Lunghezza delle parole della Costituzione italiana. . . . . . . . . 39 4.14 Migliori tempi (secondi) nelle maratone maschili. . . . . . . . . . 4.15 Effetto su media e mediana della perturbazione dell’età minima dei presidenti italiani. . . . . . . . . . . . . . . . . . . . . . . . . 4.16 Velocità (km/h) nella maratona maschile. . . . . . . . . . . . . . 4.17 Età dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. . . . . . . . . . . . . . . . . . 4.18 Età (punteggi standard) dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. . . . . . . . 4.19 Primo estratto sulle ruote di Napoli, Roma e Venezia (2006). . . 5.20 Curve di densità gaussiane. . . . . . . . . . . . . . . . . . . . . . 5.21 Funzione di densità e di ripartizione della normale standard (sono evidenziati i quartili). . . . . . . . . . . . . . . . . . . . . . . . . vii 43 45 52 57 58 63 67 71 ELENCO DELLE FIGURE 5.22 Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.23 Temperatura corporea. Approssimazione gaussiana della funzione di ripartizione e dei quantili empirici. . . . . . . . . . . . . 5.24 Teorema centrale di convergenza. Approssimazione gaussiana della somma dei punteggi ottenuti in n lanci di un dado. . . . . . 6.25 Tempi nella maratona maschile e femminile. . . . . . . . . . . . . 6.26 Funzioni di ripartizione delle età dei premi Nobel per la Fisica e la Letteratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.27 Funzioni di ripartizione delle età dei docenti di Statistica, per qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.28 Curve di dispersione dei tempi nella maratona di maschi e femmine. 6.29 Curve di dispersione delle età dei docenti di Statistica, per qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.30 Bilanci familiari. Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.31 Diagramma di dispersione delle età del capofamiglia e del coniuge, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . 7.32 Diagrammi scatola-baffi delle distribuzioni subordinate dell’età del coniuge, per classi di età del capofamiglia, 2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.33 Numero di figli in funzione dell’età media dei coniugi, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ± sY |x , la retta orizzontale indica la media marginale del numero di figli; fonte: Banca d’Italia). . . . . . . . . . . . . . 8.34 Età del coniuge in funzione dell’età del capofamiglia, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x , la retta orizzontale indica l’età media marginale del coniuge; fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . 8.35 Funzioni di densità gaussiane. . . . . . . . . . . . . . . . . . . . . 8.36 Curve di livello della densità gaussiana, con centroide e funzione di regressione. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 75 76 77 80 81 83 85 86 96 97 98 106 110 114 115 9.37 Campionato di calcio di serie B 2007-08. Diagramma di dispersione del numero di reti segnate (subite) e del punteggio finale (*: centroide). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.38 Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). . . . . . 133 9.39 Campionato di calcio di serie B. Diagramma di dispersione della differenza reti e del punteggio finale(*: centroide; retta dei minimi quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). . . . . . 135 2 ELENCO DELLE FIGURE 9.40 Campionato di calcio di serie B. Diagramma di dispersione dei valori teorici e dei residui standardizzati (a sinistra); Q-Q plot dei residui standardizzati (a destra). . . . . . . . . . . . . . . . . 136 Dai dati alla distribuzione La Statistica è una metodologia per l’analisi scientifica di fenomeni variabili. Descrivere, interpretare, prevedere fenomeni variabili sono i suoi obiettivi principali. Esempi familiari di fenomeni variabili sono il genere, il peso e la statura di una persona; la marca, il colore, il chilometraggio di un’autovettura; il numero di componenti, il numero di figli ed il reddito di una famiglia, la lunghezza (numero di lettere) di una parola. 1.1 Variabili statistiche Si definisce variabile statistica un fenomeno osservabile, suscettibile di presentare manifestazioni diverse, dette modalità della variabile. Cosı̀, il genere di una persona è una variabile statistica dicotomica, le cui modalità sono femmina e maschio. Il numero di componenti di una famiglia è una variabile statistica le cui modalità sono i numeri naturali 1, 2, 3, ..., fino ad un valore massimo dipendente dal particolare collettivo oggetto di studio. Il peso e la statura di una persona sono variabili statistiche le cui modalità sono numeri decimali compresi in un intervallo limitato. Distinguiamo le variabili qualitative, le cui modalità sono nomi o aggettivi, da quelle quantitative, le cui modalità sono numeri. All’interno della classe delle variabili qualitative è utile distinguere le variabili le cui modalità sono ordinabili secondo un criterio oggettivo da quelle per le quali un tale criterio non esiste. A loro volta, le variabili quantitative si dividono in discrete e continue, a seconda che le modalità siano numeri naturali o numeri decimali. Il titolo di studio di una persona è una variabile qualitativa le cui modalità — licenza elementare, licenza media, diploma di scuola superiore, laurea — sono ordinabili. La regione (o stato estero) di nascita di un cittadino italiano è invece una variabile qualitativa le cui modalità — Piemonte, Valle d’Aosta, ..., Sicilia, Sardegna — non sono ordinabili. Il numero di componenti di una famiglia è una variabile discreta, mentre la superficie dell’abitazione in cui la famiglia vive è una variabile continua. Questa nomenclatura è importante perchè la metodologia di analisi dei dati dipende dalla natura delle variabili. Non si devono confondere le variabili con le unità di rilevazione, cioè le entità su cui le variabili d’interesse sono osservate. Supponiamo di rilevare il 3 4 DAI DATI ALLA DISTRIBUZIONE numero di pagine dei manoscritti custoditi nella Biblioteca Marciana di Venezia: le unità di rilevazione sono i manoscritti, la variabile è il numero di pagine. Se volessimo rilevare la durata degli studi universitari (laurea triennale), le unità di rilevazione sono i laureati triennali, la variabile è la durata degli studi, definita come misura dell’intervallo di tempo compreso tra data di immatricolazione e data di laurea. Un’analisi statistica si dice univariata o multivariata a seconda che sulle unità di rilevazione si osservi una sola variabile o più di una. Lo scrutinio delle schede elettorali è una rilevazione univariata che classifica le schede in base al voto espresso da ciascun elettore: schede valide, ripartite secondo il partito (o la coalizione), schede bianche e schede nulle. Sarebbe invece un’indagine multivariata un questionario compilato dai laureati triennali con quesiti rigurdanti il genere, l’anno di nascita, il comune di residenza, il diploma di scuola superiore, il voto di diploma, il corso di laurea ed il punteggio di laurea. Indagini di questo tipo permettono di studiare la rete di associazioni e interdipendenze tra le diverse variabili. Nelle indagini multivariate si distinguono le variabili d’interesse principale, alle quali si riferiscono gli obiettivi della ricerca, dalle variabili di stratificazione, spesso qualitative, che aggiungono contesto al fenomeno indagato e possono contribuire alla sua interpretazione. Il genere è una tipica variabile di stratificazione nelle indagini sulle caratteristiche fisiche (peso, statura) o sulle condizioni professionali delle persone. In Italia, l’area geografica di residenza è ancora un’importante variabile di stratificazione nelle indagini sulle caratteristiche socio-demografiche e reddituali delle famiglie. 1.2 Popolazione e campioni La Statistica non si occupa solo dell’analisi dei dati dopo la loro rilevazione. Essa svolge un ruolo importante anche prima, nella definizione di procedure di rilevazione che permettano di ricavare dai dati conclusioni significative. L’uso di metodi di casualizzazione nelle operazioni che conducono alla selezione delle unità di rilevazione è una caratteristica cruciale della Statistica. Dopo che l’obiettivo di un’indagine è stato stabilito e le variabili sono state specificate, viene definita la popolazione di riferimento, cioè l’insieme delle unità sulle quali le variabili d’interesse sono osservabili. Consideriamo, ad esempio, un’indagine sulle caratteristiche professionali dei laureati a tre anni dal conseguimento del titolo. Le variabili d’interesse comprendono caratteristiche anagrafiche (genere, età, comune di residenza, stato civile), curriculum scolastico (corso di laurea, data e voto di laurea), posizione lavorativa corrente. Se l’indagine è riferita al 1/7/2007, la popolazione di riferimento è costituita da tutti i laureati nell’anno accademico 2003/04. La rilevazione dei dati è completa se riguarda tutte le unità della popolazione, campionaria se riguarda una parte della popolazione. L’esempio tipico di rilevazione completa è il censimento della popolazione svolto con cadenza decennale. Le rilevazioni campionarie sono meno costose e più rapide di quelle complete. 1.2. POPOLAZIONE E CAMPIONI 5 Esse però richiedono una pianificazione accurata ed un’analisi dei dati più sofisticata. L’estensione alla popolazione dei risultati campionari comporta un errore dovuto al campionamento. È compito della Statistica specificare le modalità di rilevazione e di analisi dei dati in modo da consentire una valutazione accurata ed un controllo dell’errore. Si definisce piano di campionamento l’insieme delle operazioni mediante le quali si individuano le unità da includere nel campione. Il modello di riferimento per tutti i piani di campionamento è il campionamento casuale semplice. Supponiamo di dover selezionare un campione di n elementi da una popolazione di N elementi. La popolazione è assimilata ad un’urna contenente N biglietti numerati da 1 a N . Dall’urna si prelevano in sequenza, a caso e senza reinserimento (come nelle estrazioni del lotto), n biglietti i cui numeri identificano le unità della popolazione che formeranno il campione. La procedura presuppone che la numerosità campionaria sia fissata in anticipo e che sia disponibile un elenco delle unità della popolazione. Nelle rilevazioni campionarie reali si usano accorgimenti per ridurre l’errore di campionamento. Le tecniche più diffuse sono la stratificazione ed il campionamento a più stadi. Nel campionamento stratificato la popolazione è divisa in sottopopolazioni (strati) utilizzando caratteristiche note delle unità di rilevazione (comune di residenza, genere) e da ciascuna sottopopolazione è estratto un campione casuale semplice. Se le sottopopolazioni sono internamente omogenee rispetto alle variabili obiettivo, la stratificazione produce un errore di campionamento inferiore a quello di un campione casuale semplice di pari numerosità. Il campionamento a più stadi è usato quando le unità appartengono ad una struttura gerarchica, come quella amministrativa. Un esempio è l’indagine sui bilanci familiari svolta dalla Banca d’Italia (www.bancaditalia.it) con cadenza biennale. Esempio 1 (Bilanci familiari) La Banca d’Italia è uno dei maggiori produttori italiani di dati e statistiche, soprattutto in campo economico e finanziario. Nella sua indagine sui bilanci familiari la popolazione di riferimento è l’insieme di tutte le famiglie italiane. Il piano di campionamento è a due stadi: le unità di primo stadio sono i comuni, quelle di secondo stadio le famiglie. La procedura prevede inoltre la stratificazione delle unità di primo stadio, i comuni, in base alla regione d’appartenenza e alla classe di ampiezza demografica. All’interno di ogni strato viene selezionato un campione contenente tutti i comuni con più di 40· 000 abitanti più altri comuni scelti in modo da assegnare ai comuni di maggiore dimensione una più elevata probabilità di inclusione. Le famiglie sono successivamente estratte a caso dalle liste anagrafiche dei comuni selezionati nel primo stadio. Nell’indagine del 2004 sono state intervistate 8 · 012 famiglie, estratte a caso dalle liste anagrafiche di 344 comuni1 . L’Istituto Nazionale di Statistica (ISTAT, www.istat.it) è il principale produttore italiano di statistiche ufficiali. Tra i suoi compiti istituzionali la realiz1 Banca d’Italia, I bilanci delle famiglie italiane nell’anno 2004, Suypplementi al bollettino statistico, Anno XVI, N. 7, 17/1/2006. 6 DAI DATI ALLA DISTRIBUZIONE zazione di censimenti generali: popolazione e abitazioni, industria e servizi, agricoltura. L’ISTAT realizza anche importanti indagini campionarie periodiche: consumi delle famiglie, condizioni di vita (progetto coordinato dall’Unione Europea), professioni. Esempio 2 (Consumi delle famiglie) L’indagine sui consumi delle famiglie rileva, con periodicità annuale, le spese sostenute dalle famiglie residenti in Italia per acquistare beni e servizi destinati al consumo. L’obiettivo è stimare il livello e la struttura della spesa, e la sua dinamica temporale, anche in relazione alle caratteristiche economiche, sociali e territoriali delle famiglie. I risultati sono utilizzati anche per la stima della povertà in Italia. Le unità di rilevazione sono le famiglie incluse nel campione ed i rispettivi componenti. Come nell’indagine sui bilanci familiari, il piano di campionamento è a due stadi: le unità di primo stadio sono i comuni, quelle di secondo stadio le famiglie. La scelta dei comuni avviene mediante un campionamento casuale stratificato in base all’ampiezza demografica; tutti i comuni capoluogo di provincia sono inclusi nel campione. Le famiglie sono selezionate in modo casuale dalle liste anagrafiche comunali. La numerosità campionaria è di circa 28 · 000 famiglie, residenti in 480 comuni. 1.3 Perchè casualizzare Secondo l’opinione corrente, il campione perfetto riproduce, su scala ridotta, tutte le caratteristiche della popolazione, è una popolazione in miniatura. Esso tuttavia è irrealizzabile perchè è proprio la necessità di studiare qualche proprietà non nota della popolazione che ci spinge ad usare le rilevazioni campionarie. La casualizzazione ha il compito di ridurre l’impatto dei fattori di distorsione per mezzo di una procedura di selezione delle unità autocorrettiva ed imparziale. Nel campionamento casuale semplice, questa imparzialità è rivelata dal fatto che tutti gli elementi della popolazione hanno pari probabilità di entrare nel campione, indipendentemente dalle loro caratteristiche. Nelle indagini reali, i piani di campionamento effettuano un controllo esplicito di poche variabili note, lasciando alla casualizzazione il compito di mettere sotto controllo gli altri fattori di variazione, noti e non noti. Questo avviene, ad esempio, nel campionamento stratificato. La casualizzazione consente di usare metodi probabilistici per valutare l’errore che si commette quando i risultati campionari vengono estesi alla popolazione. È questa la caratteristica più importante del campionamento casuale. Nella fase di pianificazione dell’indagine diventa possibile confrontare piani di campionamento diversi e scegliere quello adeguato al problema. Nella fase finale, è possibile presentare in modo trasparente i risultati, accompagnandoli con valutazioni numeriche dell’errore di campionamento. Nel campionamento per quote, molto usato in pratica, la selezione delle unità da includere nel campione deve rispettare vincoli rigorosi riguardanti le variabili di stratificazione ma all’interno degli strati è delegata in ultima istanza 1.4. CALCOLO STATISTICO 7 all’intervistatore. L’estensione alla popolazione dei risultati di queste procedure richiede cautela perchè non è possibile arrivare ad una quantificazione dell’errore. Emerge qui un aspetto cruciale. L’errore derivante da un campionamento per quote potrebbe essere addirittura inferiore a quello di un campionamento stratificato di numerosità comparabile, ma non ci sono strumenti in grado di valutarlo. 1.4 Calcolo statistico La rivoluzione informatica sta avendo un impatto formidabile sulla Statistica. Grazie all’aumento della velocità dei processori e della capacità di archiviazione nella memoria dei computer, il calcolo statistico è divenuto accessibile anche ai singoli studiosi e alle piccole organizzazioni. Molti programmi di gestione ed analisi dei dati incorporano una parte importante della metodologia statistica. Segnaliamo il programma R, distribuito gratuitamente dall’omonima fondazione (www.r-project.org/foundation/main.html) in versioni compatibili con la maggior parte dei sistemi operativi. L’atto di nascita ufficiale è l’articolo di R. Ihaka e R. Gentleman “R: a language for data analysis and graphics”, apparso nel 1996 sul Journal of Computational and Graphical Statistics. Da allora il software si è sviluppato grazie al contributo dei ricercatori del Comprehensive R Archive Network (CRAN). R è un linguaggio di programmazione e un ambiente di calcolo le cui risorse permettono di specificare ed eseguire un insieme di comandi, visualizzare i risultati in formato testo, visualizzare i grafici in una finestra ausiliaria, accedere ad archivi esterni, anche in rete, per importare dati e grafici, archiviare in modo permanente risultati e grafici. R è depositato all’indirizzo www.r-project.org. Merita una prova. 1.5 Distribuzioni di frequenze Scopo di un’indagine statistica è far emergere le proprietà generali di un collettivo, non certo le caratteristiche delle singole unità. Per ottenere questo risultato, un passaggio fondamentale è la costruzione della distribuzione di frequenze secondo le modalità della variabile. Si tratta di un’operazione di classificazione dei dati, mediante la quale ad ogni modalità si associa il numero di unità di rilevazione che la possiedono. Questo numero è la frequenza assoluta della modalità in questione. Al posto delle frequenze assolute, per agevolare i confronti, è spesso preferibile considerare le frequenze relative, che si ottengono dividendo le frequenze assolute per la loro somma, pari al numero delle unità rilevate2 . La distribuzione di frequenze descrive la composizione di un collettivo secondo le modalità della variabile oggetto di studio. Dal punto di vista matematico, essa costituisce una partizione dell’insieme delle unità di rilevazione in sottoinsiemi (classi), uno per ogni modalità della variabile, comprendenti ciascuno unità 2 La somma delle frequenze assolute è uguale al numero delle unità di rilevazione se le modalità sono incompatibili ed esaustive, condizione che supponiamo sempre verificata. 8 DAI DATI ALLA DISTRIBUZIONE aventi la stessa modalità. La frequenza assoluta è il numero di elementi di ogni classe della partizione della quale rappresenta la misura. L’interpretazione in chiave statistica di un fenomeno scaturisce dalla lettura della corrispondente distribuzione. Le domande più comuni sono: quali sono le modalità più/meno rappresentate? c’è una modalità dominante? la distribuzione è concentrata su poche modalità o è tendenzialmente omogenea 3? Esempio 3 (Premi Nobel) Dal 1901 al 2006 il premio Nobel per la Fisica è stato assegnato a 178 scienziati. Qual è la nazionalità dei vincitori? La distribuzione secondo la nazionalità degli scienziati mostra che 76 premi, pari al 42.7%, sono andati a scienziati statunitensi4 , 24 a scienziati tedeschi (13.5%), 20 a scienziati inglesi (11.2%). La distribuzione è fortemente concentrata: le prime tre nazionalità totalizzano il 67.4% dei premi. Nazionalità ALGERIA AUSTRIA BIELORUSSIA CANADA CINA DANIMARCA FRANCIA GERMANIA GIAPPONE INDIA Premi 1 2 1 2 2 3 10 24 3 1 % 0.6 1.1 0.6 1.1 1.1 1.7 5.6 13.5 1.7 0.6 Nazionalità IRLANDA ITALIA OLANDA PAKISTAN REGNO UNITO RUSSIA STATI UNITI SVEZIA SVIZZERA Premi 1 5 9 1 20 8 76 4 5 % 0.6 2.8 5.1 0.6 11.2 4.5 42.7 2.3 2.8 Tabella 1.1: Nazionalità dei premi Nobel per la Fisica. Presentazioni grafiche appropriate aiutano a cogliere le caratteristiche di una distribuzione in modo assai più efficace di una tabella di frequenze. Per le variabili qualitative si utilizza il diagramma a rettangoli distanziati, che associa ad ogni modalità un rettangolo con base di ampiezza costante ed altezza uguale alla frequenza relativa. Nel grafico che ne risulta il rettangolo più alto corrisponde alla moda della distribuzione, la modalità con la massima frequenza. Esempio 4 (Titolo di studio del capofamiglia) Dal campione Banca d’Italia del 2004 abbiamo estratto i dati riguardanti il titolo di studio del capofamiglia. La Figura 1.1 descrive la corrispondente distribuzione. La moda è licenza media inferiore (35.7% delle famiglie), seguita da diploma di scuola media superiore (25.7%) e licenza elementare (24.0%). Solo l’8.3% dei capifamiglia ha un titolo di studio universitario. 3 Una distribuzione è omogenea se tutte le modalità hanno la stessa frequenza. Una distribuzione è degenere se tutte le unità di rilevazione presentano la medesima modalità. 4 La nazionalità è rilevata alla data di conferimento del premio. Numerosi premi Nobel sono di origine tedesca, emigrati negli Stati Uniti durante le persecuzioni razziali hitleriane o dopo la seconda guerra mondiale. 9 1.5. DISTRIBUZIONI DI FREQUENZE 10 15 20 25 30 35 0 5 Frequenza % Bilanci Familiari 2004 Nessuno L.Ele. M.Inf. M.Sup. Laurea Titolo di Studio del Capofamiglia Figura 1.1: Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). 10 DAI DATI ALLA DISTRIBUZIONE Distribuzioni numeriche Le distribuzioni di frequenza per dati numerici presentano due importanti differenze rispetto ai dati non numerici. In primo luogo, per evitare la proliferazione delle modalità, è quasi sempre necessario dividere l’intervallo di variazione 5 dei dati in intervalli disgiunti. Ogni dato è poi attribuito all’intervallo di pertinenza mediante la consueta operazione di classificazione. In secondo luogo, poichè i dati formano un sottoinsieme dell’insieme dei numeri reali, la distribuzione di frequenze è interpretabile come un sistema di pesi assegnati ai punti della retta numerica. Il peso è positivo dove il fenomeno è presente, è pari a zero dove il fenomeno è assente. I pesi più elevati identificano gli intervalli di maggior concentrazione del fenomeno. Esempio 5 (Dimensione delle famiglie) Le rilevazioni ISTAT documentano puntualmente il processo di trasformazione delle famiglie italiane. La Tabella 2.2 mette a confronto le distribuzioni di frequenza del numero di componenti delle famiglie in occasione dei censimenti dal 1961 al 2001. La variabile è discreta, con modalità 1, 2, ...; per evitare dettagli inutili le famiglie con 6 componenti o più sono aggregate in un’unica classe. I dati mostrano che nell’intervallo di tempo considerato il numero delle famiglie aumenta in misura considerevole e la loro dimensione si riduce. Le famiglie con più di 4 componenti passano dal 27.0% del 1961 al 7.5% nel 2001, mentre le famiglie con un solo componente passano dal 10.6% al 24.9%. La moda, pari a 3 componenti nel 1961 e 1971, scende a 2 componenti dal 1981 in poi. Dietro questi numeri possiamo scorgere i mutamenti intervenuti nella società italiana. 2.1 Presentazioni ramo-foglie La presentazione ramo-foglie6 ha la peculiarità di visualizzare la distribuzione di frequenze di una variabile numerica, mantenendo la possibilità di leggere i dati rilevati. L’esempio seguente ne illustra la costruzione. 5 L’intervallo di variazione ha come estremi il minimo ed il massimo dei dati osservati. ramo-foglie (stem-and-leaf display) e diagramma scatola-baffi (box-andwhisker display) sono stati proposti dal matematico e statistico americano John W. Tukey (1915-2000). 6 Presentazione 11 12 DISTRIBUZIONI NUMERICHE N. Componenti 1 2 3 4 5 6 e più Media N. Famiglie (Migliaia) 1961 10.6 19.6 22.4 20.4 12.6 14.4 3.6 13747 Famiglie(%) 1971 1981 1991 12.9 17.9 20.6 22.0 23.6 24.7 22.4 22.1 22.2 21.2 21.5 21.2 11.8 9.5 7.9 9.7 5.4 3.4 3.3 3.0 2.8 15981 18632 19909 2001 24.9 27.1 21.6 19.0 5.8 1.7 2.6 21811 Tabella 2.2: Numero di componenti delle famiglie, censimenti 1961-2001 (fonte: ISTAT). Esempio 6 (Sviluppo costiero delle regioni) La Tabella 2.3 riporta i dati su sviluppo costiero e superficie delle 15 regioni con sbocco sul mare. Lo sviluppo costiero corretto, ottenuto dividendo lo sviluppo costiero per la radice quadrata della superficie, varia da un minimo di 0.51 per il Molise ad un massimo di 10.54 per la Sardegna. Per costruire il ramo-foglie è necessario individuare le cifre più significative dei dati, che formeranno i rami, mentre le rimanenti cifre formeranno le foglie. Nel nostro caso possiamo far coincidere le cifre più significative con quelle intere. Riportiamo di seguito la suddivisione ramo-foglia per alcune regioni. Regione Basilicata Lazio Sardegna Sviluppo costiero 0.59 2.72 10.54 Ramo 0 2 10 Foglia 59 72 54 La presentazione ramo-foglie è una tabella formata da due colonne separate da una linea verticale. Nella colonna di sinistra si elencano i valori dei rami, uno per riga, dal più piccolo al più grande, considerando tutti i valori intermedi. Nella colonna di destra in ogni riga si elencano le foglie appartenenti al corrispondente ramo, ordinate in senso crescente. Se le foglie sono formate da una sola cifra, esse si succedono una dopo l’altra, senza caratteri di separazione. Se sono formate da più di una cifra, tra una foglia e l’altra si inseriscono caratteri di separazione, come “,” o “;”. La posizione dell’eventuale punto decimale è indicata nella legenda. Il ramo-foglie dello sviluppo costiero è riportato nella Tabella 2.4. Come si legge una presentazione ramo-foglie? È evidente che i rami rappresentano intervalli di numeri reali e che il numero di foglie appartenenti a ciascun ramo è la frequenza assoluta dei dati compresi nel corrispondente intervallo. Pertanto un ramo-foglie descrive una distribuzione di frequenze di intervalli di numeri reali aventi tutti la medesima ampiezza. Nell’Esempio 6 il ramo 0 è l’intervallo [0, 1) mentre il ramo 10 è l’intervallo [10, 11). La frequenza delle regioni con uno sviluppo costiero compreso nell’in- 13 2.1. PRESENTAZIONI RAMO-FOGLIE Regione Liguria Toscana Lazio Campania Calabria Sicilia Sardegna Veneto Friuli V.-G. Emilia R. Marche Abruzzo Molise Puglia Basilicata Sviluppo Costiero (A, km) 346 573 357 461 710 1425 1636 156 110 130 172 124 34 830 59 Superficie (B,kmq) 5421 22997 17208 13595 15080 25707 24089 18379 7844 22123 9694 10799 4438 19363 9992 √ A/ B 4.69 3.77 2.72 3.95 5.78 8.89 10.54 1.15 1.24 0.87 1.75 1.19 0.51 5.96 0.59 Tabella 2.3: Sviluppo costiero e superficie delle regioni. tervallo [1, 2) è pari a 4, il numero di foglie del ramo 1. I rami privi di foglie sono intervalli con frequenza nulla. Viceversa, il ramo col massimo numero di foglie è l’intervallo (classe) modale della distribuzione, cioè l’intervallo con la massima frequenza delle unità rilevate. Dalla presentazione ramo-foglie si possono estrarre i dati rilevati semplicemente accostando ramo e foglia, avendo cura di inserire l’eventuale punto decimale nella posizione indicata dalla legenda. Nell’Esempio 6 il dato minimo è 0.51, il dato massimo è 10.54 e la mediana, o valore centrale 7 , è 2.72. Se ruotiamo di 90 gradi in senso anti-orario la tabella, la presentazione ramofoglie è leggibile come un diagramma delle frequenze dei dati osservati sulla retta reale. La linea verticale è la retta dei numeri reali e i rami indicano gli estremi degli intervalli in cui è stato diviso l’intervallo di variazione della distribuzione. L’altezza delle colonnine formate dalle foglie misura la frequenza dei dati nel corrispondente intervallo ed il suo andamento può fornire elementi utili ai fini interpretativi. Nell’Esempio 6 tutti i dati, tranne quelli di Sicilia e Sardegna, si collocano tra 0 e 6, il che significa che la distribuzione è sbilanciata verso sinistra, sui valori più bassi dell’intervallo di variazione. Si può verificare che le regioni del versante adriatico, ad eccezione della Puglia, hanno valori compresi tra 0 e 2, mentre le regioni dei versanti ionico e tirrenico, tranne la Basilicata, hanno valori superiori a 2. Il fatto che i dati di Sicilia e Sardegna siano isolati, nella parte destra del ramo-foglie, segnala che il loro sviluppo costiero è molto 7 La mediana è il valore che, nella successione ordinata dei dati, è preceduto e seguito dallo stesso numero di dati. Se la numerosità è dispari la mediana è unica. Se la numerosità è pari esiste una coppia di valori centrali ed in questo caso si considera usualmente come mediana la semisomma di questi due valori. 14 DISTRIBUZIONI NUMERICHE n = 15 2| 72 si legge 2.72 km 0 1 2 3 4 5 6 7 8 9 10 51,59,87 15,19,24,75 72 77,95 69 78,96 89 54 Tabella 2.4: Ramo-foglia dello sviluppo costiero delle regioni. più alto delle altre regioni. Esempio 7 (Magnitudo dei terremoti) La Tabella 2.5 mostra la distribuzione della magnitudo8 dei terremoti rilevati nella settimana dal 22/12 al 29/12 del 2006 (fonte: United States Geological Survey; terremoti con magnitudo M ≥ 4). In questo intervallo di tempo sono stati rilevati 48 terremoti con magnitudo compresa tra 4.0 e 7.1. La distribuzione è sbilanciata verso sinistra e la mediana è 5.0. L’intervallo di tempo (in ore) tra due terremoti successivi (Tabella 2.69 ) ha una distribuzione monotona decrescente; il dato minimo è 0.02, il dato massimo è 19.2 e la mediana è pari a 1.9. Questo significa che metà dei dati è concentrata nell’intervallo (0, 1.9] e la restante parte nell’intervallo [1.9, 20). Sono presenti due dati isolati nella parte destra del ramo-foglie, molto distanti dal resto della distribuzione, rispettivamente uguali a 16.8 e 19.2. n = 48 5| 1 si legge 5.1 4 4 5 5 6 6 7 0022344 555555667788899 00000112222234 55677889 03 9 1 Tabella 2.5: Ramo-foglia della magnitudo dei terremoti. 8 La magnitudo è una misura fisica dell’intensità di un terremoto direttamente correlata all’energia sprigionata. 9 Per brevità sono stati omessi, ed indicati con “:”, molti rami vuoti. 15 2.2. ISTOGRAMMI n = 47 2| 1 si legge 2.1 ore 0 1 2 3 4 5 6 7 8 9 10 : 16 : 19 0122334444557779 23578899 123678 12268 0445 11 2 1 6 5 8 2 Tabella 2.6: Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti successivi. Quando la stessa variabile è rilevata in due gruppi diversi, possiamo confrontarne le distribuzioni disponendo fianco a fianco le rispettive presentazioni ramo-foglie. Esempio 8 (Premi Nobel) La presentazione ramo-foglie appaiata dell’età dei premi Nobel per la Fisica e la Letteratura (Tabella 2.7) ne mette in risalto le differenze. La seconda distribuzione è traslata verso destra, su età più avanzate, rispetto alla prima. Le età mediane sono pari a 53 (Fisica) e 63 anni (Letteratura). 2.2 Istogrammi Se la numerosità dei dati numerici è elevata, lo strumento appropriato per rappresentare la distribuzione è l’istogramma. Diversamente dalla presentazione ramo-foglie, esso non richiede che l’intervallo di variazione della variabile sia diviso in intervalli di ampiezza costante. Supponiamo di aver fissato sulla retta dei numeri reali un insieme di intervalli che formano una partizione dell’intervallo di variazione. Per costruire l’istogramma basta tracciare sopra ogni intervallo un rettangolo avente come base l’intervallo corrispondente e come altezza la frequenza relativa divisa per l’ampiezza dell’intervallo. Quest’ultima quantità è chiamata densità di frequenza relativa e svolge un ruolo fondamentale nell’analisi delle distribuzioni numeriche. Esempio 9 (SAU delle aziende agricole) Un annoso problema dell’agricoltura italiana è la frammentazione della proprietà terriera. Gli ultimi anni, anche 16 nLett = 103 nF is = 177 6| 9 si legge 69 anni DISTRIBUZIONI NUMERICHE 5 42 9987665 44432222110 999888776666555 33332222110000000 999999888887777 4444433332222111110 9998887666655 30 5 2 3 3 4 4 5 5 6 6 7 7 8 8 5 1111234 555567777788899 0000012222222233344444 555556666666777778888899999999 0000011123333333444444 55555666666777889999999 000000111112233333444444 556677888 01112222334 56667789 004 78 Tabella 2.7: Età dei premi Nobel per la Fisica (a destra) e la Letteratura (a sinistra), 1901-2006. per effetto delle politiche europee, hanno fatto registrare una forte diminuzione del numero di aziende ed un parallelo aumento della superficie agricola utilizzata (SAU) media. La Tabella 2.810 riporta le stime della distribuzione delle aziende agricole italiane per classi di SAU riferite al 2000 e al 2005. I dati derivano da un’indagine campionaria dell’ISTAT che ha coinvolto per il 2005 52· 984 aziende11 . I dati mostrano che dal 2000 al 2005 diminuisce la % delle aziende con SAU inferiore a 2 ettari mentre aumenta la % delle aziende di tutte le altre classi. L’aumento è più accentuato nelle classi da 2 a 20 ettari. Tuttavia questa trasformazione non cambia le caratteristiche generali della distribuzione che rimane monotona decrescente, con una fortissima concentrazione delle aziende nelle classi fino a 2 ettari di SAU: 28.5 aziende per ettaro ogni 100 aziende nella classe fino ad 1 ettaro, 20.9 aziende per ettaro ogni 100 aziende nella classe da 1 a 2 ettari, solo 8.03 aziende per ettaro ogni 100 aziende nella classe da 2 a 5 ettari. Avendo le classi ampiezze diverse, l’analisi della distribuzione richiede l’uso della densità di frequenza. L’istogramma riportato nella Figura 2.2 illustra con chiarezza questi risultati. La densità di frequenza relativa è una grandezza non negativa e dimensionale12 , la cui unità di misura è il reciproco dell’unità di misura della variabile. Nell’Esempio 9 l’unità di misura della densità è (ettari)−1 . Vale la pena sottolineare la differenza tra frequenza e densità di frequenza. La frequenza misura 10 L’ampiezza della prima classe è stimata uguale a 1, quella dell’ultima uguale a 100. Struttura e produzioni delle aziende agricole italiane – Anno 2005. Collana Statistiche in Breve. 12 La frequenza relativa è compresa tra 0 e 1 ed è una grandezza adimensionale, derivando da un conteggio. 11 ISTAT, 17 2.2. ISTOGRAMMI Classi di SAU (ettari) <1 1–2 2–5 5–10 10–20 20–30 30–50 50–100 ≥ 100 N. Aziende (Migliaia) Aziende (%) 2000 2005 35.5 28.5 21.5 20.9 21.4 24.1 10.1 11.9 6.0 7.6 2.1 2.6 1.7 2.2 1.1 1.5 0.6 0.7 2154 1729 Densità (%) 2000 2005 35.5 28.5 21.5 20.9 7.13 8.03 2.02 2.38 0.60 0.76 0.21 0.26 0.085 0.11 0.022 0.03 0.003 0.007 Tabella 2.8: SAU delle aziende agricole, 2000 e 2005 (fonte: ISTAT). il peso relativo degli intervalli in cui è stato diviso l’intervallo di variazione. La densità di frequenza (in modo analogo alla densità di popolazione in un territorio) misura l’addensamento, o concentrazione, delle unità di rilevazione in ogni punto dell’intervallo di variazione. L’istogramma, o curva di densità, è il grafico della densità di frequenza, della quale mostra l’andamento sulla retta numerica. L’altezza dell’istogramma, più o meno elevata, descrive l’addensamento delle unità di rilevazione, maggiore o minore, in ogni punto dell’intervallo di variazione. In particolare, i picchi dell’istogramma individuano le classi modali, cioè gli intervalli contenenti i punti di massimo relativo della densità. L’area della superficie sottesa all’istogramma in un intervallo è uguale alla frequenza relativa corrispondente. Questa importante proprietà areale discende dalla definizione stessa di densità di frequenza. In particolare, l’area totale è uguale a 1 (o 100%) il che consente di confrontare istogrammi diversi, almeno quando le variabili hanno la stessa unità di misura. Gli istogrammi sono largamente usati anche con le variabili discrete. Consideriamo, ad esempio, il numero di componenti delle famiglie. Ad ognuna delle modalità 1, 2, ..., facciamo corrispondere un intervallo di ampiezza unitaria, centrato sulla modalità medesima. Ad esempio, alla modalità 1 è associato l’intervallo [0.5, 1.5), alla modalità 2 l’intervallo [1.5, 2.5), e cosı̀ via. La densità di frequenza coincide con la frequenza, perchè l’ampiezza degli intervalli è pari a 1. È cosı̀ possibile utilizzare formalmente una rappresentazione grafica mediante istogrammi. I corrispondenti calcoli areali sono esatti se limitati agli estremi delle classi. La Figura 2.3 mostra l’istogramma del numero di componenti delle famiglie italiane al censimento del 2001 (Esempio 5). 18 DISTRIBUZIONI NUMERICHE 25 20 15 10 5 0 Densità (% di aziende per ettaro) SAU delle Aziende Agricole (2005) 0 10 20 30 40 50 60 Superficie Agricola Utilizzata (Ettari) Figura 2.2: SAU delle aziende agricole, 2005 (fonte: ISTAT). 2.3 Tipologie distributive Rappresentazioni grafiche come il ramo-foglie e l’istogramma hanno il pregio di evidenziare le caratteristiche generali di una variabile statistica, cioè quelle proprietà che ne definiscono la tipologia distributiva. Un passaggio fondamentale del processo di astrazione tipico della Statistica è proprio il riconoscimento nell’istogramma delle proprietà caratteristiche di qualche curva di frequenza ideale. Una distribuzione è unimodale se il suo istogramma (o la presentazione ramofoglie) presenta un unico picco, coincidente con la classe modale. Nelle distribuzioni unimodali la densità di frequenza è non decrescente dall’estremo inferiore dell’intervallo di variazione fino alla classe modale ed è non crescente dalla classe modale all’estremo superiore. Gli istogrammi delle distribuzioni multimodali presentano invece più di un picco, cioè la densità di frequenza ha più di un massimo relativo. Nelle distribuzioni zeromodali la densità di frequenza è monotona, non decrescente o non crescente. Sono esempi di distribuzioni unimodali la magnitudo dei terremoti (Tabella 2.5) e il numero di componenti 19 2.3. TIPOLOGIE DISTRIBUTIVE 20 15 10 5 0 Densità (% di famiglie) 25 Dimensione delle Famiglie (2001) 0 1 2 3 4 5 6 7 Numero di Componenti Figura 2.3: Numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). delle famiglie (Figura 2.3) mentre sono zeromodali con densità non crescente le distribuzioni dell’intervallo di tempo tra due terremoti successivi (Tabella 2.6) e della SAU delle aziende agricole (Figura 2.2). Una distribuzione è simmetrica se il suo istogramma (o la presentazione ramo-foglie) è simmetrico rispetto ad un asse verticale passante per il punto centrale dell’intervallo di variazione. Nelle distribuzioni unimodali simmetriche la classe modale è al centro dell’intervallo di variazione. Una distribuzione unimodale asimmetrica è sbilanciata a sinistra o a destra a seconda che la classe modale sia spostata verso l’estremo inferiore o superiore dell’intervallo di variazione13 . Gli esempi precedentemente richiamati della magnitudo dei terremoti e del numero di componenti delle famiglie sono distribuzioni unimodali asimmetriche sbilanciate a sinistra. La Figura 2.4 illustra schematicamente l’andamento delle distribuzioni unimodali simmetriche e asimmetriche. Una distribuzione è uniforme se la densità di frequenza è costante in tutto 13 Le distribuzioni unimodali asimmetriche sbilanciate a sinistra (a destra) sono anche chiamate asimmetriche positivamente (negativamente). 20 DISTRIBUZIONI NUMERICHE l’intervallo di variazione. Le distribuzioni uniformi hanno un intervallo di variazione limitato, non hanno moda e sono simmetriche rispetto al punto centrale dell’intervallo di variazione. La Figura 2.4 mostra il grafico della funzione di densità di una distribuzione uniforme nell’intervallo (a, b). Questo modello distributivo viene usato per approssimare curve di densità irregolari, prive di un andamento ben definito. A ben vedere, la distribuzione uniforme è anche utilizzata nella rappresentazione mediante istogrammi, per approssimare la distribuzione della variabile in ciascun intervallo. L’istogramma è infatti una mistura di distribuzioni uniformi, una per intervallo, con pesi uguali alle corrispondenti frequenze relative. Esempio 10 (Cifre decimali di π) Il numero più famoso, π, definito come rapporto tra la lunghezza della circonferenza e quella del suo diametro, ha uno sviluppo decimale illimitato aperiodico. Nell’approssimazione con 50 cifre decimali 3.1415926535897932384626433832795028841971693993751 le cifre 0, 1, ..., 9 hanno frequenze simili e si succedono senza uno schema definito. L’istogramma della distribuzione delle prime 10000 cifre di π 14 riportato nella Figura 2.5 suggerisce proprio una tipologia uniforme. 14 Calcolo eseguito con Mathematica. 21 2.3. TIPOLOGIE DISTRIBUTIVE Unimodale Simmetrica Uniforme Densità % Densità % 200/(b−a) a (a+b)/2 b 100/(b−a) a (a+b)/2 b X X Asimmetrica Sinistra Asimmetrica Destra Densità % 200/(b−a) Densità % 200/(b−a) a (a+b)/2 b a X Figura 2.4: Tipologie distributive. (a+b)/2 X b 22 DISTRIBUZIONI NUMERICHE 10 8 6 4 0 2 Densità (% di cifre) 12 Prime 10000 Cifre Decimali di Pi Greco 0 2 4 6 8 10 Cifra Figura 2.5: Cifre decimali di π (linea tratteggiata: approssimazione uniforme). Statistiche ordinate e quantili L’analisi dei dati numerici, oltre ad evidenziarne la tipologia distributiva attraverso curve di densità, si avvale di indici di sintesi specifici, per descrivere caratteristiche come la posizione sulla retta numerica, la variabilità, il grado di asimmetria. Tali indici forniscono valori numerici che vengono chiamati parametri della distribuzione quando i dati si riferiscono all’intera popolazione, statistiche campionarie quando i dati si riferiscono ad un campione. Indici di posizione già presentati sono la moda e la mediana. La moda del numero di componenti delle famiglie nel censimento del 2001 è pari a 2 e coincide col numero mediano di componenti (Esempio 5). Questo valore rappresenta un parametro noto della specifica popolazione oggetto dell’indagine. La magnitudo mediana dei terremoti con magnitudo superiore a 4 è pari a 5 ed il tempo d’attesa mediano tra due terremoti successivi è pari a 1.9 (Esempio 7). Questi due valori sono statistiche campionarie. 3.1 Statistiche ordinate Prima di procedere, è opportuno precisare la notazione utilizzata. Le lettere maiuscole X, Y . . . indicano le variabili e le corrispondenti lettere minuscole x, y . . . indicano i dati osservati. La numerosità campionaria è indicata col simbolo n15 . I dati campionari della variabile X sono x1 , . . . , xi , . . . , xn , in cui, per i = 1, . . . , n, xi indica il dato rilevato sull’i-esima unità. Una statistica campionaria può essere definita come una funzione dei dati campionari che all’n-upla x1 , . . . , xn associa una sua trasformazione g(x1 , . . . , xn ) = gn , non necessariamente univariata. La più semplice trasformazione dei dati numerici campionari è quella che ad x1 , . . . , xn associa i corrispondenti valori ordinati in senso crescente (non decrescente) x(1) ≤ . . . ≤ x(i) ≤ . . . ≤ x(n) . L’n-upla x(1) , . . . , x(i) , . . . , x(n) è chiamata la statistica ordinata; x(1) è il minimo dato campionario, x(n) il massimo, x(i) l’i-esima componente della statistica ordinata. Molte statistiche campionarie sono trasformazioni delle statistiche ordinate. Tra quelle già in15 Il simbolo N è di solito riservato alla numerosità della popolazione. 23 24 STATISTICHE ORDINATE E QUANTILI contrate ricordiamo l’intervallo di variazione (x(1) , x(n) )16 e la corrispondente ampiezza, il campo di variazione x(n) − x(1) , che rappresenta il più semplice indice di variabilità. Notiamo che dalla presentazione ramo-foglie, diversamente dall’istogramma, si possono ricavare le statistiche ordinate. Presidente Repubblica Italiana E. De Nicola L. Einaudi G. Gronchi A. Segni G. Saragat G. Leone S. Pertini F. Cossiga O. L. Scalfaro C. A. Ciampi G. Napolitano Età 71 74 63 71 66 63 82 58 74 79 81 Presidente Stati Uniti H. S. Truman D. D. Eisenhower J. F. Kennedy L. B. Johnson R. Nixon G. Ford J. Carter R. Reagan G. Bush B. Clinton G. W. Bush Età 61 63 44 55 56 61 53 70 65 47 55 Tabella 3.9: Età dei presidenti della Repubblica Italiana e degli Stati Uniti, 1945-2006. Esempio 11 (Età dei presidenti) La Tabella 3.9 riporta l’elenco dei presidenti della Repubblica Italiana e degli Stati Uniti (quest’ultimi solo dopo il 1945) e la loro età al momento dell’elezione17 . La statistica ordinata è 58, 63, 63, 66, 71, 71, 74, 74, 79, 81, 82 per i presidenti italiani, 44, 47, 53, 55, 55, 56, 61, 61, 63, 65, 70 per quelli americani. I presidenti americani sono generalmente più giovani di quelli italiani: le età mediane sono rispettivamente 56 e 71 anni. Il più giovane presidente italiano è F. Cossiga, 58 anni; il più giovane presidente americano è J. F. Kennedy, 44 anni. Il più vecchio presidente italiano è S. Pertini, 82 anni; il più vecchio presidente americano è R. Reagan, 70 anni. 3.2 Quantili L’i-esima statistica ordinata x(i) è un valore la cui posizione relativa sulla retta numerica è descritta dal suo indice: i dati (i/n, in termini relativi) hanno un valore minore di (o uguale a) x(i) e n − i + 1 dati (1 − (i − 1)/n, in termini relativi) hanno un valore maggiore di (o uguale a) x(i) . Al variare di i da 1 a n, 16 L’intervallo 17 Per di variazione è un esempio di statistica bivariata. i Presidenti degli Stati Uniti si considera il primo mandato. 25 3.2. QUANTILI ciascuno dei due pesi pi = i/n e qi = 1 − (i − 1)/n descrive in modo equivalente la posizione di x(i) . I dati estremi hanno un peso pi tendente a 0 (dati vicini all’estremo inferiore dell’intervallo di variazione) o a 1 (dati vicini all’estremo superiore). I dati centrali hanno un peso tendente a 0.518 . La nozione di quantile è una semplice generalizzazione che si ottiene facendo assumere al peso pi ogni valore reale compreso tra 0 e 1. Si definisce quantile d’ordine p, e si indica col simbolo xp , un valore della variabile X tale che la frequenza relativa dei dati minori di (o uguali a) xp è almeno pari a p e la frequenza relativa dei dati maggiori di (o uguali a) xp è almeno pari a 1 − p. L’interpretazione geometrica è chiara: il quantile xp divide l’istogramma della distribuzione in due regioni: quella a sinistra di xp ha un’area circa uguale a p, quella a destra ha un’area circa uguale a 1 − p. I quantili più usati sono i quartili x0.25 , x0.5 (coincidente con la mediana), x0.75 . Essi dividono la distribuzione in quattro intervalli [x(1) , x0.25 ), [x0.25 , x0.5 ), [x0.5 , x0.75 ), [x0.75 , x(n) ] contenenti ciascuno, approssimativamente, il 25% dei dati. A questi intervalli è associata un’utile nomenclatura. L’intervallo tra il primo ed il terzo quartile forma la parte centrale della distribuzione, più precisamente l’intervallo contenente il 50% centrale dei dati; esso è preceduto dalla coda sinistra, cioè l’intervallo contenente il 25% più basso dei dati ed è seguito dalla coda destra, l’intervallo contenente il 25% più alto dei dati. L’ampiezza della parte centrale della distribuzione è il cosiddetto scarto interquartilico SIQ = x0.75 −x0.25 , un indice di variabilità che svolge un ruolo importante nella definizione del diagramma scatola-baffi. Nelle applicazioni si incontrano frequentemente i decili x0.1 , . . . , x0.9 e i centili x0.01 , . . . , x0.99 che dividono la distribuzione in intervalli contenenti ciascuno, rispettivamente, circa il 10% e l’1% dei dati. Le seguenti proprietà seguono in modo immediato dalla definizione. Q1. I quantili appartengono all’intervallo di variazione della variabile: per ogni 0 < p < 1, x(1) ≤ xp ≤ x(n) . Q2. La funzione quantilica è monotona non decrescente: se 0 < p < q < 1, allora xp ≤ xq . Q3. Quando l’ordine quantilico p tende a 0 (1), il quantile tende all’estremo inferiore (superiore) dell’intervallo di variazione: lim xp = x(1) , lim xp = x(n) . p→0+ p→1− L’ultima proprietà suggerisce di identificare i quantili d’ordine 0 e 1 col minimo ed il massimo. 18 Secondo J. Tukey, la centralità di un dato numerico x rispetto ad un campione osservato il minimo tra pi e qi . 26 STATISTICHE ORDINATE E QUANTILI Esempio 12 (Distribuzione uniforme) Se X ha una distribuzione uniforme nell’intervallo (a, b), per ogni 0 < p < 1 xp = a + p(b − a). La formula mostra che la distanza di xp dall’estremo inferiore dell’intervallo di variazione è semplicemente p volte l’ampiezza di quest’ultimo. I tre quartili sono x0.25 = a + (b − a)/4, x0.5 = a + (b − a)/2, x0.75 = a + 3(b − a)/4 e dividono l’intervallo (a, b) in quattro intervalli di uguale lunghezza, proprietà caratteristica dei quantili delle distribuzioni uniformi. Per calcolare i quantili di dati numerici divisi in classi, si introduce l’ipotesi di distribuzione uniforme all’interno delle classi e si utilizza il risultato dell’Esempio 12. Esempio 13 (SAU delle aziende agricole) Qual è la superficie mediana? Com’è variata dal 2000 al 2005? Dalla Tabella 2.8 si ricava che nel 2005 il 49.4% delle aziende aveva meno di 2 ettari di SAU ed il 73.5% meno di 5 ettari. Pertanto la mediana è compresa necessariamente tra 2 e 5 ettari. Imponendo la condizione che la % di aziende con SAU minore di (o uguale a) x0.5 sia pari al 50%, si ottiene l’equazione 49.4 + (24.1/3)(x0.5 − 2) = 50, (2005) da cui segue x0.5 = 2.07 ettari. Procedendo in modo analogo si trova che nel 2000 la superficie mediana è compresa tra 1 e 2 ettari con valore puntuale (2000) x0.5 = 1.67. Il risultato fa risaltare il grado di asimmetria della distribuzione: nel 2005 il 50% delle aziende è concentrato tra 0 e 2.07 ettari di SAU mentre le altre si distribuiscono in un intervallo che va da 2.07 a oltre 100 ettari. Nelle distribuzioni asimmetriche la mediana, centro della distribuzione in termini di frequenza, può spostarsi in maniera rilevante dal centro dell’intervallo di variazione. I quantili sono largamente utilizzati nello studio della distribuzione del reddito. L’esempio seguente riprende alcuni risultati dell’indagine della Banca d’Italia sui bilanci familiari. Esempio 14 (Bilanci familiari) I quantili consentono una valutazione immediata della posizione delle famiglie sulla scala reddituale. Consideriamo, ad esempio, una famiglia con 15500 euro di reddito annuo. Dalla Tabella 3.10 si rileva che questo valore è inferiore alla mediana ed è compreso tra il secondo ed il terzo decile. Pertanto meno del 30% delle famiglie hanno un reddito inferiore a quella in esame, mentre oltre il 70% hanno un reddito superiore. Se invece il reddito di una famiglia corrisponde al quantile d’ordine 0.95, la sua posizione è invidiabile perchè solo il 5% delle famiglie ha un reddito uguale o superiore. 27 3.2. QUANTILI p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 xp 10517 14400 17140 20233 23833 28182 33417 40633 52798 xp − xp−0.1 3883 2740 3093 3600 4349 5235 7216 12165 Tabella 3.10: Decili del reddito familiare, 2004 (fonte: Banca d’Italia). La tabella mostra che il reddito annuo è maggiore di x0.9 = 52798. Anche se in modo indiretto, i quantili danno informazioni sulla densità di frequenza e quindi sulla tipologia distributiva. La tabella mostra che la distribuzione non è uniforme perchè gli intervalli tra decili successivi hanno ampiezze diverse. La posizione della mediana, spostata a sinistra rispetto al centro dell’intervallo di variazione, suggerisce una forma asimmetrica, con densità più elevata sui redditi più bassi. Si possono ricavare indicazioni più precise? Poichè gli intervalli tra decili successivi contengono tutti il 10% di famiglie, quanto maggiore l’ampiezza dell’intervallo tanto minore è la corrispondente densità. I dati mostrano che la densità aumenta fino all’intervallo [x0.2, x0.3 ) e poi diminuisce, in accordo con una tipologia distributiva unimodale asimmetrica, sbilanciata a sinistra. Questa analisi è confermata dall’istogramma della Figura 3.6. Ricavare i quantili da un ramo-foglie è piuttosto semplice, dato che questo tipo di diagramma riporta proprio la statistica ordinata x(1) , . . . , x(n) . Si deve preliminarmente calcolare il prodotto np che fornisce la posizione del quantile desiderato all’interno del ramo-foglie. Se np è un valore decimale, lo si approssima all’intero superiore più prossimo, pertanto xp = x(dnpe) , cioè il quantile d’ordine p coincide con la statistica ordinata di rango dnpe19 . Se np è un numero intero, ogni valore nell’intervallo [x(np) , x(np+1) ) possiede i requisiti necessari ed in tal caso si pone xp = (x(np) + x(np+1) )/2, cioè si fa coincidere il quantile con la semisomma delle statistiche ordinate di rango np e np + 1. 19 Il simbolo dae indica l’intero superiore più vicino ad a. 28 STATISTICHE ORDINATE E QUANTILI 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Densità (famiglie/1000 euro) Bilanci Familiari 2004 1 23 4 5 6 7 0 20 8 40 9 60 80 100 Reddito familiare (migliaia di euro) Figura 3.6: Reddito familiare e decili, 2004 (fonte: Banca d’Italia). Esempio 15 (Premi Nobel) I quartili dell’età dei premi Nobel per la Fisica sono x0.25 = x(45) = 44, x0.5 = x(89) = 53, x0.75 = x(133) = 62. Il risultato è una semplice applicazione del metodo di calcolo sopra esposto ai dati della Tabella 2.7. Qual è l’interpretazione? Come sappiamo, il primo ed il terzo quartile delimitano l’intervallo contenente il 50% centrale della distribuzione che in questo caso risulta essere simmetrico rispetto alla mediana. Infatti | x0.25 − x0.5 |= | x0.75 − x0.5 |= 9 anni. La coda destra (x0.75 , x(177) ] = (62, 88] è un po’ più lunga della coda sinistra [x(1) , x0.25 ) = [25, 44) il che suggerisce una curva di densità col classico andamento prima crescente, poi decrescente. Come mostra il ramo-foglie, la distribuzione è unimodale asimmetrica, sbilanciata a sinistra. È vero che l’età dei premi Nobel per la Letteratura presenta le stesse caratteristiche? 3.3 Diagrammi scatola-baffi Il diagramma scatola-baffi è una rappresentazione schematica di un campione numerico che utilizza cinque statistiche campionarie: il minimo, il massimo ed i 3.3. DIAGRAMMI SCATOLA-BAFFI 29 quartili. Esso comprende inoltre un criterio per l’individuazione di eventuali dati statisticamente anomali. Questo popolare strumento della Statistica differisce sia dalla presentazione ramo-foglie che dall’istogramma in quanto realizza una sintesi assai più parsimoniosa dei dati. Il diagramma scatola-baffi visualizza la posizione sulla retta numerica dei quattro intervalli in cui i quartili dividono la distribuzione. È formato da un rettangolo — la scatola20 — i cui estremi sono il primo ed il terzo quartile, e da due segmenti — i baffi — uscenti dal punto medio dei lati verticali sinistro e destro della scatola. La scatola rappresenta l’intervallo centrale della distribuzione mentre i baffi rappresentano le code. All’interno della scatola la posizione della mediana è segnata mediante una linea verticale. Siano xS e xR le ascisse delle estremità sinistra e destra dei baffi. Se non ci sono dati anomali, xS = x(1) e xR = x(n) , cioè le estremità dei baffi sono semplicemente il minimo ed il massimo dei dati campionari. Se invece nel campione ci sono dati anomali, le estremità dei baffi sono il minimo ed il massimo dei dati non anomali. Un dato anomalo si caratterizza per essere visibilmente molto più lontano dal centro della distribuzione della maggior parte dei dati. Purtroppo, questa definizione lascia il tempo che trova perchè non è chiaro cosa significhi “molto più lontano” e “maggior parte”. Ecco la soluzione proposta da J. Tukey. Nelle distribuzioni unimodali simmetriche la distanza dei dati estremi dal primo e dal terzo quartile non supera il valore di SIQ moltiplicato per il fattore 1.5. Egli propone pertanto di considerare le barriere cosı̀ calcolate Binf = x0.25 − 1.5SIQ, Bsup = x0.75 + 1.5SIQ come il confine inferiore e superiore dei dati regolari; i dati inferiori a Binf o superiori a Bsup sono considerati statisticamente anomali perchè troppo lontani dal centro. Possiamo ora completare la descrizione del diagramma scatola-baffi. Se tutti i dati del campione sono compresi tra Binf e Bsup , non ci sono dati anomali e le estremità dei baffi sono individuate dal minimo e dal massimo dato campionario. Se invece ci sono dati esterni alle barriere, cioè anomali, l’estremità del baffo sinistro è individuata dal minimo tra i dati campionari maggiori di (o uguali a) Binf e l’estremità del baffo destro è individuata dal massimo tra i dati campionari minori di (o uguali a) Bsup . La posizione di ciascun dato anomalo è evidenziata con simboli particolari (asterisco, cerchietto, etc.). Il diagramma scatola-baffi visualizza i quartili della distribuzione sulla retta numerica, consentendo di valutarne in modo immediato posizione, dispersione e forma. La posizione si evince dall’intervallo di variazione, dalla parte centrale/scatola e, in modo puntuale, dalla mediana. La dispersione è percepibile dal campo di variazione; il diagramma consente inoltre di confrontare la dispersione nella parte centrale (lunghezza della scatola, coincidente con lo scarto interquartilico) con quella nelle code. Forma. Mediana al centro dell’intervallo 20 È rilevante solo la lunghezza della scatola, pari allo scarto interquartilico, mentre l’altezza non ha un significato statistico. 30 STATISTICHE ORDINATE E QUANTILI di variazione ed estremità sinistra e destra della scatola e dei baffi equidistanti dalla mediana sono un indizio di simmetria. Un visibile spostamento della mediana verso una delle estremità della scatola è invece un indizio di asimmetria, che si rafforza se è accompagnato da un corrispondente squilibrio nella lunghezza dei baffi. L’ampiezza dei quattro intervalli in cui è divisa la distribuzione fornisce indicazioni sull’andamento della densità. Sappiamo che un’ampiezza costante degli intervalli è una caratteristica della distribuzione uniforme. Se la lunghezza dei baffi è maggiore della distanza dei quartili dalla mediana, la distribuzione potrebbe essere unimodale. n = 62 2| 1 si legge 21 giorni 0 0 1 1 2 2 3 000000000001111111222233333334444 555555777899 0112244 5789 011 58 4 Tabella 3.11: Ramo-foglia dell’intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. Vale la pena approfondire il criterio di riconoscimento dei dati anomali. Supponiamo che i dati siano un campione casuale da una distribuzione unimodale simmetrica. L’osservazione di un dato da una distribuzione di questo tipo nel 99.3% dei casi produce un valore interno all’intervallo delimitato dalle barriere21. Il valore atteso del numero di dati esterni alle barriere in un campione di n osservazioni è pari a 0.007n: se n = 100, al massimo un dato, se n = 200, uno o due dati. Abbiamo una reale evidenza che il campione sia contaminato se il numero di dati esterni alle barriere supera questa soglia. Ad esempio, tre dati in un campione di 50 elementi segnalano una reale anomalia. Va sottolineato che una tipologia distributiva asimmetrica fa venir meno uno dei presupposti del valore soglia. In effetti, se il campione proviene da una distribuzione unimodale asimmetrica, ad esempio sbilanciata a sinistra, non desta particolare sorpresa la presenza di dati esterni alla barriera destra. Esempio 16 (Carta di credito) Dalla serie dei pagamenti con carta di credito effettuati nel periodo 1/10/2005-31/12/2006 abbiamo ricavato l’intervallo di tempo, in giorni, tra due pagamenti successivi (Tabella 3.11). L’intervallo di variazione va da 0 (pagamenti nello stesso giorno) a 34 giorni. I quartili sono x0.25 = x(16) = 1, x0.5 = (x(31) + x(32) )/2 = 4, x0.75 = x(47) = 11. Nel 21 Il 5. risultato si riferisce alle distribuzioni normali, di cui si parlerà diffusamente nel Capitolo 31 3.3. DIAGRAMMI SCATOLA-BAFFI Carta di Credito 0 5 10 15 20 25 30 35 Intervallo di tempo (giorni) tra due pagamenti successivi Figura 3.7: Intervallo di tempo (giorni) tra due pagamenti successivi con carta di credito. diagramma scatola-baffi (Figura 3.7) due dati, x(61) = 28 e x(62) = 34, sono maggiori della barriera superiore Bsup = 26. Tuttavia, nessuno dei due è da considerare statisticamente anomalo perchè, come mostra anche la presentazione ramo-foglie, la tipologia distributiva è monotona decrescente. LET FIS Nobel per la Letteratura e la Fisica 1901−2006 30 40 50 60 70 80 90 Età Figura 3.8: Età dei premi Nobel per la Fisica e la Letteratura, 1901-2006. Una delle applicazioni più frequenti del diagramma scatola-baffi è il confronto grafico di distribuzioni, per variabili con la stessa unità di misura. Esempio 17 (Premi Nobel) Il diagramma scatola-baffi (Figura 3.8) mostra con chiarezza le differenze tra l’età dei premi Nobel per la Letteratura e la Fisica, in particolare lo spostamento a destra della prima distribuzione rispetto alla seconda. 32 STATISTICHE ORDINATE E QUANTILI Il diagramma scatola-baffi è un metodo robusto, cioè offre un’elevata resistenza alla contaminazione del campione con osservazioni spurie. Questa caratteristica discende dall’utilizzo di statistiche campionarie — i quartili — capaci di sopportare senza grandi variazioni un’elevata percentuale di contaminazione. Si confronti, a questo proposito, il campo di variazione x(n) − x(1) con la differenza Bsup − Binf = 4SIQ. Entrambi forniscono una stima del campo di variazione della popolazione ma, mentre il primo può variare in misura considerevole anche per la presenza di un solo dato anomalo, la seconda è molto più stabile. 3.4 Funzioni di ripartizione Lo studio delle distribuzioni numeriche si avvale di svariati strumenti, grafici ed analitici, a prima vista molto diversi. In realtà, la semplice nozione di frequenza cumulata fino ad un assegnato numero reale, che sta alla base della funzione di ripartizione, si dimostra essere il concetto matematico unificante, a cui tutti gli altri sono riconducibili. La funzione di ripartizione della variabile X, indicata col simbolo FX , ad ogni numero reale x associa la frequenza relativa complessivamente allocata sulla semiretta (−∞, x]22 . Tenuto conto della proprietà areale degli istogrammi, il valore della funzione di ripartizione in un punto interno all’intervallo di variazione è semplicemente l’area sottesa all’istogramma, o ad una curva di densità, fino a quel punto. Conviene ribadire il concetto: l’altezza dell’istogramma in un punto x è il valore della funzione di densità in x, mentre l’area della superficie dell’istogramma fino a x è il valore della funzione di ripartizione in x. Da questa interpretazione geometrica discende il metodo di calcolo della funzione di ripartizione. Se X è una variabile continua con funzione di densità fX , allora23 Z x FX (x) = fX (z)dz. −∞ Se invece X è una variabile discreta con funzione di frequenza relativa fX 24 , X FX (x) = fX (z). z≤x Esempio 18 (Distribuzione uniforme) Se X è una variabile continua con distribuzione uniforme nell’intervallo (a, b), la sua funzione di ripartizione è 0, x ≤ a, (x − a)/(b − a), a < x < b, FX (x) = 1, x ≥ b. 22 La notazione matematica sottolinea che si deve considerare anche la frequenza eventualmente attribuita ad x, l’estremo destro della semiretta. 23 Sotto opportune condizioni di regolarità, l’area sottesa al grafico della funzione f X in un intervallo è l’integrale definito di fX esteso all’intervallo desiderato. 24 Usiamo lo stesso simbolo per indicare la funzione di densità e la funzione di frequenza. Il contesto è di solito sufficiente a chiarirne il significato. 33 3.4. FUNZIONI DI RIPARTIZIONE Questa è l’unica distribuzione la cui funzione di ripartizione ha un andamento lineare. L’inclinazione, costante in tutto l’intervallo (a, b), coincide con la densità di frequenza fX (x) = 1/(b − a) ed è inversamente proporzionale al campo di variazione. 60 40 0 20 F. Ripartizione (%) 80 100 SAU delle Aziende Agricole (2005) 0 10 20 30 40 50 60 Superficie Agricola Utilizzata (Ettari) Figura 3.9: Funzione di ripartizione della SAU delle aziende agricole, 2005. Come per i quantili, la funzione di ripartizione delle distribuzioni di dati numerici divisi in classi viene determinata ipotizzando una distribuzione uniforme all’interno delle classi. Esempio 19 (SAU delle aziende agricole) Dalla Tabella 2.8 otteniamo i valori della funzione di ripartizione corrispondenti agli estremi delle classi sommando via via le frequenze relative: nel 2005, FX (1) = 28.5%, FX (2) = 28.5 + 20.9 = 49.4%, e cosı̀ via. Per ottenere il valore di FX nei punti interni delle classi è necessario introdurre un’ipotesi distributiva che, in generale, è quella uniforme. Dato il risultato dell’Esempio 18, ciò equivale ad interpolare linearmente i valori che la funzione assume agli estremi. Consideriamo, ad esempio, la classe da 2 a 5 ettari nel 2005. Il valore di FX in un punto 2 < x < 5 è uguale al valore della funzione nell’estremo inferiore, FX (2), aumentato della 34 STATISTICHE ORDINATE E QUANTILI frequenza relativa delle aziende agricole con SAU compresa tra 2 e x. Se la distribuzione all’interno della classe è uniforme, questa frequenza è semplicemente l’area del rettangolo avente come base l’intervallo (2, x] e come altezza la densità di frequenza 8.03. Pertanto il risultato finale è FX (x) = 49.4 + 8.03(x − 2), . per ogni x compreso tra 2 e 5 ettari. L’espressione completa di F X è riportata di seguito. Il suo diagramma (Figura 3.9) è la poligonale congiungente i punti di coordinate xC , FX (xC ), in cui xC indica l’estremo inferiore delle classi. 0, x ≤ 0, 28.5x, 0 < x ≤ 1, 28.5 + 20.9(x − 1), 1 < x ≤ 2, 49.4 + 8.03(x − 2), 2 < x ≤ 5, 5 < x ≤ 10, 73.5 + 2.38(x − 5), 85.4 + 0.76(x − 10), 10 < x ≤ 20, FX (x) = 93.0 + 0.26(x − 20), 20 < x ≤ 30, 95.6 + 0.11(x − 30), 30 < x ≤ 50, 97.8 + 0.03(x − 50), 50 < x ≤ 100, 99.3 + 0.007(x − 100), 100 < x ≤ 200, 1, x > 200. In ogni classe, il coefficiente angolare della poligonale è il corrispondente valore della densità di frequenza. La funzione di ripartizione risolve qualsiasi problema relativo alla distribuzione. La percentuale delle aziende con SAU compresa tra 10 e 40 ettari è ottenibile come FX (40) − FX (10) = 95.6 + 0.11(40 − 30) − 85.4 = 11.3%. Analogamente, la percentuale delle aziende con SAU maggiore di 60 ettari è pari a 100 − FX (60) = 100 − 97.8 − 0.03(60 − 50) = 1.9%. Dalla funzione di ripartizione si ottengono facilmente i quantili di qualsiasi ordine. Consideriamo, ad esempio, il quantile x0.90 . Esso divide la distribuzione in due intervalli: l’intervallo a sinistra di x0.90 comprendente le aziende con SAU minore o uguale di x0.90 , l’intervallo a destra di x0.90 comprendente le aziende con SAU maggiore o uguale di x0.90 . La frequenza relativa di entrambi è esprimibile in termini della funzione di ripartizione; in particolare, la percentuale delle aziende agricole con SAU minore o uguale a x 0.90 è identicamente uguale all’ordine del quantile, 90%, e questo valore altro non è che il valore assunto da FX nel punto x0.90 . Vale cioè l’uguaglianza FX (x0.90 ) = 90%. Dall’espressione di FX si deduce che 10 < x0.90 < 20, quindi l’equazione risolvente è FX (x0.90 ) = 85.4 + 0.76(x0.90 − 10) = 90% 35 3.4. FUNZIONI DI RIPARTIZIONE 60 40 0 20 F. Ripartizione (%) 80 100 Dimensione delle Famiglie (Censimento 2001) 0 1 2 3 4 5 6 7 Numero di Componenti Figura 3.10: Funzione di ripartizione del numero di componenti delle famiglie, censimento 2001 (fonte: ISTAT). la cui soluzione è x0.90 = 16.05 ettari. Questo procedimento equivale a calcolare la funzione inversa della funzione di ripartizione, cioè −1 x0.90 = FX (90%). Nei due esempi precedenti la funzione di ripartizione risulta continua in tutto il suo dominio. Questo risultato non è valido per le variabili discrete in cui la frequenza è distribuita sulla retta numerica in pacchetti discreti. Esempio 20 (Dimensione delle famiglie) Consideriamo il censimento del 2001. Per ogni numero reale x < 1, FX (x) = 0 perchè non ci sono unità osservabili in questo intervallo. Per x = 1, FX (1) = 24.9%, coincidente con la frequenza relativa delle famiglie con 1 componente. Questo valore resta invariato per ogni 1 ≤ x < 2, non potendosi osservare famiglie con un numero frazionario di componenti. Per x = 2, FX (2) = 52.0%, valore uguale alla somma delle frequenze relative delle famiglie con 1 e 2 componenti. La funzione di ripartizione è dunque una funzione costante a tratti, con punti di discontinuità coincidenti con le modalità aventi frequenza positiva (Figura 3.10). La sua espressione 36 STATISTICHE ORDINATE E QUANTILI 0.6 0.4 0.0 0.2 F. Ripartizione 0.8 1.0 Terremoti con magnitudo maggiore o uguale a 4 4.0 4.5 5.0 5.5 6.0 6.5 7.0 Magnitudo Figura 3.11: Funzione di ripartizione empirica della magnitudo dei terremoti (terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006). completa è riportata di seguito. 0, x < 1, 24.9, 1 ≤ x < 2, 52.0, 2 ≤ x < 3, 73.6, 3 ≤ x < 4, FX (x) = 92.6, 4 ≤ x < 5, 98.4, 5 ≤ x < 6, 100, x ≥ 6. La funzione di ripartizione assume solo alcuni valori dell’intervallo [0, 1] il che comporta che quantili di ordine diverso possono coincidere. Si verifica facilmente, ad esempio, che x0.6 = x0.7 = 3 perchè la funzione di ripartizione “salta” da 52.0% a 73.6%, senza passare per i valori intermedi. La distribuzione di un campione di n elementi di una variabile numerica ha le stesse proprietà di una variabile discreta in cui ogni valore osservato ha 37 3.4. FUNZIONI DI RIPARTIZIONE una frequenza relativa costante, pari a 1/n. La corrispondente funzione di ripartizione, chiamata funzione di ripartizione empirica e indicata col simbolo Fbn per distinguerla da quella della popolazione, ha il classico andamento “a gradini” tipico delle distribuzioni discrete, con punti di discontinuità in corrispondenza ai dati campionari. Esempio 21 (Magnitudo dei terremoti) Il diagramma della funzione di ripartizione empirica (Figura 3.11) fornisce le stesse informazioni della presentazione ramo-foglie (Tabella 2.5), anche se in modo diverso. L’intervallo di variazione dei dati è l’intervallo in cui 0 < Fbn < 1. Gli intervalli in cui il fenomeno è più (meno) presente sono quelli in cui le variazioni di Fbn , misurate dall’altezza dei “gradini”, si succedono a breve (lunga) distanza l’una dall’altra. I dati sparsi sono invece preceduti da lunghi intervalli in cui Fbn è costante. Riassumiamo di seguito le proprietà della funzione di ripartizione, insieme con le principali formule operative. D1. Il dominio di FX è l’insieme dei numeri reali e il codominio è l’intervallo [0, 1], essendo FX la frequenza relativa dell’intervallo (−∞, x]. D2. Quando x tende all’estremo inferiore o superiore dell’intervallo di variazione, FX tende rispettivamente a 0 e a 1, cioè lim FX (x) = 0, lim FX (x) = 1. x→−∞ x→+∞ D3. FX è una funzione monotona non decrescente: se x1 < x2 , allora FX (x1 ) ≤ FX (x2 ). D4. FX è continua almeno nell’intorno destro di x: lim FX (x + ) = FX (x). →0+ D5. La frequenza relativa dell’intervallo (a, b] è identicamente uguale alla differenza FX (b) − FX (a). D6. Per le variabili continue la derivata di FX nel punto x0 coincide col valore della densità in x0 : d FX (x)|x=x0 = fX (x0 ). dx D7. La differenza tra il limite destro ed il limite sinistro di FX nel punto x0 coincide col valore della frequenza relativa puntuale di x0 25 : FX (x0 ) − lim+ FX (x0 − ) = fX (x0 ). →0 25 Per le variabili continue questo valore è pari a 0, perchè lim→0+ FX (x0 − ) = FX (x0 ), essendo FX una funzione continua. 38 STATISTICHE ORDINATE E QUANTILI D8. Per le variabili continue il quantile d’ordine p è il valore che assume la funzione inversa di FX calcolata in p: −1 xp = F X (p), 0 < p < 1. Questo valore esiste ed è unico per ogni 0 < p < 1 perchè FX è una funzione continua monotona crescente. D9. Nel caso delle variabili discrete, per superare le difficoltà create dalle discontinuità di FX , la definizione viene modificata come segue: xp = inf {x : FX (x) ≥ p} . 3.5 Dal campione alla popolazione L’analisi di dati campionari deve farsi carico di un duplice compito: da un lato descrivere adeguatamente le caratteristiche del campione, dall’altro inferire da queste le caratteristiche della popolazione da cui il campione proviene. Nella fase iniziale dello studio vengono preferiti gli strumenti che consentono un’esplorazione dettagliata dei dati e nello stesso tempo favoriscono la formazione di ipotesi riguardanti la popolazione. Presentazione ramo-foglie e diagramma scatola-baffi sono esempi emblematici al riguardo. La presentazione ramo-foglie usa la statistica ordinata campionaria completa, il che permette di indagare le peculiarità dei dati ma può anche far emergere caratteristiche distributive dalle quali partire per elaborare le prime ipotesi sul profilo della popolazione. Il diagramma scatola-baffi usa invece una sintesi molto più stringata dei dati — i quartili — per valutare posizione, dispersione e forma. Questi elementi forniscono un primo riscontro delle evidenze scaturite dalla presentazione ramofoglie e possono costituire il punto di partenza per la formulazione di ipotesi più specifiche riguardanti posizione, dispersione e forma della popolazione. Un aspetto che merita di essere sottolineato è l’uso nel diagramma scatolabaffi di statistiche campionarie robuste, capaci di sopportare con un minimo di distorsione un’elevata percentuale di contaminazione del campione. Esempio 22 (Ordinari di Statistica) Al 31/12/2005 le università italiane avevano in organico 341 ordinari di Statistica, 265 dei quali maschi, pari al 77.7% del totale. La Figura 3.12 confronta i diagrammi scatola-baffi dell’età della popolazione degli ordinari maschi e di un campione casuale 26 di n = 35 unità. Nella popolazione l’età ha una distribuzione unimodale asimmetrica, sbilanciata a destra, con un dato esterno alle barriere in corrispondenza di x = 37 anni. I quartili sono x.25 = 54, x0.5 = 59, x0.75 = 64. Il campione rispecchia abbastanza fedelmente le caratteristiche della popolazione, ma sono evidenti le approssimazioni dovute all’errore di campionamento. I quartili del campione 26 Estrazioni senza reinserimento. 39 3.5. DAL CAMPIONE ALLA POPOLAZIONE Camp Pop Ordinari di Statistica (2005) 40 50 60 70 Età Figura 3.12: Età degli ordinari di Statistica, 2005 (fonte: Ministero per l’Università e la Ricerca). sono x.25 = 57, x0.5 = 60, x0.75 = 63. È inesatta soprattutto la rappresentazione della coda sinistra dove i tre dati esterni alla barriera inferiore sono in realtà riconducibili ad una ben precisa caratteristica della popolazione. L’estensione alla popolazione delle proprietà osservate su un campione non è mai scontata, richiede l’adozione di metodi di rilevazione adeguati e deve comprendere la quantificazione dell’errore dovuto al campionamento, almeno riguardo ai parametri più importanti della popolazione. Camp1 Camp2 Costituzione Italiana 5 10 15 Lunghezza delle parole Figura 3.13: Lunghezza delle parole della Costituzione italiana. 40 STATISTICHE ORDINATE E QUANTILI Il piano di campionamento può presentare caratteristiche molto diverse, ma dovrebbe sempre prevedere forme di casualizzazione. L’esempio seguente adotta un campionamento a grappoli: da una popolazione divisa in G gruppi si seleziona a caso un campione di g < G gruppi le cui unità sono poi sondate esaustivamente. Esempio 23 (Costituzione italiana) La Costituzione italiana è formata da 139 articoli, a loro volta divisi in paragrafi. Qual è la lunghezza delle parole di un testo cosı̀ particolare? Per rispondere alla domanda abbiamo scelto un campione casuale di 10 articoli in ciascuno dei quali abbiamo scelto a caso un paragrafo. Nel campione di parole cosı̀ ottenuto abbiamo isolato nomi, aggettivi, verbi ed avverbi, scartando tutto il resto. La Figura 3.13 mostra i diagrammi scatola-baffi della lunghezza delle parole di due campioni ottenuti con la procedura descritta sopra. Le numerosità campionarie sono risultate uguali a 151 e 152 parole, rispettivamente. In entrambi i casi viene suggerita una distribuzione unimodale, forse simmetrica. La parte centrale della distribuzione potrebbe andare da 5 a 10 lettere. Anche in questo caso è evidente l’errore introdotto dal campionamento: la ripetizione dell’esperimento campionario, a parità di condizioni, produce risultati diversi. È lo studio di questa variabilità campionaria che fornisce gli elementi per valutare l’errore di campionamento. Media e deviazione standard Media e deviazione standard forniscono una sintesi di dati numerici che particolarmente semplice ed efficace per le distribuzioni unimodali simmetriche. Inoltre, nell’analisi di campioni casuali, l’estensione alla popolazione è sostenuta da importanti risultati teorici, come la legge dei grandi numeri e il teorema centrale di convergenza. 4.1 Media La media27 dei dati x1 , . . . , xn , è uguale alla somma dei dati divisa per la loro numerosità, cioè28 xn = (x1 + . . . + xi + . . . + xn )/n n X =( xi )/n. i=1 Il simbolo xn è impiegato per la media campionaria; per la media della popolazione si usa di preferenza il simbolo µX 29 . Esempio 24 (Presidenti) L’età media dei Presidenti della Repubblica al momento dell’elezione è (IT ) µX = (58 + 63 + 63 + 66 + 71 + 71 + 74 + 74 + 79 + 81 + 82)/11 = 782/11 ' 71.1 mentre l’età mediana è 71 anni, un valore molto vicino. Per i Presidenti ame(U S) ricani del secondo dopoguerra l’età media è µX = 630/11 ' 52.3, un valore assai più basso della mediana che è pari a 56 anni. A cosa si deve questa differenza? 27 Il Ptermine media indica sempre la media aritmetica. è il simbolo di sommatoria. 29 Questa convenzione riguarda altri indici, come la deviazione standard e il coefficiente di correlazione lineare. 28 41 42 MEDIA E DEVIAZIONE STANDARD Per le distribuzioni di frequenza delle variabili discrete, la formula di calcolo della media diventa30 xn = (X1 n1 + . . . + Xh nh + . . . + XH nH )/n =( H X h=1 Xh nh )/n = H X Xh f h , h=1 in cui fh = nh /n è la frequenza relativa della generica modalità Xh . Per ottenere la media basta dunque sommare le modalità della variabile moltiplicate per le rispettive frequenze relative. Esempio 25 (Dimensione delle famiglie) Negli ultimi cinquant’anni il numero medio di componenti delle famiglie diminuisce costantemente passando da 3.6 componenti nel 1961 a 2.6 nel 2001 (Tabella 2.2). Per il 2001 la formula di calcolo è (01) µX = 1 × 0.249 + 2 × 0.271 + 3 × 0.216 + . . . ' 2.6. Il risultato esatto non è ottenibile dai dati della tabella a causa dell’accorpamento in un’unica classe delle famiglie con 6 componenti o più. La media aritmetica, come la moda e la mediana, è usata per descrivere puntualmente la posizione di una distribuzione sulla retta numerica. Se la distribuzione è simmetrica, la sua media coincide col centro di simmetria c. Infatti, sotto l’ipotesi di simmetria, le modalità della variabile saranno c con frequenza n0 , c − a1 e c + a1 con frequenza n1 , . . ., c − aH e c + aH con frequenza nH . Qui a1 , . . . , aH sono numeri reali positivi e le frequenze n0 , n1 , . . . , nH hanno come somma n, la numerosità delle unità rilevate. È evidente che, qualunque sia la scelta di c, a1 , . . . , aH e di n0 , n1 , . . . , nH , la somma dei dati è nc e la media è c31 . Quindi, se la distribuzione è simmetrica, media e mediana sono uguali32 . Se la distribuzione è anche unimodale, la moda dà una diagnosi coincidente con quella degli altri due indici. Se la distribuzione è unimodale asimmetrica, i tre indici danno misure di posizione diverse. Più precisamente, se la distribuzione è sbilanciata a sinistra xmoda ≤ x0.5 ≤ xn , mentre, se la distribuzione è sbilanciata a destra, l’ordinamento è rovesciato xn ≤ x0.5 ≤ xmoda . 30 Se la modalità X ha frequenza n , il dato corrispondente si ripete n volte nell’n-upla 1 1 1 campionaria, pertanto nel calcolo della media X1 dovrà essere moltiplicato per n1 . Lo stesso vale per le modalità X2 , . . . , XH . 31 Almeno una delle frequenze n , n , . . . , n 0 1 H dev’essere positiva. 32 Nel caso discreto, la mediana può differire da c se la sua frequenza n è nulla. 0 43 4.1. MEDIA Esempio 26 (Bilanci familiari) La distribuzione del reddito familiare (Figura 3.6) è unimodale asimmetrica, fortemente sbilanciata a sinistra. Nel campione di 8012 famiglie la classe modale è [15000, 20000), il reddito mediano 24200 euro e il reddito medio 29870. La differenza tra media e mediana, in rapporto allo scarto interquartilico, è (29870 − 24200)/(37220 − 15820) ' 0.26. Questo risultato indica che la distanza tra i due indici di posizione è circa 1/4 della distanza tra il terzo ed il primo quartile, un valore tutt’altro che trascurabile. 0.004 0.000 Densità 0.008 Maratona Maschile 300 350 400 450 500 550 Tempo (Scarto da 2 ore, secondi) Figura 4.14: Migliori tempi (secondi) nelle maratone maschili. Esempio 27 (Maratona) La Figura 4.14 mostra l’istogramma delle migliori prestazioni registrate in competizioni ufficiali. I tempi, in secondi, sono espressi come differenza rispetto a due ore. La distribuzione è unimodale asimmetrica, sbilanciata a destra. La classe modale è [500, 525), il tempo mediano 492 secondi, il tempo medio 481 secondi. La differenza tra media e mediana, in rapporto allo scarto interquartilico, è (481 − 492)/(518 − 458) ' −0.18. Gli esempi precedenti suggeriscono che la differenza tra media e mediana può fornire una diagnosi del grado di asimmetria di una distribuzione. Per agevolare 44 MEDIA E DEVIAZIONE STANDARD l’interpretazione è opportuno dividere la differenza per lo scarto interquartilico (xn − x0.5 )/(x0.75 − x0.25 ). Se il rapporto tende a 0, la diagnosi è di simmetria. Un rapporto negativo o positivo suggerisce una distribuzione sbilanciata a destra o a sinistra33 . La moda si posiziona in corrispondenza del picco più alto dell’istogramma e la mediana è il punto di dimezzamento della sua area. L’interpretazione della media è più sofisticata: essa rappresenta il baricentro dell’istogramma. Questa proprietà scaturisce dal seguente modello fisico della distribuzione di frequenza. Se su un’asta rigida graduata riportiamo la posizione dei dati osservati ed applichiamo a ciascuno un peso uguale alla corrispondente frequenza, la media viene a cadere proprio nel punto in cui si deve sospendere l’asta affinchè resti in equilibrio, cioè nel baricentro. Alla luce di questo risultato appare ovvio che la media delle distribuzioni simmetriche sia il centro di simmetria. Esso spiega anche la scarsa resistenza della media alla contaminazione del campione con dati estremi. Consideriamo il campione x1 , . . . , xn con media xn . Supponiamo che, al posto di x1 , si legga per errore x e1 = x1 +e, in cui e è un numero reale qualsiasi. È chiaro che la media diventa x∗n = xn + e/n e può divergere arbitrariamente dal valore esatto. Esempio 28 (Presidenti) Supponiamo di sostituire l’età minima x(1) = 58 (corrispondente a F. Cossiga) con un dato perturbato, inferiore. Se, ad esempio, x e(1) = 57, la media perturbata risulta x∗n = 71. La mediana, da parte sua, non varia affatto. Per modificare la mediana è infatti necessario sostituire almeno la metà dei dati campionari. La Figura 4.15 mostra la variazione della media e della mediana quando l’età minima varia da 58 a 40. La mediana è assai più resistente della media alla contaminazione del campione. Pertanto il confronto dei due indici, oltre a dare informazioni sulla forma della distribuzione, può rivelare la presenza di dati contaminanti nelle code della distribuzione. 4.2 Momenti La media è il rappresentante più noto della famiglia dei momenti. Si definisce momento di ordine s (s può assumere i valori 1, 2, . . .) la media aritmetica delle potenze di esponente s dei dati34 (s) mX = ( n X xsi )/n. i=1 33 Una distribuzione sbilanciata a sinistra viene detta asimmetrica positivamente, perchè la differenza xn − x0.5 è positiva, essendo la media maggiore della mediana. Analogamente, una distribuzione sbilanciata a destra viene detta asimmetrica negativamente. PH 34 Per una distribuzione di frequenze, la formula di calcolo è m (s) = h=1 Xh fh . X 45 4.3. DEVIAZIONE STANDARD 0.0 Non Robustezza della Media −0.5 −1.0 −1.5 Errore nell’indice di posizione media mediana −15 −10 −5 0 Errore nel dato Figura 4.15: Effetto su media e mediana della perturbazione dell’età minima dei presidenti italiani. (s) Il simbolo mX è riservato ai momenti campionari; i momenti della popolazione (s) si indicano con µX . I momenti più usati sono quello d’ordine 1, coincidente con la media, e quelli d’ordine 2 e 3. Esempio 29 (Età dei Presidenti) Il momento d’ordine 2 dell’età dei Presidenti italiani è (2) µX,IT = (582 + 632 + . . . + 822 )/11 = 56218/11 ' 5110.727 (2) e quello dei Presidenti americani è µX,U S = 3334.182. 4.3 Deviazione standard La media ci informa dove si trova il baricentro della distribuzione. Se ci viene riferito che l’età media dei Presidenti italiani è di circa 71.1 anni, siamo indotti a pensare che le età degli 11 Presidenti si collocano attorno a questo valore. 46 MEDIA E DEVIAZIONE STANDARD La media tuttavia non dà alcuna informazione circa la dispersione dei dati. Infatti distribuzioni con la stessa media possono presentare caratteristiche molto diverse. Se due studenti, A e B, hanno i seguenti voti (in trentesimi) A : 23, 24, 24, 25, 25, 25, 26, 26, 27, B : 20, 20, 24, 24, 25, 26, 26, 30, 30, il voto medio (e mediano), 25, è lo stesso ma i voti di B sono più dispersi dei voti di A. È chiaro che la media descrive meglio la distribuzione dei voti di A. La corretta interpretazione di un indice di posizione richiede che il suo adattamento alla distribuzione sia descritto da una misura della dispersione dei dati. Per la media questa misura è la deviazione standard35 r Pn 2 i=1 (xi − xn ) sX = n r Pn 2 i=1 xi − (xn )2 . = n La quantità all’interno della radice, la varianza s2X , è l’ingrediente base della deviazione standard, interpretabile come la media delle distanze al quadrato (xi − xn )2 dei dati dalla media. La seconda linea della formula, utilizzata per i calcoli, mostra che la varianza è identicamente uguale alla differenza tra il momento secondo e il quadrato del momento primo (cioè la media). Per le distribuzioni di frequenze la distanza quadratica di ogni modalità dalla media (Xh − xn )2 dev’essere moltiplicata per la corrispondente frequenza relativa v uH uX sX = t (Xh − xn )2 fh h=1 v uH uX =t Xh 2 fh − (xn )2 . h=1 n = 11 -0| 43 si legge -4.3 anni 31 01,01,51,81 99,79,29,29 09 -1 -0 0 1 33,03 43,23,23,13 37,37,57,77 27 Tabella 4.12: Scostamenti delle età dei Presidenti dalla media (a sinistra Presidenti italiani, a destra americani). 35 La deviazione standard della popolazione si indica con la lettera greca σ X . 4.3. DEVIAZIONE STANDARD 47 Esempio 30 (Età dei Presidenti) La varianza dell’età degli 11 Presidenti è la differenza tra il momento secondo e il quadrato del momento primo, (2) 2 σX,IT = µX,IT − (µX,IT )2 ' 5110.727 − 5053.917 = 56.81. q 2 La deviazione standard è dunque σX,IT = σX,IT ' 7.5. Questo risultato ci informa che i dati, in media, distano dalla media µX,IT ' 71.1 circa 7.5 anni. La Tabella 4.12 mostra che gli scostamenti dei dati dalla media variano da un minimo di −13.1 (F. Cossiga) a +10.9 (S. Pertini). Nella presentazione ramo-foglie il valore 0 corrisponde alla media. L’intervallo centrato sulla media di semi-ampiezza uguale alla deviazione standard (71.1 ∓ 7.5) = (63.6, 78.6) contiene i dati la cui distanza dalla media è inferiore o al massimo uguale alla deviazione standard. Nel nostro caso 5 dati hanno una distanza dalla media inferiore alla deviazione standard, mentre gli altri 6 hanno una distanza superiore. Per i Presidenti americani gli scostamenti dei dati dalla media variano da un minimo di −13.3 (J. F. Kennedy) a +12.7 (R. Reagan), l’intervallo centrato sulla media è (57.3 ∓ 7.3) = (49.9, 64.6) e contiene 7 dati su 11. Media e deviazione standard sono indici espressi nella stessa unità di misura e quindi comparabili. La media indica, approssimativamente, la posizione della distribuzione sulla retta numerica. Il valore della deviazione standard36 consente di definire un intorno della media, l’intervallo (xn ∓ sX ), all’interno del quale si collocano i dati la cui distanza dalla media è inferiore o al massimo uguale alla “distanza media”. Questo intervallo è diverso da quello basato sui quartili estremi (x0.25 , x0.75 ). È un risultato empirico sorprendente, ma utile, che all’interno degli intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX ) si trovano spesso percentuali dei dati approssimabili a 68%, 95%, 99%, rispettivamente. L’intervallo di semi-ampiezza pari a tre volte la deviazione standard in moltissimi casi comprende la quasi totalità dei dati37 . L’approssimazione è migliore per le distribuzioni unimodali simmetriche, in particolare per le distribuzioni normali. Esempio 31 (Premi Nobel) Media e deviazione standard delle età dei premi (F ) (F ) Nobel per la Fisica sono µX = 53.8 e σX = 12.8 anni. Gli scostamenti dei dati dalla media (Tabella 4.13) vanno da un minimo di −28.75 ad un massimo di (F ) (F ) +34.25. L’intervallo (µX ∓ σX ) è (41.0, 66.5) e contiene 120 casi osservati su (F ) (F ) 177, pari al 67.8% del totale. Un solo dato è esterno all’intervallo (µ X ∓3σX ). 36 La deviazione standard assume valori non negativi ed è uguale a zero se e solo se la distribuzione è degenere. 37 Equivalentemente, dati distanti dalla media più di tre volte la deviazione standard sono molto rari. Tuttavia questa proprietà non è utilizzabile per la ricerca dei dati statisticamente anomali, perchè sia la media che la deviazione standard possono esserne alterati. 48 MEDIA E DEVIAZIONE STANDARD n = 177 1| 6 si legge 16 anni -2 -2 -1 -1 -0 -0 0 0 1 1 2 2 3 9 3333210 999987777766655 4444432222222211100000 999998888888777776666655555555 4444433321111111 0000001111122222233344 5555555666666777778899999 000000112233444 6777888899 01222334 566 034 Tabella 4.13: Scostamenti delle età dei premi Nobel per la Fisica dalla media. 4.4 Minimi quadrati A rigore, una distribuzione degenere38 è una non-distribuzione, in cui tutte le unità rilevate presentano esattamente la stessa determinazione, c, della variabile. La corrispondente distribuzione di frequenze vale 100% nel punto c, 0% dappertutto altrove. Supponiamo di aver osservato i dati x1 , . . . , xi , . . . , xn . La ricerca di un indice di posizione equivale a determinare una costante c, cioè una distribuzione degenere, che approssima al meglio i dati. Idealmente, il calcolo della media ai dati veri x1 , . . . , xi , . . . , xn sostituisce i dati costanti c, . . . , c, . . . , c, producendo gli errori x1 − c, . . . , xi − c, . . . , xn − c. Qui sorge un problema interessante: qual è la costante c ottimale, che riduce al minimo l’errore? Per risolverlo, è necessario aggregare gli errori elementari x1 − c, x2 − c, . . . , definendo una misura dell’errore totale. La misura più utilizzata è la media dei quadrati degli errori elementari ((x1 − c)2 + . . . + (xi − c)2 + . . . + (xn − c)2 )/n n X = n−1 (xi − c)2 . i=1 Poichè i dati x1 , . . . , xn sono fissi, l’espressione precedente è una funzione dipendente solo da c, che può assumere ogni valore reale. Indichiamo con L2 (c) questa funzione39 . Si dimostra il seguente risultato. 38 Non si deve confondere la distribuzione degenere, in cui le determinazioni della variabile sono costanti, con la distribuzione uniforme in cui la densità di frequenza è costante su tutto l’intervallo di variazione. Nelle distribuzioni uniformi la variabile assume determinazioni diverse. Pn 39 L (c) = n−1 2 2 i=1 (xi −c) è una semplice trasformazione della norma euclidea del vettore degli errori (x1 − c, . . . , xn − c). 49 4.4. MINIMI QUADRATI Teorema 1 (Proprietà dei minimi quadrati) La media dei quadrati degli errori dei dati x1 , . . . , xn dalla costante c è minima quando c è la media di x1 , . . . , xn . In questo caso essa coincide con la varianza. La dimostrazione del teorema richiede un lemma introduttivo. Lemma 2 (Scostamenti dalla media) La media degli errori dei dati x1 , . . . , xn dalla loro media è identicamente nulla. Dimostrazione. Dobbiamo provare che risulta n−1 n X i=1 (xi − xn ) = 0. A tale scopo basta mostrare che n X i=1 (xi − xn ) = (x1 − xn ) + (x2 − xn ) + . . . + (xn − xn ) = 0. Sciogliendo le parentesi e sommando algebricamente i termini simili otteniamo n n n X X X xi − xi = 0 xi − nxn = perchè nxn = Pn i=1 i=1 i=1 i=1 xi . Dimostrazione. Consideriamo dapprima il termine generico (xi − c)2 della Pn −1 2 funzione L2 (c) = n i=1 (xi − c) . Aggiungendo e togliendo la media x n otteniamo l’espressione equivalente (xi − c)2 = {(xi − xn ) + (xn − c)} 2 = (xi − xn )2 + 2(xn − c)(xi − xn ) + (xn − c)2 . Se sostituiamo questa espressione in L2 (c) risulta L2 (c) = n−1 n X i=1 (xi − xn )2 + 2n−1 (xn − c) n X i=1 (xi − xn ) + (xn − c)2 perchè (xn − c) è costante rispetto all’indice della sommatoria e può essere messo in evidenza. Il secondo termine è identicamente nullo in base al Lemma 2, pertanto L2 (c) = n−1 n X i=1 = s2X (xi − xn )2 + (xn − c)2 + (xn − c)2 . 50 MEDIA E DEVIAZIONE STANDARD L’ultima espressione mostra che L2 (c) è la somma di due termini non negativi, dei quali solo il secondo dipende da c. Per minimizzare L2 (c) si deve dunque minimizzare (xn − c)2 rispetto a c e per farlo si deve porre c = xn . È una semplice conseguenza del teorema precedente la formula di calcolo della varianza. Corollario 3 (Formula di calcolo della varianza) (2) (1) s2X = mX − (mX )2 n X = n−1 x2i − (xn )2 . i=1 Dimostrazione. In base al Teorema 1, per ogni numero reale c, vale la seguente identità n X (xi − c)2 − (xn − c)2 . s2X = n−1 i=1 La dimostrazione si ottiene sostituendo nell’espressione precedente c = 0. Il messaggio del Teorema 1 è chiaro. Se l’obiettivo è minimizzare la media dei quadrati degli errori, non ci sono alternative alla media aritmetica. Qualsiasi altra scelta c 6= xn produrrebbe infatti un aumento della media dei quadrati degli errori, pari a (xn − c)2 . Esempio 32 (Carta di credito) In media, tra un pagamento e l’altro, passano x62 = 431/62 ' 6.96 giorni (Tabella 3.11). La varianza della distribuzione è s2X = 6741/62 − (431/62)2 ' 60.4 e quindi sX ' 7.77 giorni. L’intervallo (xn ∓ sX ) risulta (0, 14.7) e comprende l’83.9% dei dati. La mediana della distribuzione è x0.5 = 4 giorni. Se al posto della media usassimo la mediana, la media dei quadrati degli errori sarebbe maggiore di 60.4. In base al Teorema 1, ponendo c = x0.5 si otterrebbe L2 (x0.5 ) = s2X + (xn − x0.5 )2 ' 60.4 + (6.96 − 4)2 ' 69.2, con un incremento rispetto al valore ottimale del 14.5%. A prima vista, il Teorema 1 sembra far tabula rasa degli indici di posizione diversi dalla media, come ad esempio la mediana. Le cose non stanno cosı̀. Il teorema riposa sull’adozione di una particolare misura aggregata degli errori elementari xi −c che è additiva e quadratica. L’adozione di una diversa forma di aggregazione porterebbe a risultati diversi. Un esempio importante è la media degli errori assoluti n X −1 L1 (c) = n | xi − c | . i=1 51 4.5. TRASFORMAZIONI per la quale la costante ottimale40 è la mediana. Teorema 4 (Proprietà dei minimi errori assoluti) La media degli errori in valore assoluto dei dati x1 , . . . , xn dalla costante c è minima quando c è la mediana di x1 , . . . , xn . Esempio 33 (Carta di credito) La media degli errori assoluti dalla mediana risulta n X L1 (x0.5 ) = ( | xi − x0.5 |)/62 = 343/62 ' 5.53. i=1 La media degli errori assoluti rispetto alla media è invece L1 (x0.5 ) = ( n X i=1 | xi − x62 |)/62 = 378.2258/62 ' 6.10 > L1 (x0.5 ), come previsto dal teorema. 4.5 Trasformazioni L’analisi statistica dei dati richiede talvolta di operare trasformazioni della variabile X riconducibili a funzioni matematiche t(X) il cui effetto è di definire una nuova variabile Y = t(X). Ai dati osservati originariamente x1 , . . . , xi , . . . , xn subentrano i dati trasformati y1 = t(x1 ), . . . , yi = t(xi ), . . . , yn = t(xn ) il cui studio è eseguibile con gli strumenti grafici ed analitici usuali. Il problema statistico è di riuscire a dedurre le caratteristiche distributive della variabile trasformata Y da quelle della variabile d’origine X, evitando di ripetere ex novo tutta l’analisi. Esempio 34 (Maratona) Se X è il tempo impiegato a coprire il percorso, la velocità41 V è calcolabile mediante la formula V = s0 /X, in cui s0 = 42.195 km è la distanza fissata ufficialmente. Il 28/9/2003 P. Tergat stabilı̀ il record mondiale di 2 ore, 4 minuti e 55 secondi, corrispondente ad una velocità v = 20.27 km/h. La trasformazione in questo caso è monotona decrescente, non lineare. La curva di densità della velocità (Figura 4.16) è unimodale asimmetrica, con un picco molto pronunciato nella classe (19.65, 19.70), fortemente sbilanciata a sinistra. I quartili della distribuzione sono v0.25 = 19.68, v0.5 = 19.75, v0.75 = 19.84 km/h ed è facile verificare la seguente relazione con i quartili dei tempi vp = s0 /x1−p . Media e deviazione standard delle velocità sono v ' 19.778, s V ' 0.1219 km/h e non c’è una particolare relazione con la media e la deviazione standard dei tempi. In particolare, v 6= s0 /x = 19.77725. P = n−1 n i=1 | xi − c | è una semplice trasformazione della norma L1 del vettore (x1 − c, . . . , xn − c). 41 Velocità media su tutto il percorso. 40 L 1 (c) 52 MEDIA E DEVIAZIONE STANDARD 3 2 0 1 Densità 4 5 Migliori Risultati Maratona Maschile 19.6 19.7 19.8 19.9 20.0 20.1 20.2 20.3 Velocità (km/h) Figura 4.16: Velocità (km/h) nella maratona maschile. Un esempio di trasformazione è l’algoritmo utilizzato per calcolare l’importo delle bollette delle utenze domestiche. In generale, se X è il consumo, l’importo da pagare è Y = t(X). Esempio 35 (Consumi di energia elettrica) Riportiamo di seguito la statistica ordinata dei consumi bimestrali di energia elettrica (in kw/h) di un campione di 11 famiglie 141, 146, 150, 158, 166, 178, 209, 230, 237, 294, 405. Il sistema tariffario prevede un costo fisso c0 ed un prezzo variabile a seconda del consumo, c1 per i consumi fino a x0 , c2 > c1 per quelli eccedenti x0 . La formula matematica per calcolare l’importo della bolletta è c0 + c1 X, se X ≤ x0 , Y = t(X) = c0 + c1 x0 + c2 (X − x0 ), se X > x0 , una trasformazione monotona crescente di X. Applicando la formula ai consumi del nostro campione con c0 = 3.5, c1 = 0.0944, c2 = 0.1138 ed x0 = 150 kw/h, si ottengono i seguenti risultati (valori in euro) 16.8, 17.3, 17.7, 18.5, 19.4, 20.8, 24.4, 26.8, 27.5, 34.1, 46.7. 53 4.5. TRASFORMAZIONI Il consumo mediano di energia è x(6) = 178 e l’importo mediano è y(6) = 20.8. Si verifica che le mediane sono legate dalla relazione y0.5 = t(x0.5 ). Media e deviazione standard dei consumi sono x11 = 210, sX = 76.5 kw/h. Media e deviazione standard degli importi sono y 11 = 24.55, sY = 8.69 ed anche in questo caso non emerge una relazione con le corrispondenti statistiche di X. Gli esempi precedenti suggeriscono che, se la trasformazione t(.) è monotona, è possibile ricavare i quantili di Y da quelli di X. Se t(.) è monotona crescente, essa conserva l’ordinamento, cioè y(i) = t(x(i) ), i = 1, . . . , n. Data la relazione tra le statistiche ordinate e i quantili, questo implica che yp = t(xp ). Se t(.) è monotona decrescente, essa inverte l’ordinamento, cioè y(i) = t(x(n−i+1) ), i = 1, . . . , n, pertanto yp = t(x1−p ). Abbiamo cosı̀ dimostrato il seguente teorema. Teorema 5 (Quantili di trasformazioni monotone) Se Y = t(X) è una trasformazione monotona di X, allora t(xp ), se t(.) è monotona crescente, yp = t(x1−p ), se t(.) è monotona decrescente. Una trasformazione lineare è sempre riconducibile all’espressione Y = a + bX, in cui a e b, i coefficienti della trasformazione, sono numeri reali qualsiasi42 . Essa è interpretabile come la composizione di due trasformazioni: una traslazione, il termine additivo a, e un cambiamento di scala, il prodotto bX 43 . Sono casi particolari delle trasformazioni lineari le trasformazioni di pura scala, quando a = 0, e le traslazioni, quando b = 1. Nella misura della temperatura, il passaggio dalla scala Celsius alla scala Fahrenheit è definito dalla relazione TF = 32 + (9/5)TC , una trasformazione lineare con a = 32 e b = 9/5. La sostituzione della lira con l’euro ha richiesto la conversione delle grandezze monetarie mediante la relazione Yeuro = Ylire /1927.36, una trasformazione di pura scala con b = 1/1927.36. Osserviamo infine che la trasformazione Y = −X, che opera una riflessione speculare dei dati X rispetto allo zero, è una trasformazione lineare con a = 0 e b = −1. 42 Supporremo 43 Se sempre b 6= 0, onde evitare che Y abbia una distribuzione degenere. b < 0, il cambiamento di scala comprende il rovesciamento del verso della scala. 54 MEDIA E DEVIAZIONE STANDARD n = 31 4| 1 si legge 41◦ F 2 2 3 3 4 4 5 44 0144 5777888 0111444 577899 11223 Tabella 4.14: Temperature medie giornaliere (◦ C) a New York, gennaio 2006. Esempio 36 (Temperature a New York) La Tabella 4.14 mostra le temperature medie giornaliere, in gradi Fahrenheit, registrate nel mese di gennaio 2006 a New York, Central Park. Ad esempio, la temperatura del 15/1/2006 è 24◦ F , corrispondente a −4.4◦C, circa. Poichè lo zero della scala Celsius corrisponde a 32◦ F , dalla tabella risulta che solo 4 giorni hanno fatto registrare una temperatura media al di sotto di 0◦ C. Viceversa, 5 giorni hanno avuto una temperatura media superiore a 10◦ C. Come risulta dalla Tabella 4.15, il passaggio dall’una all’altra scala comporta una traslazione e una contrazione dell’intervallo unitario (la variazione di 1◦ F equivale ad una variazione di (5/9)C), ma queste trasformazioni non alterano le caratteristiche generali della distribuzione. n = 31 0| 67 si legge 6.7◦ C -0 0 0 1 44,44,11,06 11,11,17,28,28,28,33,33,33,44 50,50,50,67,67,67,72,83,83,89,94,94 06,06,11,11,17 Tabella 4.15: Temperature medie giornaliere (◦ C) a New York, gennaio 2006. Gli effetti delle trasformazioni lineari sulle distribuzioni statistiche sono descrivibili facilmente. Consideriamo dapprima il caso b > 0, in cui la trasformazione è crescente. Se b < 1, il campo di variazione della variabile si riduce di un fattore pari a b e la proprietà di normalizzazione delle distribuzioni di frequenza comporta che la densità di frequenza aumenta uniformemente di un fattore pari a 1/b. In un ipotetico istogramma, l’ampiezza di ogni classe si riduce, essendo moltiplicata per b, e la corrispondente densità di frequenza aumenta, essendo moltiplicata per 1/b. L’area, cioè la frequenza relativa, non cambia perchè le due variazioni si compensano esattamente. Se b > 1, si osserva l’effetto opposto: l’ampiezza del campo di variazione aumenta di un fattore pari a b e la densità di frequenza diminuisce uniformemente di un fattore pari a 1/b. Il termine additivo, a, produce una traslazione della curva di densità lungo la retta numerica, verso 55 4.5. TRASFORMAZIONI sinistra se a < 0, verso destra se a > 0. In definitiva, quando b > 0, una trasformazione lineare modifica la posizione e la dispersione della distribuzione, ma l’andamento della curva di densità (unimodalità o multimodalità, simmetria o asimmetria, uniforme, ecc.) rimane immutato. Il caso b < 0 è riconducibile al precedente, con l’aggiunta di una riflessione della curva di densità rispetto all’origine. Quest’ultima altera alcune caratteristiche della curva di densità: in una distribuzione unimodale il ramo crescente della curva di densità diventa quello decrescente e viceversa, l’asimmetria positiva diventa negativa e viceversa. La precedente discussione ha già chiarito che una trasformazione lineare modifica sia la posizione che la dispersione di una distribuzione. Gli effetti sui quantili sono descritti dal Teorema 5, quelli sulla media e la deviazione standard sono descritti nel teorema seguente. Teorema 6 (Media e deviazione standard di trasformazioni lineari) Se i dati x1 , . . . , xn hanno media xn e deviazione standard sX , la media e la deviazione standard della trasformazione lineare Y = a + bX sono rispettivamente y n = a + bxn , sY =| b | sX . Dimostrazione. I dati trasformati sono y1 = a+bx1 , . . . yi = a+bxi , . . . , yn = a + bxn e la loro media è y n = (y1 + . . . + yi + . . . + yn )/n = {(a + bx1 ) + . . . + (a + bxi ) + . . . + (a + bxn )} /n = {na + b(x1 + . . . + xi + . . . + xn )} /n = a + bxn . Analogamente, la varianza dei dati trasformati è s2Y = (y1 − y n )2 + . . . + (yn − yn )2 /n = (a + bx1 − a − bxn )2 + . . . + (a + bxn − a − bxn )2 /n = b2 (x1 − xn )2 + . . . + b2 (xn − xn )2 /n = b2 s2X . Estraendo la radice quadrata della varianza si ottiene la deviazione standard sY =| b | sX . È importante notare che, mentre la media subisce una trasformazione uguale a quella dei dati44 , la deviazione standard non risente del termine additivo a (la dimostrazione chiarisce che esso si elide nella differenza tra ciascun dato e 44 Questa proprietà è definita equivarianza della media rispetto alle trasformazioni lineari. 56 MEDIA E DEVIAZIONE STANDARD la media), ma solo del coefficiente di scala b, in valore assoluto. Si dimostra facilmente che questa proprietà è condivisa dal campo di variazione e dallo scarto interquartilico: y(n) − y(1) =| b | (x(n) − x(1) , y0.75 − y0.25 =| b | (x0.75 − x0.25 ). ◦ F ◦ C x(1) 24 −4.4 x0.25 37 2.8 x0.5 41 5.0 x 41.2 5.1 x0.75 47.5 8.6 x(n) 53 11.7 sX 7.8 4.3 Tabella 4.16: Statistiche riassuntive delle temperature medie giornaliere a New York, gennaio 2006. Esempio 37 (Temperature a New York) La Tabella 4.16 riporta alcune statistiche riassuntive, in gradi Fahrenheit e in gradi Celsius, delle temperature medie giornaliere di gennaio 2006 a New York. Il passaggio alla scala Celsius non richiede la conversione dei dati osservati. Poichè la trasformazione TC = 5(TF − 32)/9 è lineare e crescente, basta applicare i Teoremi 5 e 6. Per ottenere la temperatura media e la deviazione standard, i calcoli necessari sono x(◦ C) = 5(41.16 − 32)/9 ' 5.09, sX (◦ C) = 5 × 7.8/9 ' 4.3. Analogamente, la temperatura mediana è x0.5 (◦ C) = 5(41 − 32)/9 ' 5.0. 4.6 Scala standard Una trasformazione lineare crescente Y = a + bX, b > 0, modifica posizione e dispersione della distribuzione, lasciando per il resto inalterato l’andamento della curva di densità. Questo risultato suggerisce che la scelta della scala di misura di un fenomeno non è obbligata, ma può essere variata in funzione di particolari esigenze. In particolare, è utile scegliere la scala di misura in modo che media e deviazione standard assumano valori costanti per tutte le distribuzioni, favorendone la comparabilità. Nel Teorema 6 abbiamo dimostrato che y n = a + bxn e sY =| b | sX . Se scegliamo a = −xn /sX e b = 1/sX , i dati trasformati avranno media nulla e deviazione standard unitaria. Questa particolare trasformazione, indicata con XST , è chiamata standardizzazione ed implica l’adozione di una scala di misura45 dei dati tale che lo zero della scala corrisponde alla media della 45 Questa scala è chiamata scala standard e le coordinate dei dati rispetto ad essa sono chiamati punteggi standard. 57 4.6. SCALA STANDARD distribuzione e la lunghezza del segmento unitario coincide con la deviazione standard. La scala standard è adimensionale e facilmente interpretabile. Consideriamo il punteggio standard, xST = (x − xn )/sX , di una unità di rilevazione. La sua posizione è inferiore, uguale o superiore alla media a seconda che xST < 0, xST = 0 oppure xST > 0. Inoltre il valore assoluto | xST | indica che la distanza dalla media è pari a | xST | volte la deviazione standard. È chiaro che ai tre intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX ) corrispondono sulla scala standard gli intervalli (−1, 1), (−2, 2), (−3, 3) i quali avranno la stessa frequenza relativa delle loro antiimmagini. Se la distribuzione è unimodale simmetrica, queste frequenze relative sono prossime a 68%, 95%, 99%. Esempio 38 (Età dei Presidenti) Il punteggio standard dell’età di G. Gronchi è −1.073. Esso indica che la sua età è inferiore all’età media degli 11 Presidenti e lo scostamento dalla media è di poco superiore alla deviazione standard. Il punteggio standard di L. Einaudi è 0.386: egli è dunque più anziano della media, ma in misura contenuta perchè lo scostamento dalla media è meno della metà della deviazione standard. Come si vede, l’interpretazione dei punteggi standard è immediata e non richiede che siano noti i valori della media e della deviazione standard dei dati di partenza. R A O Docenti di Statistica per Qualifica (2005) 30 40 50 60 70 Età Figura 4.17: Età dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. La scala standard, essendo adimensionale, è utilizzata per confrontare variabili con ordine di grandezza, e anche unità di misura, diversi. Si deve sottolineare che tale confronto non riguarda posizione e dispersione che sono state “parificate” dalla standardizzazione. 58 MEDIA E DEVIAZIONE STANDARD Esempio 39 (Docenti di Statistica) Al 31/12/2005 le università italiane avevano in organico 832 docenti di Statistica, ripartiti in ricercatori (27.0%), professori associati (32.0%), professori ordinari (41.0%). I diagrammi scatola-baffi delle età (Figura 4.17) riassumono le caratteristiche principali: l’età aumenta con la qualifica, la tipologia distributiva è unimodale asimmetrica, sbilanciata a sinistra per i ricercatori e gli associati, a destra per gli ordinari. I diagrammi dei punteggi standard (Figura 4.18) perdono l’informazione sul legame tra età e qualifica ma conservano l’informazione sulla tipologia distributiva. La posizione della mediana rispetto alla media (corrispondente allo zero della scala) è coerente con le caratteristiche delle tre distribuzioni. R A O Docenti di Statistica per Qualifica (2005) −2 −1 0 1 2 Età (Punteggi Standard) Figura 4.18: Età (punteggi standard) dei docenti di Statistica, per qualifica (R: ricercatori; A: associati; O: ordinari), anno 2005. 4.7 Unità divise in gruppi Media e varianza sono gli elementi basilari di un classico modello di analisi di dati divisi in gruppi. I presupposti sono una partizione delle unità di rilevazione in H gruppi e una variabile numerica Y osservabile su ciascuna unità. Il dato (h) generico yi è contraddistinto da due indici: l’indice h si riferisce al gruppo di appartenenza, 1 ≤ h ≤ H, l’indice i enumera le unità all’interno del gruppo, 1 ≤ i ≤ nh . Le numerosità dei gruppi sono n1 , . . . , nh , . . . , nH e la loro somma n1 + . . . + nH è pari a n, la numerosità totale. Questa struttura si presenta in molte situazioni. Un esempio è la rilevazione delle assenze per malattia dei dipendenti di un’impresa avente H > 1 unità locali. La variabile è il numero di giorni di assenza per malattia, le unità di rilevazione sono i dipendenti e i gruppi sono le unità locali. L’ipotesi di partenza è l’omogeneità delle assenze per malattia nelle diverse unità locali. Un altro esempio è la durata degli studi di un campione di laureati triennali di varie 59 4.7. UNITÀ DIVISE IN GRUPPI facoltà. La variabile è la durata degli studi, le unità di rilevazione sono i laureati triennali e i gruppi sono le facoltà. In generale, la struttura di dati divisi in gruppi si presenta ogni volta che una variabile d’interesse principale Y è rilevata congiuntamente ad una variabile di stratificazione X: le modalità della variabile di stratificazione definiscono i gruppi. L’ipotesi di base è l’omogeneità dei gruppi, cioè le distribuzioni parziali di Y nei diversi gruppi sono uguali. Questa ipotesi, molto restrittiva, è spesso sostituita da ipotesi di uguaglianza di particolari indici di sintesi delle distribuzioni parziali, soprattutto indici di posizione come le mediane o le medie. Qui noi consideriamo le medie e le varianze parziali e presentiamo due classici teoremi. (h) Il primo teorema riguarda la relazione tra le medie parziali y nh , h = 1, . . . , H, e la media complessiva y T ot calcolata su tutti i dati ignorando la struttura di gruppo. Teorema 7 (Associatività della media) La media complessiva di dati divisi in gruppi è uguale alla media ponderata delle medie parziali, con pesi uguali alle frequenze relative dei gruppi. Dimostrazione. La media complessiva è la somma di tutti i dati divisa per la numerosità totale. La somma dei dati è esprimibile come la somma dei totali parziali di ciascun gruppo. Consideriamo ad esempio il primo gruppo. La sua (1) (1) (1) (1) (1) media è y n1 = (y1 +. . .+yn1 )/n1 e quindi il totale parziale è y1 +. . .+yn1 = (1) n1 yn1 . La stessa relazione vale per gli altri gruppi. La media complessiva si può dunque scrivere n o (1) (H) (H) yT ot = (y1 + . . . + yn(1) ) + . . . (y + . . . + y ) /n nH 1 1 (H) = (n1 y(1) n1 + . . . + nH y nH )/n (H) = y (1) n1 (n1 /n) + . . . + y nH (nH /n). L’ultima riga della precedente uguaglianza prova che la media a livello aggregato è uguale alla media ponderata delle medie dei gruppi. Esempio 40 (Bilanci familiari) La Tabella 4.17 riporta il reddito familiare medio ed il reddito familiare mediano in base al titolo di studio del capofamiglia. Il reddito medio di tutte le famiglie, indipendentemente dal titolo di studio del capofamiglia, è y T ot = 13446 × 0.064 + 20106 × 0.240 + 27942 × 0.357 + 36356 × 0.257 +54233 × 0.0833 ' 29483. Si verifica facilmente che la mediana a livello aggregato, y 0.5 = 23833, non è ottenibile come media ponderata delle mediane parziali. (h)2 Il secondo teorema riguarda la relazione tra le varianze parziali sY , h = 1, . . . , H, e la varianza complessiva s2T ot . Si dimostra che la varianza complessiva 60 MEDIA E DEVIAZIONE STANDARD Titolo di studio Senza titolo Licenza elementare Media inferiore Media superiore Laurea Tutti Famiglie, % 6.4 24.0 35.7 25.7 8.3 100 Reddito mediano 12154 17398 24177 31641 45366 23833 Reddito medio 13446 20106 27942 36356 54233 29483 Tabella 4.17: Statistiche riassuntive del reddito delle famiglie italiane, per titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). è la somma di due componenti, la varianza “dentro i gruppi” s2W e la varianza “tra i gruppi” s2B 46 . La varianza dentro i gruppi misura la dispersione media dei dati all’interno dei gruppi. La sua espressione è (1)2 (H)2 s2W = sY (n1 /n) + . . . + sY (nH /n) ed è dunque uguale alla media ponderata delle varianze parziali, con pesi uguali alle frequenze relative dei gruppi. La varianza tra i gruppi misura la dispersione delle medie parziali rispetto alla loro media, la media complessiva. La sua espressione è 2 (H) 2 s2B = (y (1) n1 − y T ot ) (n1 /n) + . . . + (y nH − y T ot ) (nH /n) ed è dunque uguale alla varianza delle medie parziali. Essa è calcolabile come differenza tra le medie dei quadrati delle medie parziali ed il quadrato della media complessiva: (H)2 2 s2B = (y (1)2 n1 (n1 /n) + . . . + y nH (nH /n)) − y T ot . La varianza dentro i gruppi è pari a zero se, e solo se, le medie parziali assumono tutte lo stesso valore, coincidente con quello della media complessiva. Questo suggerisce che s2B è una statistica idonea a controllare l’ipotesi di uguaglianza delle medie parziali. Teorema 8 (Scomposizione della varianza) La varianza complessiva verifica l’identità s2T ot = s2W + s2B . Dimostrazione. Il punto di partenza è la definizione di varianza totale: s2T ot =n −1 nh H X X h=1 i=1 46 I (h) (yi − yT ot )2 . nomi ricalcano i termini inglesi within-groups e between-groups variance. 61 4.7. UNITÀ DIVISE IN GRUPPI La sua espressione rimane invariata se all’interno delle parentesi si aggiunge e toglie la media parziale y (h) : n o2 (h) (h) (yi − y T ot )2 = (yi − y (h) ) + (y (h) − yT ot ) (h) = (yi (h) − y(h) )2 + 2(y (h) − y T ot )(yi − y (h) ) + (y (h) − y T ot )2 . Sostituendo la precedente espressione nella definizione di varianza totale ed applicando l’operatore somma, s2T ot risulta uguale alla somma di tre termini s2T ot = A + B + C, in cui A=n −1 nh H X X (h) (yi h=1 i=1 B = 2n−1 nh H X X h=1 i=1 C = n−1 nh H X X h=1 i=1 − y(h) )2 (h) (y (h) − y T ot )(yi − y(h) ), (y (h) − yT ot )2 . (h)2 Nel termine A, la sommatoria interna è pari alla varianza parziale sY plicata per nh , pertanto A = n−1 H X (h)2 sY molti- nh = s2W . h=1 Nel termine C, l’argomento della sommatoria interna non dipende dall’indice i e può essere messo in evidenza ottenendo C = n−1 H X h=1 (y (h) − yT ot )2 nh = s2B . Infine, il termine B è sempre identicamente nullo. Infatti B = 2n −1 H X h=1 e P nh (h) i=1 (yi (y (h) − y T ot ) nh X i=1 (h) (yi − y (h) ) − y (h) ) = 0 per ogni h = 1, . . . , H, per il Lemma 2. Il teorema di scomposizione della varianza è l’esempio più semplice di quella ricerca delle determinanti della variabilità dei dati che è al centro della Statistica. Esso consente di quantificare la quota di variabilità di Y che è attribuibile ad una variabile di stratificazione X, il rapporto s2B /s2T ot , e la quota di variabilità di Y 62 MEDIA E DEVIAZIONE STANDARD Qualifica Ricercatore Associato Ordinario Tutte Numero di Docenti 225 266 341 832 Età mediana 41 46 59 51 Età media 43.3 49.7 57.4 51.1 Varianza 72.1 98.4 67.5 112.0 Tabella 4.18: Statistiche riassuntive dell’età dei docenti di Statistica, per qualifica, 2005 (fonte: Ministero per l’Università e la Ricerca). “residua”, il rapporto complementare 1 − s2B /s2T ot . Gli sviluppi e le applicazioni inferenziali di questo risultato formano l’analisi della varianza, una metodologia che si deve in gran parte a R. A. Fisher47 . Esempio 41 (Docenti di Statistica) L’età dei docenti di Statistica aumenta al crescere della qualifica (Esempio 39), ma qual è il peso delle differenze di età dovute alla qualifica sulla variabilità complessiva? La Tabella 4.18 riporta alcuni indici di sintesi della distribuzione. Le età mediane sono considerevolmente diverse dalle età medie, a causa dell’asimmetria delle distribuzioni (Figura 4.17). Inoltre la deviazione standard dell’età degli associati è più elevata di quella dei ricercatori e degli ordinari. L’età media di tutti i docenti, indipendentemente dalla qualifica, è y T ot = (43.3 × 225 + 49.7 × 266 + 57.4 × 341)/832 ' 51.1. La componente dentro i gruppi della varianza è s2W = (72.1 × 225 + 98.4 × 266 + 67.5 × 341)/832 ' 78.6 e quella tra i gruppi è s2B = (43.32 × 225 + 49.72 × 266 + 57.42 × 341)/832 − 51.12 ' 33.4. La varianza complessiva è s2T ot = s2W + s2B ' 112.0 ed il rapporto percentuale s2B /s2T ot è pari a 29.8%. Pertanto circa il 30% della varianza complessiva dell’età dei docenti è attribuibile alle differenze di qualifica. Media e varianza, e quindi anche le statistiche s2W , s2B , s2B /s2T ot , non sono resistenti alla contaminazione dei dati campionari. È pertanto opportuno che la scomposizione della varianza sia accompagnata dalla visualizzazione dei dati mediante presentazioni ramo-foglie o diagrammi scatola-baffi e dal confronto tra medie e mediane, al fine di individuare eventuali casi anomali. 47 Ronald A. Fisher (1890-1962), genetista e statistico inglese, è stato docente di genetica alle università di Londra e Cambridge. Alcune sue opere (Statistical Methods for Research Workers (1925), Statistical Method and Scientific Inference (1956)) sono considerate dei classici della letteratura statistica. 63 4.7. UNITÀ DIVISE IN GRUPPI Ruota Napoli Roma Venezia Tutte Numero di Concorsi 156 156 156 468 Mediana 45 48.5 52 49 Media 43.5 48.5 48.7 46.9 Varianza 689 693 741 713 Tabella 4.19: Statistiche riassuntive del primo numero estratto sulle ruote di Napoli, Roma e Venezia, 2006. Esempio 42 (Estrazioni del lotto) Sui 156 concorsi del 2006 abbiamo rilevato il primo numero uscito sulle ruote di Napoli, Roma e Venezia. Ci attendiamo tre distribuzioni uniformi sui numeri interi da 1 a 90. La Figura 4.19 riporta i diagrammi scatola-baffi dei dati standardizzati con la visualizzazione dell’intervallo di confidenza48 della mediana (incisione a “V”). Poichè i tre intervalli hanno un’ampia zona di sovrapposizione e includono la media (corrispondente al punteggio standard zero), non emergono indicazioni che le mediane (e le medie) siano diverse. I tre grafici suggeriscono inoltre una distribuzione di tipo uniforme, in accordo con l’ipotesi iniziale. Le componenti dentro i gruppi e tra i gruppi della varianza sono s2W ' 708, s2B ' 5.63, pertanto il rapporto s2B /s2T ot ' 0.008 appare trascurabile. Na Rm Ve Primo Estratto Ruote di Napoli, Roma e Venezia (2006) −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Numero Estratto (Punteggi Standard) Figura 4.19: Primo estratto sulle ruote di Napoli, Roma e Venezia (2006). 48 L’intervallo di confidenza, centrato sulla mediana campionaria, ha lo scopo di stimare la mediana della popolazione di riferimento. Esso è la determinazione di un intervallo casuale avente un’alta probabilità di contenere la mediana della popolazione. Qui la probabilità è pari a 0.95. 64 MEDIA E DEVIAZIONE STANDARD Distribuzione gaussiana Media e deviazione standard sono particolarmente efficaci nel descrivere posizione e dispersione delle distribuzioni unimodali e simmetriche, di cui la distribuzione gaussiana è l’esempio più importante. Il suo ruolo di assoluto rilievo in Statistica e Probabilità è dovuto al teorema centrale di convergenza, in base al quale le variabili riconducibili a somme o medie dei dati di un campionamento statistico ammettono, per numerosità elevate, un’approssimazione normale. 5.1 La curva gaussiana La distribuzione gaussiana49, o normale, ha funzione di densità 1 1 x−µ 2 √ fX (x) = exp − ( ) , 2 σ σ 2π in cui x, la determinazione della variabile, è un numero reale qualsiasi mentre µ e σ, i parametri della distribuzione, sono la media e la deviazione standard della distribuzione. Come richiesto per ogni curva di densità, l’area sottesa alla curva è pari a 1. La dimostrazione, non elementare, è riportata di seguito. Teorema 9 (Normalizzazione della curva gaussiana) Per ogni valore ammissibile dei parametri µ e σ i. fX (x) > 0; ii. R∞ −∞ fX (x)dx = 1. Dimostrazione. √ 2 è un i. fX (x) > 0 perchè σ 2π è una costante positiva e exp − 21 ( x−µ σ ) valore positivo per ogni numero reale x, comunque si assegnino i valori di µ e σ. 49 C. F. Gauss (1777-1855) la usò nel 1809 per studiare la distribuzione degli errori di misura nelle misure astronomiche. 65 66 DISTRIBUZIONE GAUSSIANA ii. Indichiamo con A il valore, certamente positivo, dell’integrale della densità gaussiana. È evidente che Z ∞ Z ∞ 1 1 1 x−µ 2 1 y−µ 2 √ exp − ( √ exp − ( ) dx · ) dy 2 σ 2 σ −∞ σ 2π −∞ σ 2π Z ∞Z ∞ 1 1 x−µ 2 y−µ 2 exp − ( ) +( ) dxdy = 2 2πσ −∞ −∞ 2 σ σ = A2 . Usando prima i cambiamenti di variabile u = (x − µ)/σ, v = (y − µ)/σ e passando poi alle coordinate polari u = ρ cos θ, v = ρ sen θ, l’integrale doppio precedente è ricondotto alla seguente espressione Z 2π Z ∞ 1 1 A2 = ρ exp − ρ2 dρdθ. 2π 0 2 0 Si verifica facilmente che ∞ Z ∞ 1 1 =1 ρ exp − ρ2 dρ = − exp − ρ2 2 2 0 0 pertanto 1 A = 2π 2 Z 2π dθ = 1 0 e quindi A = 1. La curva gaussiana (vedi Figura 5.20) è unimodale e simmetrica con una caratteristica forma a campana col vertice in corrispondenza della media. Il seguente teorema ne riassume le principali proprietà. Teorema 10 (Proprietà della curva gaussiana) Sia X una distribuzione gaussiana di parametri µ e σ. La sua curva di densità presenta le seguenti caratteristiche i. è simmetrica rispetto a x = µ; ii. è monotona crescente per x < µ, monotona decrescente per x > µ; iii. è convessa per x < µ − σ e x > µ + σ, concava nell’intervallo µ − σ < x < µ + σ; iv. tende a 0 quando x → ±∞. 67 5.1. LA CURVA GAUSSIANA 0.8 Densità Gaussiane 0.4 0.0 0.2 Funzione di Densità 0.6 N(0,1) N(−2,0.5) N(1,1.5) −4 −2 0 2 4 x Figura 5.20: Curve di densità gaussiane. Dimostrazione. i. fX (µ − h) = fX (µ + h), per ogni h > 0. ii. La derivata prima della funzione di densità è d µ−x fX (x) = f 0 (x) = fX (x) 2 , dx σ pertanto f 0 (x) R 0 ⇐⇒ x Q µ. Il punto x = µ è l’unico punto di massimo della funzione e quindi vale la disuguaglianza 1 0 < fX (x) ≤ fX (µ) = √ . σ 2π 68 DISTRIBUZIONE GAUSSIANA iii. La derivata seconda della funzione di densità è d2 1 (µ − x)2 00 fX (x) = f (x) = 2 fX (x) −1 , dx σ σ2 pertanto f 00 (x) R 0 ⇐⇒| µ − x |R σ. I punti di flesso, dove la tangente attraversa il grafico della funzione, sono x1 = µ − σ e x2 = µ + σ. Per x < µ − σ e x > µ + σ il grafico è al di sopra della tangente, per µ − σ < x < µ + σ il grafico è al di sotto della tangente. iv. La proprietà si dimostra facilmente perchè lim fX (x) = 0, x→±∞ essendo fX (x) proporzionale ad una funzione esponenziale negativa. Il significato statistico dei parametri µ e σ, anticipato in apertura, è confermato dal seguente teorema. Teorema 11 (Media e deviazione standard della gaussiana) In ogni distribuzione gaussiana moda, mediana e media sono uguali al valore del parametro µ, mentre la deviazione standard è uguale al valore del parametro σ. Dimostrazione. La moda è uguale a µ perchè x = µ è l’unico punto di massimo della funzione di densità (Teorema 10 ii.). Mediana e media sono entrambe uguali a µ perchè la funzione di densità è simmetrica rispetto a x = µ (Teorema 10 i.). La varianza della distribuzione è Z ∞ 1 1 x−µ 2 (x − µ)2 √ exp − ( ) dx. 2 σ σ 2π −∞ Mediante il cambiamento di variabile u = (x − µ)/σ, il valore del precedente integrale risulta uguale a Z ∞ σ2 1 B=√ u2 exp − u2 du. 2 2π −∞ Usando il metodo d’integrazione per parti in cui u funge da fattore finito e u exp − 12 u2 funge da fattore differenziale, si ottiene ( ∞ ) Z ∞ σ2 1 2 1 2 B=√ −u exp(− u ) + exp − u du 2 2 2π −∞ −∞ Z ∞ 1 1 = σ2 √ exp − u2 du 2 2π −∞ = σ2 per il Teorema 9 ii. 5.2. LA FAMIGLIA GAUSSIANA 5.2 69 La famiglia gaussiana Per indicare la distribuzione normale si usa la notazione N (µ, σ). La distribuzione normale di parametri µ = 0 e σ = 1 viene detta distribuzione normale standard. La famiglia normale, indicata con N (µ, σ) è l’insieme avente come elementi tutte le distribuzioni normali. Si dimostra che tale insieme è chiuso rispetto alle trasformazioni lineari, cioè la trasformazione lineare di una distribuzione normale ha ancora una distribuzione normale, con parametri diversi, dipendenti dalla trasformazione.50 Teorema 12 (Chiusura di N (µ, σ) rispetto alle trasformazioni lineari) Se X ∼ N (µX , σX ) allora Y = a + bX ∼ N (µY = a + bµX , σY =| b | σX ). Dimostrazione. Il valore della funzione di ripartizione di Y nel punto y è l’area sottesa alla curva di densità fY (y) nella semiretta (−∞, y]. Se b > 0, l’immagine inversa di tale insieme secondo la trasformazione lineare è la semiretta (−∞, (y − a)/b]. Se b < 0, l’immagine inversa è la semiretta [(y − a)/b, ∞). Pertanto FX ((y − a)/b), se b > 0, FY (y) = 1 − FX ((y − a)/b), se b < 0. La funzione di densità di Y è la derivata della funzione di ripartizione che risulta uguale a d 1 y−a FY (y) = fX ( ) dy |b| b 1 1 y − a − bµX 2 = exp − ( ) . | b | σX 2 | b | σX fY (y) = L’ultima espressione è una densità normale di parametri µY = a + bµX , σY =| b | σX . Il teorema precedente mostra, in particolare, che ogni distribuzione normale è una particolare trasformazione lineare della normale standard. Questo risultato è cosı̀ importante da meritare una proposizione a sè stante. Corollario 13 (Ruolo della normale standard ) Se XST ∼ N (0, 1) e X ∼ N (µX , σX ), in cui µX è un numero reale qualsiasi e σX è un numero reale positivo, allora X = a + bXST , con a = µX e b = σX. . Dimostrazione. Il risultato è un caso particolare del Teorema 12. Dal punto di vista matematico è necessaria una sola distribuzione normale, che per semplicità, è quella standard. Tutte le altre distribuzioni normali si ottengono da essa mediante una trasformazione lineare. Questo implica che la funzione di ripartizione, la funzione di densità e la funzione quantilica di X ∼ N (µX , σX ) sono esprimibili in funzione delle corrispondenti quantità della normale standard. 50 Altre importanti famiglie di distribuzioni godono di questa proprietà. Si verifica facilmente, ad esempio, che se X ∼ R(α1 , α2 ) allora Y = a + bX ∼ R(β1 , β2 ). Se b > 0, βi = a + bαi , i = 1, 2; se b < 0, Y ∼ R(β2 , β1 ). 70 DISTRIBUZIONE GAUSSIANA Teorema 14 (Funzione di ripartizione della normale) Nelle stesse ipotesi del Corollario 13, i. FX (x) = FXST ((x − µX )/σX ); ii. fX (x) = (σX )−1 fXST ((x − µX )/σX ); iii. xp = µX + σX xp,ST . Dimostrazione. i. Come nel Corollario 13, consideriamo la trasformazione lineare X = t(X ST ) = µX + σX XST e fissiamo un valore x di X. L’immagine inversa della semiretta (−∞, x] di X è la semiretta (−∞, (x − µX )/σX ] di XST . Pertanto x − µX X ≤ x ⇐⇒ XST ≤ σX da cui segue FX (x) = FXST ((x − µX )/σX ). ii. La funzione di densità di X è la derivata della funzione di derivazione, quindi d FX (x) dx d x − µX = FX ( ) dx ST σX 1 x − µX = fXST ( ). σX σX fX (x) = iii. La trasformazione X = µX + σX XST è monotona crescente perchè σX > 0. Il risultato è dunque una conseguenza dell’equivarianza dei quantili rispetto a questa classe di trasformazioni. 5.3 Aree sottese alla curva gaussiana Il Teorema 14 i. prende il nome di teorema di conservazione delle aree perchè l’area sottesa alla curva di densità di X nella semiretta (−∞, x] è uguale all’area sottesa alla curva di densità normale standard nella semiretta (−∞, xST ], in cui xST = (x − µX )/σX è il punteggio standard di x. Più in generale, l’area sottesa alla curva di densità di X nell’intervallo (x1 , x2 ], con x1 < x2 , risulta pari a FX (x2 ) − FX (x1 ) = FXST ( x2 − µ X x1 − µ X ) − FXST ( ). σX σX 71 5.3. AREE SOTTESE ALLA CURVA GAUSSIANA 0.8 0.0 0.2 0.4 0.6 Funzione di Ripartizione 0.6 0.4 0.0 0.2 Funzione di Densità 0.8 1.0 Normale Standard 1.0 Normale Standard −3 −2 −1 0 1 2 3 −3 −2 −1 x 0 1 2 3 x Figura 5.21: Funzione di densità e di ripartizione della normale standard (sono evidenziati i quartili). La funzione di ripartizione della normale standard (vedi Figura 5.21) 1 FXST (x) = √ 2π Z 1 2 exp − t dt 2 −∞ x viene valutata mediante integrazione numerica approssimata e i risultati sono ordinati in apposite tabelle. In questo caso, infatti, la formula fondamentale del calcolo integrale51 non è utilizzabile perchè non esiste in forma esplicita una funzione la cui derivata sia uguale a exp − 21 t2 . Tutti i programmi di analisi dei dati per computer offrono funzioni per valutare questo integrale. 51 La formula fondamentale del calcolo integrale afferma che l’integrale definito di una funzione continua g(x) nell’intervallo (a, b) è uguale all’incremento che una sua qualsiasi funzione primitiva G(x) registra fra a e b, Z b g(t)dt = G(b) − G(a). a Una primitiva di g(x) è una funzione la cui derivata coincide con g(x), d G(x) = g(x). dx 72 DISTRIBUZIONE GAUSSIANA Esempio 43 (Aree della normale standard) È conveniente tabulare l’area sottesa alla curva di densità normale standard in un intervallo centrato sulla media (pari a 0), al variare dell’estremo destro dell’intervallo. Indichiamo con H(z) tale area per un fissato numero reale z non negativo. Risulta evidentemente H(0) = 0 e limz→∞ H(z) = 1, Ad esempio H(1), il valore dell’area nell’intervallo (−1, 1), risulta approssimativamente uguale a 0.682690. Si ricava facilmente 1 1 + H(1) ' 0.841345, 2 2 1 1 FXST (−1) = − H(1) ' 0.158655. 2 2 FXST (1) = Per la simmetria della distribuzione, l’area sottesa nella semiretta (1, ∞) è uguale all”area sottesa nella semiretta (−∞, −1] e quest’ultima coincide con FXST (−1). L’area sottesa nell’intervallo (−1/2, 1] è pari a 1 1 1 1 + H(1) − ( − H(1/2)) 2 2 2 2 1 = (H(1) + H(1/2)). 2 FXST (1) − FXST (−1/2) = Analogamente, l’area sottesa nell’intervallo (1/2, 1] è pari a F XST (1)−FXST (1/2) = − H(1/2)). È importante osservare che H(3) ' 0.997300, cioè l’intervallo (−3, 3) contiene più del 99% dell’area totale. 1 2 (H(1) La tabella sottostante riporta i decili positivi della normale standard (i decili negativi si ricavano per simmetria). Tavole più dettagliate sono riportate nei manuali di Statistica e Probabilità. p xp 0.5 0 0.6 0.253347 0.7 0.524401 0.8 0.841621 0.9 1.28155 Tabella 5.20: Decili positivi della normale standard. Esempio 44 (Aree e quantili di N (µX , σX )) Consideriamo la variabile X ∼ N (10, 5). Qual è il valore della funzione di ripartizione in x1 = 15 e x2 = 0? Usando il teorema di conservazione delle aree, FX (x1 ) = FXST (x1,ST ) = FXST (1) ' 0.841345, FX (x2 ) = FXST (x2,ST ) = FXST (−2) ' 0.0227501. Quanto valgono i quantili di X d’ordine 0.1 e 0.7? Per la proprietà di equivarianza, x0.1 = µX + σX x0.1,ST = µX − σX x0.9,ST ' 3.592242, x0.7 = µX + σX x0.7,ST ' 12.622. 73 5.4. APPLICAZIONI Intervallo Area µ±σ 0.68269 µ ± 2σ 0.9545 µ ± 3σ 0.9973 µ ± 4σ 0.999937 Tabella 5.21: Aree di intervalli centrati sulla media di N (µ, σ). Vale la pena osservare le particolari caratteristiche di concentrazione della distribuzione normale attorno alla media. Come mostra la Tabella 5.21, circa 68% dei dati si trovano ad una distanza dalla media non superiore ad 1 deviazione standard, mentre circa 95% (99%) dei dati si trovano ad una distanza non superiore a 2 volte (3 volte) la deviazione standard. Inversamente, un dato la cui distanza dalla media è superiore a 3 volte la deviazione standard presenta caratteristiche di eccezionalità rispetto alla distribuzione normale perchè meno di 1% dei dati presenta una distanza superiore. Esempio 45 (Dati statisticamente anomali) Nel diagramma scatola-baffi un dato statisticamente anomalo cade all’esterno dell’intervallo delimitato dalla barriera inferiore Binf = x0.25 − 1.5SIQ e dalla barriera superiore Bsup = x0.75 + 1.5SIQ. La costante 1.5 è stata fissata da Tukey in modo che un’osservazione da una distribuzione Normale X ∼ N (µX , σX ) abbia un’elevatissima probabilità, che indichiamo con pN ORM , di rientrare nell’intervallo. Possiamo ora verificare che pN ORM è approssimativamente uguale a 0.993. Per il teorema di conservazione delle aree pN ORM = FX (Bsup ) − FX (Binf ) = FXST (Bsup,ST ) − FXST (Binf,ST ). Usando x0.25 = µX + σX x0.25,ST , x0.75 = µX + σX x0.75,ST , si ottiene Bsup,ST = 4x0.75,ST , Binf,ST = 4x0.25,ST , da cui segue pN ORM = FXST (4x0.75,ST ) − FXST (4x0.25,ST ) ' 0.993023. Ovviamente, la probabilità che il dato sia esterno all’intervallo è 1− p N ORM ' 0.006977, un valore trascurabile. 5.4 Applicazioni La distribuzione gaussiana è un modello matematico fondamentale della Statistica e della Probabilità. Essa è usata per approssimare curve di densità empiriche unimodali e simmetriche, in cui la dispersione dei dati attorno alla media segue, almeno approssimativamente, la Tabella 5.21. In questi casi i parametri µ e σ vengono approssimati mediante la media xn e la deviazione standard sX del campione. 74 n = 130 35| 2 si legge 35.2◦ C P130 xi = 4785 Pi=1 130 2 i=1 xi = 176146.2 DISTRIBUZIONE GAUSSIANA 35 36 36 37 37 38 7899 011222222333333444444 55566666666666677777777777777888888888888888999999999999 000000000011111111111111111122222223333334444 578 2 Tabella 5.22: Temperatura corporea. Esempio 46 (Temperatura corporea) Il ramo-foglie della Tabella 5.22 riporta la temperatura corporea (◦ C) di un campione di di 130 soggetti52 . La distribuzione suggerisce un modello unimodale e simmetrico. Media e deviazione standard sono x130 ' 36.81 ed sX ' 0.4057. Gli intervalli x130 ±ksX , k = 1, 2, 3, comprendono rispettivamente il 69.2%, 94.6%, 99.2% dei dati, in buon accordo con con i valori attesi nell’ipotesi di normalità. La Figura 5.22 mostra l’andamento della densità empirica e della densità gaussiana approssimante, di espressione 1 1 x − x130 2 √ exp − ( fX (x) = ) . 2 sX sX 2π L’accuratezza dell’approssimazione si può apprezzare mettendo a confronto le rispettive funzioni di ripartizione o i quantili (Figura 5.23). È interessante notare che, secondo questa indagine, le temperature statisticamente regolari vanno da un minimo di 35.8◦ ad un massimo di 37.8◦ . L’importanza della distribuzione gaussiana discende da un risultato di Teoria della Probabilità, il teorema centrale di convergenza. Esso afferma che la somma e la media standardizzate di un gran numero di osservazioni di una variabile numerica hanno distribuzioni ben approssimate da una normale standard. Il teorema presuppone che i dati siano ottenuti mediante campionamento casuale. Esempio 47 (Somma dei punteggi di n lanci di un dado) Consideriamo il seguente esperimento. Lanciamo n volte un dado regolare e calcoliamo la P somma Tn = ni=1 Xi dei risultati (Xi indica il punteggio osservato nel lancio i-esimo). Supponiamo ora di ripetere M volte (M elevato) l’esperimento, ottenendo le determinazioni tn,1 , . . . , tn,M di Tn . Qual è la distribuzione di Tn ? In base al teorema centrale di convergenza, quando n → ∞ la funzione di ripartizione di Tn,ST converge alla funzione di ripartizione della normale standard. 52 L’esempio è ripreso da A. L. Shoemaker, What’s Normal? Temperature, Gender and Heart Rate, Journal of Statistics Education 4, 1996. 75 5.4. APPLICAZIONI 0.8 0.6 0.4 0.0 0.2 Funzione di Densità 1.0 Densità Empirica e Curva Gaussiana 35.5 36.0 36.5 37.0 37.5 38.0 38.5 Temperatura Corporea (°C) Figura 5.22: Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico. La Figura 5.24 confronta gli istogrammi di Tn,ST per M = 10000, n1 = 10 e n2 = 50 con la curva normale standard. L’approssimazione è buona, anche per i valori di n non elevati qui considerati. 76 DISTRIBUZIONE GAUSSIANA Quantili 2 1 −1 0 Quantili Empirici 0.6 0.4 0.0 −2 0.2 Funzione di Ripartizione 0.8 3 1.0 Funzioni di Ripartizione 35.5 36.5 37.5 Temperatura Corporea (°C) 38.5 −2 −1 0 1 2 Quantili Teorici Figura 5.23: Temperatura corporea. Approssimazione gaussiana della funzione di ripartizione e dei quantili empirici. 77 5.4. APPLICAZIONI 0.3 0.0 0.1 0.2 Funzione di densità 0.3 0.2 0.0 0.1 Funzione di densità 0.4 Somma del Punteggio di 50 Lanci 0.4 Somma del Punteggio di 10 Lanci −4 −2 0 2 Somma Standardizzata 4 −4 −2 0 2 4 Somma Standardizzata Figura 5.24: Teorema centrale di convergenza. Approssimazione gaussiana della somma dei punteggi ottenuti in n lanci di un dado. 78 DISTRIBUZIONE GAUSSIANA Confrontare distribuzioni L’analisi e l’interpretazione dei dati richiede spesso il confronto di una pluralità di distribuzioni, confronto che può essere effettuato sia per mezzo di diagrammi che per mezzo di statistiche riassuntive. Rivediamo alcuni esempi già presentati. Come si è trasformata la struttura delle famiglie nel secondo dopoguerra? Se limitiamo l’attenzione alla dimensione delle famiglie, il problema è riconducibile al confronto delle distribuzioni di frequenza delle famiglie secondo il numero di componenti (Tabella 2.2) dal quale risulta un progressivo spostamento verso sinistra della distribuzione, cioè una progressiva riduzione della dimensione nel corso del tempo. Gli indici di posizione riflettono questo andamento; la media, ad esempio, passa da 3.6 componenti nel 1961 a 2.6 nel 2001. Questo indica che la dimensione familiare è un fenomeno con una dinamica temporale precisa. Il passo successivo è ottenere un modello statistico di questa dinamica che consenta anche di effettuare previsioni. Esiste una tendenza statistica nella distribuzione delle cifre decimali di π? Il confronto dell’istogramma di un campione di cifre con un’ipotetica curva di densità uniforme suggerisce un buon adattamento (Figura 2.5). Questo esempio è molto diverso dal precedente perchè qui i dati campionari vengono confrontati con un modello distributivo teorico, di tipo matematico. C’è un legame tra età e qualifica dei docenti universitari? Il confronto mediante diagrammi scatola-baffi dell’età dei ricercatori con quella dei professori associati e ordinari conferma la tendenza dell’età ad aumentare con la qualifica (Figura 4.17 e Tabella 4.18). La posizione relativa e la forma delle tre distribuzioni sono diverse. La differenza di età sembra aumentare con la qualifica, in particolare se consideriamo le età mediane. Dalla scomposizione della varianza emerge che circa il 30% della varianza totale è attribuibile alle differenze tra le medie parziali. Nell’interpretare questo risultato si deve tener conto delle differenze tra età medie ed età mediane, dovute all’asimmetria delle distribuzioni. Viceversa, il confronto grafico dei risultati delle estrazioni del lotto a Napoli, Roma e Venezia suggerisce che le differenze osservate siano attribuibili all’errore di campionamento e che i dati provengano da una distribuzione uniforme. Un diverso criterio per confrontare distribuzioni, basato sulla funzione di ripartizione, viene presentato nella sezione seguente. 79 80 CONFRONTARE DISTRIBUZIONI 6.1 Ordinamento in distribuzione I numeri reali sono un caso esemplare di insieme ordinato. Infatti siamo in grado di confrontare qualsiasi coppia di numeri reali x, y mediante la relazione ≤ (minore o uguale)53 , verificando se x ≤ y, y ≤ x oppure x = y. Questa relazione riflette l’ordinamento dei punti su una retta orientata: per ogni coppia di punti A e B possiamo sempre determinare se A precede B, o B precede A, oppure A e B coincidono. F M Maratona: Confronto Femmine, Maschi 5 10 15 20 25 Tempi (scostamento da due ore, minuti) Figura 6.25: Tempi nella maratona maschile e femminile. Si potrebbe pensare di trasferire l’ordinamento dei numeri reali all’insieme delle distribuzioni numeriche dato che il loro intervallo di variazione è un sottoinsieme della retta numerica. Ma una distribuzione di frequenza è in realtà un’assegnazione di pesi (frequenze relative) sulla retta numerica, pertanto questa estensione non è possibile. Servono ordinamenti specifici per le distribuzioni. Esempio 48 (Maratona) Il confronto dei migliori 400 risultati di tutti i tempi ottenuti nella maratona dai maschi e dalle femmine mostra che la distribuzione dei maschi è nettamente spostata a sinistra rispetto a quella delle femmine ed è molto meno dispersa (Figura 6.25). Inoltre il tempo massimo dei maschi è minore del tempo minimo delle femmine. Possiamo pertanto affermare che la distribuzione dei maschi “precede”, cioè è “minore” di quella delle femmine. Si intuisce che ogni indice di posizione della distribuzione dei maschi (media, mediana, quantili) risulterà inferiore al corrispondente indice della distribuzione delle femmine. Nell’esempio precedente è facile ordinare le due distribuzioni perchè esse occupano intervalli disgiunti della retta numerica, un caso piuttosto raro. Di solito le distribuzioni hanno un’ampia regione di sovrapposizione. 81 6.1. ORDINAMENTO IN DISTRIBUZIONE 1.0 Premi Nobel 0.6 0.4 0.0 0.2 F. Ripartizione 0.8 Fisica Letteratura 20 30 40 50 60 70 80 90 Età Figura 6.26: Funzioni di ripartizione delle età dei premi Nobel per la Fisica e la Letteratura. Esempio 49 (Premi Nobel) L’istogramma delle età dei premi Nobel per la Fisica appare spostato a sinistra rispetto all’istogramma dei premi Nobel per la Letteratura, tuttavia i due intervalli sono quasi completamente sovrapposti (Tabella 2.7 e Figura 3.8). Una misura del grado di sovrapposizione scaturisce dal confronto delle frequenze cumulate fino ad una data età. Prendiamo ad esempio l’età x = 45. Le corrispondenti frequenze cumulate sono 28.2% e 3.9%. Questo indica che il 28.2% dei premi Nobel per la Fisica hanno un’età inferiore o al massimo uguale a 45 anni, contro il 3.9% dei premi Nobel per la Letteratura. Equivalentemente, i premi Nobel con età maggiore di 45 anni sono 71.8% e 96.1%, rispettivamente. Pertanto, in corrispondenza di un’età di 45 anni, la prima distribuzione assegna peso maggiore alla semiretta (−∞, 45] ed assegna invece peso minore alla semiretta complementare (45, +∞). Per l’età di 50 anni, i pesi assegnati alla semiretta (−∞, 50] sono 45.2% e 10.7%, mentre i pesi assegnati alla semiretta complementare (50, +∞) sono 54.8% e 89.3%. I risultati 53 Un ordinamento (di cui ≤ è un caso particolare) è una relazione binaria che verifica le proprietà riflessiva, antisimmetrica e transitiva. 82 CONFRONTARE DISTRIBUZIONI suggeriscono che la prima distribuzione assegna una frequenza sistematicamente maggiore della seconda alla semiretta (−∞, x] ed assegna invece una frequenza sistematicamente minore della seconda alla semiretta (x, +∞). Il grafico delle due funzioni di ripartizione(Figura 6.26) conferma che questa relazione vale per ogni età x, ad eccezione delle età maggiori di 85 anni. La relazione d’ordine standard per le distribuzioni di frequenza, qui chiamata ordinamento in distribuzione e indicata con ≤D , confronta le distribuzioni in base al loro posizionamento sulla retta reale. Essa stabilisce che una distribuzione è “minore” di un’altra se attribuisce sistematicamente più peso/frequenza alla semiretta (−∞, x]. Poichè la frequenza relativa di (−∞, x] è il valore della funzione di ripartizione nel punto x, è chiaro che la relazione è facilmente esprimibile attraverso tale funzione. Definizione 15 (Ordinamento in distribuzione) Se una coppia di distribuzioni numeriche X, Y , con funzioni di ripartizione FX , FY , verifica la relazione FX (z) ≥ FY (z) per ogni numero reale z, allora X ≤D Y . C’è una semplice verifica grafica dell’ordinamento in distribuzione. Se il diagramma di FX è sistematicamente al di sopra di quello di FY allora X ≤D Y ; se invece il diagramma di FY è sistematicamente al di sopra di quello di FX allora Y ≤D X. Se i due diagrammi si intersecano, le due distribuzioni non sono ordinabili. Infatti la relazione ≤D , diversamente dall’ordinamento della retta numerica, è una relazione d’ordine parziale. Esempio 50 (Docenti di Statistica) Come mostra la Figura 6.27, le distribuzioni delle età dei ricercatori, dei professori associati e degli ordinari sono ordinate: XRic ≤D XAss ≤D XOrd .La distanza verticale dei grafici misura il divario tra le corrispondenti distribuzioni ad ogni età. L’area della superficie compresa tra i grafici fornisce una misura complessiva del divario. le diverse tipologie distributive si rispecchiano nell’andamento dei grafici. L’asimmetria positiva delle curve di densità di ricercatori ed associati si riflette nella “ripidità” del tratto iniziale del grafico della funzione di ripartizione. Al contrario, la pendenza del grafico degli ordinari rimane bassa fino all’età di 50 anni e poi aumenta molto, in accordo con l’asimmetria negativa della curva di densità. L’ordinamento in distribuzione pone severe limitazioni alle distribuzioni. In particolare esso implica l’ordinamento dei quantili e delle medie. Teorema 16 (Implicazioni dell’ordinamento in distribuzione) Se X ≤D Y , allora xp ≤ y p per ogni 0 < p < 1, e µX ≤ µ Y . 83 6.1. ORDINAMENTO IN DISTRIBUZIONE 1.0 Docenti di Statistica 0.6 0.4 0.0 0.2 F. Ripartizione 0.8 Ricercatori Associati Ordinari 30 40 50 60 70 80 Età Figura 6.27: Funzioni di ripartizione delle età dei docenti di Statistica, per qualifica (2005). Dimostrazione. Suppongo, per assurdo, yp < xp . Per definizione di quantile xp = inf {z : FX (z) ≥ p}. Essendo per ipotesi X ≤D Y , segue FX (yp ) ≥ FY (yp ) ≥ p, perchè yp è quantile d’ordine p di Y . Questa disuguaglianza afferma che esiste un valore yp < xp tale che FX (yp ) ≥ p, pertanto xp non può essere quantile d’ordine p di X. Contraddizione. La dimostrazione della seconda parte del teorema utilizza l’identità µX = Z +∞ 0 (1 − FX (z))dz − Z 0 FX (z)dz, −∞ valida sia per le variabili continue che per le discrete. Essa afferma che la media è la differenza tra due aree, S (+) ed S (−) . S (+) è l’area della superficie compresa tra la retta x = 0, la curva y = FX (z) (cioè il diagramma della funzione di ripartizione) e la retta y = 1. S (−) è l’area della superficie compresa tra la retta x = 0, la curva y = FX (z) e la retta y = 0. Dall’identità segue che la differenza 84 CONFRONTARE DISTRIBUZIONI tra le medie è pari a µY − µ X = Z +∞ −∞ (FX (z) − FY (z))dz. Se X ≤D Y , FX (z) ≥ FY (z) per ogni z, pertanto µY ≥ µX . 6.2 Curve di dispersione Lo scarto interquantilico SIQ(p) = x(1+p)/2 −x(1−p)/2 , 0 < p < 1, è la lunghezza dell’intervallo avente come estremi i quantili d’ordine (1 − p)/2 e (1 + p)/2. Ponendo ad esempio p = 0.5 si ottiene lo scarto interquartilico SIQ(0.5) = x0.75 − x0.25 . Le proprietà dei quantili implicano che SIQ(p) ≥ 0 per ogni 0 < p < 1 e che, se p1 < p2 , SIQ(p1 ) < SIQ(p2 ). La curva di dispersione54 è il grafico della funzione p → SIQ(p). Esso permette di osservare dettagliatamente la dispersione della distribuzione nel suo intervallo di variazione e di effettuare confronti tra distribuzioni diverse. Esempio 51 (Maratona) La Figura 6.28 mostra le curve di dispersione dei tempi nella maratona maschile e femminile. La curva di dispersione delle femmine è costantemente al di sopra di quella dei maschi il che indica che, a parità di 0 < p < 1, SIQ(p) è sempre maggiore per le femmine. Si può pertanto affermare che la distribuzione delle femmine è più dispersa di quella dei maschi. Il tratto quasi verticale all’estremità destra della curva di dispersione delle femmine è in accordo con la presenza di dati sparsi nella coda sinistra (Figura 6.25). La curva di dispersione permette di confrontare distribuzioni sotto il profilo della variabilità. Essa è invariante alle traslazioni ma risente delle trasformazioni di scala. Teorema 17 (Curva di dispersione e trasformazioni lineari) Sia SIQX (p) = x(1+p)/2 − x(1−p)/2 la curva di dispersione della variabile X. Se Y = a + bX, b 6= 0, allora SIQY (p) =| b | SIQX (p). Dimostrazione. Il teorema è una conseguenza dell’equivarianza dei quantili rispetto alle trasformazioni lineari. Infatti, se b > 0, yp = a + bxp mentre, se b < 0 yp = a + bx1−p . 85 6.2. CURVE DI DISPERSIONE 700 Curva di Dispersione 200 300 400 500 Maratona Maschi 0 100 Scarto Interquantilico 600 Maratona Femmine 0.0 0.1 0.2 0.3 0.4 0.5 Frequenza Intervallo Interquantilico Figura 6.28: Curve di dispersione dei tempi nella maratona di maschi e femmine. Esempio 52 (Docenti di Statistica) Le curve di dispersione delle età dei docenti di Statistica mostrano che ricercatori e ordinari hanno caratteristiche simili. Le età degli associati presentano una maggiore variabilità per 0.2 < p < 0.8. Questo risultato è già suggerito dai diagrammi scatola-baffi (Figura 4.17). 54 La curva di dispersione è stata proposta da R. Liu nel 1999 in un contesto multivariato col nome di scale curve. 86 CONFRONTARE DISTRIBUZIONI Curva di Dispersione Età Ricercatori 30 Età Associati 20 10 0 Scarto Interquantilico Età Ordinari 0.0 0.2 0.4 0.6 0.8 1.0 Frequenza Intervallo Interquantilico Figura 6.29: Curve di dispersione delle età dei docenti di Statistica, per qualifica (2005). Relazioni tra variabili La rilevazione congiunta di più variabili su ciascuna unità estende in modo significativo la portata delle analisi statistiche. Diventa infatti possibile descrivere un collettivo di unità secondo una pluralità di dimensioni diverse, rilevanti per l’indagine, migliorando l’aderenza al problema. Emerge inoltre il tema nuovo delle relazioni tra variabili, di grande importanza sia metodologica che pratica. Scoprire che alcune variabili sono dipendenti può fornire elementi utili all’individuazione delle determinanti di un fenomeno e delle loro modalità d’interazione. A sua volta, questo rappresenta il presupposto per migliorare l’accuratezza delle previsioni statistiche. Supponiamo, ad esempio, che la variabile d’interesse principale sia il reddito familiare. Introdurre nello studio come variabili concomitanti il numero di percettori di reddito, la loro età, titolo di studio e qualifica professionale può ridurre in misura significativa l’errore di previsione del reddito familiare. Negli studi epidemiologici, in cui l’obiettivo è individuare fattori di rischio (o di protezione) rispetto ad una patologia, si controllano nei soggetti esposti sia parametri clinici sia variabili legate allo stile di vita nella speranza di scoprire predittori efficaci. I dati che scaturiscono da un’indagine multivariata sono usualmente ordinati in una tabella, la matrice dei dati, in cui le righe corrispondono alle unità di rilevazione, le colonne alle variabili. Esempio 53 (Caratteristiche delle autovetture) La Tabella 7.23 riporta le caratteristiche di alcuni modelli di autovetture, ricavate dalle certificazioni dei costruttori. Le unità statistiche sono otto modelli di autovetture. Le variabili sono sei: due qualitative (classe e alimentazione), le altre quattro numeriche (consumo, emissioni di CO2 (grammi/km), rumore (decibel) e cilindrata (cm3 )). Ogni riga fornisce il profilo multivariato del corrispondente modello, mentre ogni colonna elenca le determinazioni della corrispondente variabile rilevate nel campione. I dati confermano l’aumento del consumo di carburante e delle emissioni di CO2 al crescere della cilindrata. Un’indagine multivariata, caratterizzata dalla rilevazione congiunta di più di una variabile su ciascuna unità, è profondamente diversa dalla rilevazione delle stesse variabili, separatamente l’una dall’altra. Essa infatti permette di controllare se le variabili sono associate, se cioè determinati valori di una variabile tendono ad associarsi in modo preferenziale a determinati valori di un’altra 87 88 RELAZIONI TRA VARIABILI Modello Toyota Aygo 1.0 Chevrolet Matiz 800 Fiat Punto 1.2 8V Bipower Opel Corsa 1.3 CDTI Ecotec Ford Focus VCT Honda Civic 5D 1.4i Mercedes E200 NGT Volvo V70D5 Modello Toyota Aygo 1.0 Chevrolet Matiz 800 Fiat Punto 1.2 8V Bipower Opel Corsa 1.3 CDTI Ecotec Ford Focus VCT Honda Civic 5D 1.4i Mercedes E200 NGT Volvo V70D5 Classe Mini Mini Utilitaria Utilitaria Media Inf. Media Inf. Media Sup. Media Sup. CO2 109 127 119 122 155 139 168 169 Alimentazione Benzina Benzina Metano Diesel Benzina Benzina Metano Diesel Rumore 70 71.4 72 69 70 69.8 73 73 Consumo 4.6 5.2 4.3 4.5 6.4 5.9 6.1 6.4 Cilindrata 998 796 1242 1248 1596 1339 1796 2400 Tabella 7.23: Caratteristiche di alcuni modelli di autovetture variabile. Nell’Esempio 53, basse (alte) cilindrate si associano a bassi (alti) consumi e basse (alte) emissioni; non emerge invece una relazione altrettanto chiara tra cilindrata e rumorosità. 7.1 Distribuzioni congiunte Come nel caso univariato, l’analisi dei dati multivariati si propone di riassumere le caratteristiche delle variabili osservate per mezzo della loro distribuzione congiunta. L’operazione mediante la quale si costruisce la distribuzione congiunta è ancora una classificazione delle unità di rilevazione secondo le modalità delle variabili osservate. Le classi, e qui emerge la differenza rispetto al caso univariato, sono gli elementi del prodotto cartesiano delle modalità di ciascuna variabile. Supponiamo di chiedere ad n soggetti se hanno letto il romanzo Gita a Tindari di A. Camilleri (modalità: non letto, NL, e letto, L) e se hanno visto l’omonimo sceneggiato televisivo (modalità: non visto, NV, e visto, V). Le modalità congiunte sono il prodotto cartesiano {N L, L} × {N V, V } = {(N L, N V ), (N L, V ), (L, N V ), (L, V )} . L’interpretazione è immediata: la classe (N L, N V ) comprende i soggetti che non hanno letto il libro nè visto il film, la classe (N L, V ) comprende invece i soggetti che non hanno letto il libro ma hanno visto il film, e cosı̀ via. Supponiamo anche di classificare gli stessi soggetti secondo il genere (modalità: femmina, F, e maschio, M) e lo stato civile (modalità: celibe/nubile, SC1, coniugato/a, SC2, 89 7.1. DISTRIBUZIONI CONGIUNTE separato/a o divorziato/a, SC3, vedovo/a, SC4). Le modalità congiunte sono il prodotto cartesiano {F, M } × {SC1, SC2, SC3, SC4} = {(F, SC1), (F, SC2), (F, SC3), (F, SC4), (M, SC1), (M, SC2), (M, SC3), (M, SC4)} . Anche in questo caso il significato delle modalità congiunte è evidente: (F, SC1) comprende le nubili, (M, SC1) i celibi, e cosı̀ via. La frequenza assoluta congiunta è il numero delle unità di rilevazione appartenenti ad ogni classe, caratterizzate da una particolare combinazione delle modalità delle variabili. Nell’esempio precedente, la frequenza congiunta della classe (L, V ) è il numero di soggetti che hanno letto Gita a Tindari e visto il film. La frequenza congiunta di (F, SC2) è il numero delle coniugate. Come nel caso univariato, l’esame della distribuzione congiunta cerca di identificare le classi più/meno rappresentate, la loro tendenziale omogeneità o sperequazione, la presenza di associazioni. Genere F M E 866 744 Facoltà F L 631 617 297 194 S 145 367 Tabella 7.24: Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03. Esempio 54 (Immatricolati a Ca’ Foscari) Abbiamo classificato gli studenti iscritti al primo anno di una laurea triennale di Ca’ Foscari nel 2002/03 secondo il genere e la facoltà. La prima variabile ha due modalità (femmina, F, maschio, M), la seconda ne ha quattro (Economia, E, Lettere e Filosofia, F, Lingue, L, Scienze, S) pertanto la distribuzione congiunta ha 8 = 2×4 modalità. Se avessimo rilevato separatamente genere e facoltà sapremmo quanti sono i maschi e quante le femmine del collettivo e sapremmo quanti sono gli iscritti alle quattro facoltà. Non potremmo però valutare l’associazione genere/facoltà. La Tabella 7.24 ci dà proprio questa informazione, mostrando gli effettivi delle otto classi. Le femmine iscritte ad Economia sono 866, quelle iscritte a Scienze sono solo 145; i maschi iscritti ad Economia sono 744, quelli iscritti a Lingue sono solo 194, e cosı̀ via. La moda della distribuzione congiunta, cioè la classe più numerosa, è (F, E), le studentesse di Economia, mentre la classe meno numerosa è (F, S), le studentesse di Scienze. Le associazioni che sembrano emergere sono: femmine e facoltà umanistiche, maschi e Scienze. Economia riscuote successo sia presso i maschi che presso le femmine. Poichè le modalità delle variabili sono incompatibili ed esaustive, ogni unità di rilevazione viene contata in una e una sola modalità congiunta. Pertanto la somma delle frequenze assolute congiunte è sempre uguale al numero delle unità di rilevazione. Le frequenze relative congiunte, che si ottengono dalle assolute mediante divisione per la numerosità totale, consentono una valutazione immediata dell’importanza delle modalità. 90 RELAZIONI TRA VARIABILI Reddito 2002, X ≤ x0.2 (x0.2 , x0.4 ] (x0.4 , x0.6 ] (x0.6 , x0.8 ] > x0.8 ≤ y0.2 14.12 4.02 1.14 0.46 0.28 Reddito 2004, Y (y0.2 , y0.4 ] (y4 , y6 ] (y6 , y8 ] 4.34 0.98 0.44 9.48 4.06 1.62 4.86 9.52 4.04 1.04 4.36 9.58 0.28 1.1 4.3 > y0.8 0.12 0.84 0.46 4.54 14.04 Tabella 7.25: Famiglie italiane per classi quintiliche di reddito 2002 e 2004 (fonte: Banca d’Italia). Esempio 55 (Bilanci familiari) Il piano di campionamento della rilevazione Banca d’Italia prevede che una parte delle famiglie resti nel campione per più indagini consecutive (cosiddette famiglie panel) per permettere di studiare la dinamica del reddito da un periodo all’altro utilizzando questo sottoinsieme. La Tabella 7.25 mostra la distribuzione congiunta del reddito 2002 e del reddito 2004. Gli estremi delle classi sono i quintili del reddito nel 2002 e nel 2004. L’interpretazione dei risultati è semplice. Vediamo qualche esempio. La cella all’incrocio della seconda riga e della seconda colonna individua le famiglie che sia nel 2002 che nel 2004 avevano un reddito compreso fra il primo ed il secondo quintile; la loro frequenza è pari al 9.5% del totale. Invece la cella all’incrocio della seconda riga e della terza colonna individua le famiglie che nel 2002 avevano un reddito compreso tra il primo ed il secondo quintile, mentre nel 2004 avevano un reddito compreso tra il secondo ed il terzo quintile; la corrispondente frequenza è 4.1%. Com’è nelle aspettative, la posizione relativa delle famiglie sulla scala reddituale è piuttosto stabile. Le celle sulla diagonale principale della tabella, comprendenti le famiglie la cui posizione è rimasta invariata, rappresentano il 56.7% del totale. Le celle sotto la diagonale, comprendenti le famiglie la cui posizione è peggiorata, rappresentano il 21.8% del totale. Le celle sopra la diagonale, corrispondenti alle famiglie che hanno migliorato la loro posizione, rappresentano il restante 21.4% delle famiglie. Le variazioni di posizione più frequenti sono i passaggi nella classe reddituale immediatamente inferiore o superiore (34.5% del totale). Gli altri eventi sono molto più rari. L’esempio seguente riguarda la mobilità della popolazione residente sul territorio italiano. Esempio 56 (Trasferimenti di residenza) L’ISTAT rileva annualmente i trasferimenti di residenza interni, da un comune all’altro, ed esterni, da e per l’estero. Nel 200255 sono stati registrati 1 milione e 224 mila trasferimenti di residenza tra comuni italiani. La maggioranza ha riguardato comuni della stessa provincia (59.2%), seguiti da quelli interregionali (27.5%) e da quelli tra province della stessa regione (13.3%). La Tabella 7.26 mostra la distribuzione congiunta dei 336·461 trasferimenti interregionali per area territoriale di origine 55 ISTAT, I trasferimenti di residenza. Collana Statistiche in breve, 25/2/2005. Iscrizioni e cancellazioni anagrafiche nel 2002, 91 7.2. DISTRIBUZIONI MARGINALI Origine Nord-ovest Nord-est Centro Sud Isole Totali Nord-ovest 7.1 3.7 3.4 9.4 5.0 28.6 Destinazione Nord-est Centro 4.6 3.7 3.4 2.5 3.1 3.8 8.7 9.2 3.6 2.7 23.4 21.9 Sud 5.4 3.4 4.6 4.0 1.0 18.4 Isole 3.3 1.6 1.5 1.1 0.2 7.7 Totali 24.2 14.6 16.4 32.3 12.5 100.0 Tabella 7.26: Trasferimenti di residenza interregionali, per area di origine e destinazione, 2002 (fonte: ISTAT). e di destinazione. La lettura dei risultati è immediata. Ad esempio la cella (1, 1) individua i trasferimenti interregionali tra comuni di regioni del nord-ovest. La cella (1, 2) individua i trasferimenti interregionali da comuni del nord-ovest a comuni del nord-est e la cella (2, 1) individua i trasferimenti interregionali da comuni del nord-ovest a comuni del nord-est. I risultati permettono di ricostruire le direttrici principali dei flussi migratori. La moda della distribuzione corrisponde ai movimenti da regioni del sud a regioni del nord-ovest, seguiti, in ordine di importanza, dai movimenti dal sud verso il centro e dal sud verso il nord-est. Le celle sulla diagonale principale individuano i movimenti tra regioni diverse ma all’interno della stessa area. Esse comprendono il 18.5% di tutti i trasferimenti. I totali di riga misurano le cancellazioni dalle liste anagrafiche delle cinque aree mentre i totali di colonna misurano le nuove iscrizioni. Se per un’area le cancellazioni superano le nuove iscrizioni, essa registra un deflusso netto di residenti. La tabella mostra che questo si verifica per le regioni del sud e delle isole. Circa il 45% dei trasferimenti interregionali hanno origine nel mezzogiorno e la destinazione principale è il nord-ovest, seguito dal centro e dal nord-est. 7.2 Distribuzioni marginali Dalla distribuzione congiunta si ottengono facilmente le distribuzioni univariate di ogni variabile. Per le distribuzioni bivariate esse corrispondono, rispettivamente, ai totali di riga e di colonna della tabella delle frequenze congiunte. Consideriamo, ad esempio, la prima riga. Poichè le modalità della variabile che indicizza le colonne sono incompatibili ed esaustive, le celle della prima riga sono una partizione della prima modalità della variabile che indicizza le righe. Pertanto la somma dei loro effettivi, le frequenze congiunte della prima riga, restituisce la frequenza della prima modalità della variabile che indicizza le righe. Le distribuzioni univariate vengono chiamate distribuzioni marginali perchè nel caso bivariato sono riportate nel margine destro ed inferiore della tabella delle frequenze congiunte. La notazione usata per le distribuzioni congiunte ricalca quella delle distribuzioni univariate. Supponiamo di chiamare X, Y le variabili osservate. La fre- 92 RELAZIONI TRA VARIABILI quenza relativa della modalità congiunta (Xh , Yk ) è indicata con fX,Y (Xh , Yk ) o anche fX,Y (x, y) se non è essenziale specificare gli indici delle modalità. La distribuzione marginale di X è fX (Xh ) = K X fX,Y (Xh , Yk ), h = 1, . . . , H, k=1 e la distribuzione marginale di Y è fY (Yk ) = H X fX,Y (Xh , Yk ), k = 1, . . . , K. h=1 Ad esempio, nella Tabella 7.26, la frequenza marginale dei trasferimenti di residenza interregionali da comuni del nord-ovest è pari a fX (X1 ) = 5 X fX,Y (X1 , Yk ) = 7.1 + 4.6 + 3.7 + 5.4 + 3.3 = 24.2 k=1 e la frequenza marginale dei trasferimenti interregionali verso comuni del centro è 5 X fY (Y3 ) = fX,Y (Xh , Y3 ) = 3.7 + 2.5 + 3.8 + 9.2 + 2.7 = 21.9. h=1 Esempio 57 (Obesità e sovrappeso) L’ISTAT, in un’indagine campionaria realizzata nel 199956 , ottiene le prime informazioni dettagliate sulla diffusione dell’obesità. La popolazione di riferimento è la popolazione italiana con 18 anni o più. Le variabili rilevate sono il genere (maschi, femmine), l’età (classi decennali, eccetto la prima e l’ultima) e l’indice di massa corporea (IMC), definito come rapporto tra il peso di un individuo, in chilogrammi, e il quadrato della statura, in metri. Le modalità di IMC sono: sottopeso (IM C < 18.5), normopeso (18.5 ≤ IM C < 25), sovrappeso (25 ≤ IM C < 30), obesità (IM C > 30). La Tabella 7.27 mostra la distribuzione congiunta delle tre variabili, avente 2 × 7 × 4 = 56 celle. Le femmine sono un po’ più numerose dei maschi, 51.9% contro 48.1%. La percentuale di obesi è 9.2%, 4.5% maschi e 4.7% femmine. Nell’esempio precedente abbiamo tre distribuzioni marginali bivariate (genere ed età, genere e IM C, età e IM C) e tre distribuzioni marginali univariate (genere, età e IM C). Ad esempio, i maschi con 75 anni o più sono il 3.3% e le femmine sono il 5.8%. Nella classe d’età [45 − 55) gli obesi sono il 2.2%. 7.3 Distribuzioni subordinate Nello studio delle distribuzioni statistiche si richiede talvolta di modificare l’ambito dell’indagine, restringendo l’insieme delle unità di rilevazione. La distribuzione per età della popolazione è spesso analizzata separatamente per maschi e 56 ISTAT, Obesità e sovrappeso, Collana Statistiche in breve, 13/3/2001. 93 7.3. DISTRIBUZIONI SUBORDINATE Età Sottopeso [18 − 25) [25 − 35) [35 − 45) [45 − 55) [55 − 65) [65 − 75) ≥ 75 Totali 0.17 0.12 0.03 0.04 0.03 0.04 0.04 0.47 [18 − 25) [25 − 35) [35 − 45) [45 − 55) [55 − 65) [65 − 75) ≥ 75 Totali 0.91 0.98 0.42 0.20 0.14 0.12 0.34 3.11 IMC Normopeso Sovrappeso GENERE : Maschi 4.16 0.95 5.83 3.13 4.41 4.19 2.89 3.98 2.40 3.51 1.87 2.88 1.59 1.38 23.15 20.02 GENERE : Femmine 3.70 0.40 7.01 1.12 6.44 1.88 4.52 2.47 3.28 2.77 3.09 2.62 2.73 2.05 30.77 13.31 Obesità Totali 0.09 0.42 0.78 1.11 1.01 0.77 0.30 4.48 5.37 9.52 9.41 8.01 6.94 5.51 3.31 48.07 0.09 0.27 0.54 1.05 1.12 0.97 0.70 4.74 5.09 9.38 9.28 8.24 7.30 6.80 5.82 51.91 Tabella 7.27: Popolazione con 18 anni e più per genere, età e indice di massa corporea (IMC), 1999 (fonte: ISTAT). femmine. La distribuzione delle aziende di un dato settore secondo il risultato di bilancio è talvolta ristretta alle sole aziende col bilancio in attivo. In questi casi il fattore di normalizzazione delle frequenze è la numerosità del sottoinsieme di unità statistiche in esame: il numero di maschi, il numero di femmine, il numero di aziende col bilancio in attivo. Questo procedimento trova un’applicazione importante proprio nello studio delle distribuzioni congiunte in cui, insieme con la distribuzione congiunta e le distribuzioni marginali, si considerano anche le distribuzioni subordinate (o condizionali), cioè le distribuzioni di una variabile limitatamente a qualche modalità di un’altra variabile. Genere F M E 38.3 46.4 Facoltà F L 27.9 27.3 18.5 12.1 Tabella 7.28: Immatricolati a Ca’ Foscari. facoltà, per genere. S 6.4 22.9 Totali 100 100 Distribuzioni subordinate della Esempio 58 (Immatricolati a Ca’ Foscari) Maschi e femmine mostrano lo stesso orientamento nella scelta della facoltà? A prima vista sembra sufficiente confrontare le frequenze di maschi e femmine per ciascuna facoltà. Questo pro- 94 RELAZIONI TRA VARIABILI cedimento, in generale, produce risultati distorti perchè i collettivi che vengono comparati, in questo caso i maschi e le femmine, hanno numerosità diverse. Affinchè il confronto sia corretto, le frequenze congiunte di ciascuna riga devono essere divise per la loro somma, cioè la corrispondente frequenza marginale. Otteniamo cosı̀ la distribuzione delle facoltà, subordinatamente al genere degli immatricolati, femmina oppure maschio. Le due distribuzioni si leggono nelle righe della Tabella 7.28. Ad esempio, la frequenza subordinata di Lettere e filosofia, limitatamente alle femmine, è 617/2259 ' 27.3%. Per i maschi, la stessa percentuale è 194/1602 ' 12.1%. I due risultati sono ora comparabili perchè la divisione per i rispettivi totali di riga ha eliminato il fattore di distorsione. Va sottolineata la differenza tra frequenza congiunta e frequenza subordinata. La percentuale delle femmine immatricolate a Lettere e filosofia è 617/3861 ' 16.0%, contro il 27.3% della frequenza subordinata. La differenza sta tutta nel collettivo di riferimento: per la frequenza congiunta è la totalità delle unità rilevate, maschi e femmine; per la frequenza subordinata è il sottoinsieme delle femmine. Possiamo considerare anche la distribuzione del genere degli immatricolati, subordinatamente alla facoltà, Economia, Lettere e Filosofia, Lingue o Scienze. Basta dividere le frequenze di ciascuna colonna per la corrispondente somma, la frequenza marginale. Le cinque distribuzioni si leggono nelle colonne della Tabella 7.29. Ad esempio, la frequenza subordinata delle femmine, limitatamente alla facoltà di Scienze, è 145/512 ' 28.3%. La frequenza subordinata delle femmine, limitatamente alla facoltà di Lingue, è invece 617/811 ' 76.1%. Nel complesso, le Tabelle 7.28 e 7.29 mostrano una netta prevalenza delle femmine nelle facoltà umanistiche mentre a Scienze prevalgono i maschi. La composizione degli immatricolati di Economia è molto più equilibrata. Genere F M Totali E 53.8 46.2 100 Facoltà F L 68.0 76.1 32.0 23.9 100 100 S 28.3 71.7 100 Tabella 7.29: Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere, per facoltà. Le distribuzioni subordinate sono distribuzioni statistiche a tutti gli effetti e ne condividono le proprietà e le modalità di analisi. Consideriamo il caso bivariato. La generica distribuzione di Y , dato X = Xh , si indica con la notazione Y |Xh : la variabile principale precede la barra verticale (simbolo di subordinazione), la condizione la segue. La corrispondente funzione di frequenza si indica con fY |Xh (Yk ) o con fY |Xh (y), se l’indice non è necessario. Analogamente, la distribuzione di X, dato Y = Yk , si indica con X|Yk e la corrispondente funzione di frequenza con fX|Yk (Xh ) o fX|Yk (x). Se X ha H modalità e Y ne ha K, possiamo determinare H distribuzioni subordinate Y |Xh e K distribuzioni subordinate X|Yk . 95 7.3. DISTRIBUZIONI SUBORDINATE X Nessuno L. Elem. Media I. Media S. Laurea Nessuno 66.3 8.4 0.8 0.3 0.0 L. Elem. 28.9 70.9 22.3 5.2 0.9 Y Media I. 4.2 17.8 59.2 35.2 11.7 Media S. 0.5 2.9 16.5 49.0 45.8 Laurea 0.0 0.1 1.2 10.3 41.6 Marg. X 3.7 25.7 36.9 25.2 8.5 Tabella 7.30: Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). Il confronto delle distribuzioni subordinate Y |Xh (o X|Yk ) si basa sui criteri presentati nel Capitolo 5 e può essere di tipo grafico o analitico. Per le variabili qualitative sono molto usati i diagrammi a rettangoli suddivisi. Supponiamo di dover confrontare le distribuzioni Y |Xh . Il diagramma contiene H rettangoli uguali, ciascuno dei quali è diviso internamente in sotto-rettangoli di altezza pari alle frequenze subordinate fY |Xh (Yk ), k = 1, . . . , K. Esempio 59 (Bilanci familiari) Dal campione di famiglie della Banca d’Italia abbiamo ricavato la distribuzione congiunta del titolo di studio del capofamiglia (X) e del coniuge (o convivente, Y ). La Tabella 7.30 mostra le corrispondenti distribuzioni subordinate Y |Xh e la distribuzione marginale di X. Il diagramma a rettangoli è riportato nella Figura 7.30. Il livello di educazione dei coniugi è, di norma, simile. La moda delle distribuzioni subordinate è sempre coincidente con la modalità subordinante, con la sola eccezione dei capofamiglia laureati. Quando le variabili sono numeriche, una conveniente rappresentazione grafica di una distribuzione congiunta bivariata è il diagramma di dispersione, un grafico cartesiano in cui ad ogni unità di rilevazione corrisponde un punto le cui coordinate sono le determinazioni assunte congiuntamente dalle due variabili. Esempio 60 (Bilanci familiari) La distribuzione congiunta dell’età dei coniugi del campione della Banca d’Italia mostra una forte associazione tra le due variabili. Al crescere dell’età del capofamiglia cresce anche l’età del coniuge che però, di norma, è inferiore alla prima. Essendo le variabili numeriche, la rappresentazione più semplice dei dati è il diagramma di dispersione. La Figura 7.31 mostra che la distribuzione è concentrata attorno alla bisettrice del primo quadrante e rimane per lo più al di sotto di essa. In questo grafico le distribuzioni subordinate Y |Xh corrispondono alle rette verticali di equazione x = Xh , e le distribuzioni subordinate X|Yk corrispondono alle rette orizzontali di equazione y = Yk . La Figura 7.32 riporta i diagrammi scatola-baffi delle distribuzioni 96 RELAZIONI TRA VARIABILI 100 Distribuzioni Subordinate Y|X 60 40 0 20 Frequenze Subordinate Y|X 80 Laurea M.Sup. M.Inf. L.Ele. Nessuno Nessuno L.Ele. M.Inf. M.Sup. Laurea Titolo di Studio del Capofamiglia Figura 7.30: Bilanci familiari. Distribuzioni subordinate del titolo di studio del coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). subordinate dell’età del coniuge, per classi di età del capofamiglia. Gli estremi delle classi sono i quintili della distribuzione: x(1) = 19, x0.2 = 41, x0.4 = 50, x0.6 = 58, x0.8 = 68, x(n) = 96. È evidente il progressivo spostamento verso destra delle distribuzioni subordinate. La tipologia distributiva è unimodale simmetrica e la dispersione è simile, con la sola eccezione dell’ultima distribuzione subordinata che è più dispersa. I numerosi dati anomali corrispondono alle coppie con forti differenze di età. Le frequenze subordinate si ottengono dividendo le frequenze congiunte per la frequenza marginale della modalità subordinante. Le formule rilevanti sono fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ), k = 1, . . . , K, per le distribuzioni Y |Xh ; fX|Yk (Xh ) = fX,Y (Xh , Yk )/fY (Yk ), h = 1, . . . , H, 97 7.3. DISTRIBUZIONI SUBORDINATE 60 20 40 Età del Coniuge 80 100 Età dei Coniugi 20 40 60 80 100 Età del Capofamiglia Figura 7.31: Diagramma di dispersione delle età del capofamiglia e del coniuge, 2004 (fonte: Banca d’Italia). per le distribuzioni X|Yk . Queste formule mostrano che, conoscendo le frequenze subordinate e le frequenze marginali della variabile subordinante, è possibile ricavare le frequenze congiunte: fX,Y (Xh , Yk ) = fY |Xh (Yk ) × fX (Xh ) = fX|Yk (Xh ) × fY (Yk ). Ad esempio, dalla Tabella 7.30, la frequenza congiunta dei coniugi laureati è fY |X5 (Y5 ) × fX (X5 ) = 0.416 × 0.085. È ora facile verificare un’interessante relazione tra le frequenze marginali e le frequenze subordinate. Teorema 18 (Relazione tra frequenze marginali e subordinate) La frequenza relativa marginale della modalità Yk di Y è identicamente uguale alla media aritmetica ponderata delle frequenze subordinate fY |Xh (Yk ), con pesi uguali alle frequenze relative marginali fX (Xh ): fY (Yk ) = H X h=1 fY |Xh (Yk )fX (Xh ). 98 RELAZIONI TRA VARIABILI Q1 Q2 Q3 Q4 Q5 Distr. Subordinate 20 40 60 80 Età del Coniuge Figura 7.32: Diagrammi scatola-baffi delle distribuzioni subordinate dell’età del coniuge, per classi di età del capofamiglia, 2004 (fonte: Banca d’Italia). Analogamente, la frequenza relativa marginale della modalità X h di X è identicamente uguale alla media aritmetica ponderata delle frequenze subordinate fX|Yk (Xh ), con pesi uguali alle frequenze relative marginali fY (Yk ): fX (Xh ) = K X fX|Yk (Xh )fY (Yk ). k=1 Dimostrazione. È sufficiente dimostrare la prima relazione. Il punto di partenza è la relazione tra frequenze marginali di Y e frequenze congiunte. Poichè H X fY (Yk ) = fX,Y (Xh , Yk ), h=1 moltiplicando e dividendo fX,Y (Xh , Yk ) per fX (Xh ) si ottiene fY (Yk ) = H X (fX,Y (Xh , Yk )/fX (Xh ))fX (Xh ) h=1 = H X h=1 fY |Xh (Yk )fX (Xh ). 7.4. DIPENDENZA IN SENSO STATISTICO 99 Nell’Esempio 54, indicando con X il genere e con Y la facoltà, la frequenza marginale degli immatricolati a Economia è fY (Y1 ) = fY |X1 (Y1 ) × fX (X1 ) + fY |X2 (Y1 ) × fX (X2 ) = 0.383 × 0.585 + 0.464 × 0.415 = 0.417, risultato coincidente con quello fornito dal metodo diretto. Nell’Esempio 59, la frequenza marginale dei coniugi laureati è ottenibile allo stesso modo fY (Y5 ) = 5 X h=1 fY |Xh (Y5 ) × fX (Xh ) = 0.0 × 0.037 + 0.001 × 0.257 + . . . + 0.416 × 0.085 ' 0.066, un valore inferiore a quello dei capofamiglia laureati. 7.4 Dipendenza in senso statistico La definizione statistica di variabili dipendenti è diversa da quella intuitiva corrente e anche da quella usata in Matematica e nelle Scienze sperimentali. Consideriamo ad esempio la funzione Y = X 2 . Fissato un valore di X, risulta univocamente determinato il valore della variabile dipendente Y . Se X è noto, Y non ha più alcun margine di variazione. Una nozione analoga è sottintesa da moltissime leggi della Fisica. Ad esempio, la classica legge di Boyle-Mariotte57 afferma che, se una data massa di un gas ideale è mantenuta a temperatura costante, la pressione P a cui è sottoposto è inversamente proporzionale al volume V occupato dal gas: P V = costante. Pertanto, se il volume è fissato, la pressione non ha alcun margine di variazione e può essere prevista con precisione. In Statistica, la situazione è diversa. Un esempio familiare scaturisce dalla rilevazione del peso e della statura. Soggetti aventi lo stesso peso58 avranno nondimeno stature diverse. Anche se il peso è costante, la statura mantiene un margine di variabilità. Una situazione analoga si incontra nello studio del reddito e della spesa delle famiglie. L’osservazione empirica mostra che in un campione omogeneo di famiglie, a parità di reddito si presentano livelli di spesa diversi. In generale, avendo osservato congiuntamente una coppia di variabili X, Y , se fissiamo la modalità Xh di X, Y varierà in accordo con la distribuzione subordinata Y |Xh . La specificità dei fenomeni indagati dalla Statistica è esattamente questa: ad ogni modalità di X corrisponde una distribuzione di valori di Y . Potrebbe sembrare che questo risultato escluda ogni possibilità di 57 La legge fu formulata da R. Boyle nel 1664 e, indipendentemente, da E. Mariotte nel 1676. ipotizzando un campione omogeneo per genere, età, stili di vita. 58 Stiamo 100 RELAZIONI TRA VARIABILI stabilire un criterio di dipendenza. Esso ci indica invece che il criterio da usare dev’essere fondato sulle distribuzioni subordinate. Anche se, per ogni modalità di X, Y mantiene un margine di variabilità, le distribuzioni subordinate Y |Xh , h = 1, . . . , H, possono essere abbastanza diverse da permettere di riconoscere una relazione. Nel caso del peso e della statura, al crescere del peso le distribuzioni subordinate della statura tendono a posizionarsi attorno a valori più elevati. Nell’Esempio 54 maschi e femmine mostrano preferenze diverse nella scelta della facoltà. Nell’Esempio 60, al crescere dell’età del capofamiglia, le distribuzioni subordinate dell’età del coniuge, pur mantenendo un certo grado di sovrapposizione, si spostano visibilmente su età più elevate. La nozione di dipendenza statistica si basa sul confronto delle distribuzioni subordinate. Ricordiamo che due distribuzioni sono uguali se hanno lo stesso insieme di modalità e le frequenze delle modalità corrispondenti sono uguali. Definizione 19 (Variabili indipendenti) Le variabili X, Y sono (statisticamente) indipendenti se le distribuzioni subordinate Y |Xh , h = 1, . . . , H, sono uguali. Il significato della precedente definizione è chiaro. Al variare della modalità Xh di X, le distribuzioni subordinate Y |Xh non variano, il che dal punto di vista statistico indica che non esiste alcuna relazione tra X e Y . Ovviamente, se le distribuzioni subordinate Y |Xh sono in qualche modo diverse, le due variabili sono dipendenti. L’indipendenza statistica ha alcune importanti conseguenze. In primo luogo, se le distribuzioni subordinate Y |Xh sono uguali, lo sono anche le distribuzioni subordinate X|Yk , pertanto la realzione di indipendenza statistica è simmetrica: se Y è indipendente da X, allora X è indipendente da Y. Inoltre, se X e Y sono indipendenti, le distribuzioni subordinate Y |Xh , uguali per ipotesi, coincidono con la distribuzione marginale di Y . Questa proprietà segue dalla relazione tra frequenze marginali e frequenze subordinate dimostrata nel Teorema 18. Lo stesso vale per le distribuzioni subordinate X|Yk . Il risultato di gran lunga più interessante è il teorema di fattorizzazione. Teorema 20 (Frequenze teoriche di indipendenza) Condizione necessaria e sufficiente affinchè le variabili X e Y siano statisticamente indipendenti è che le frequenze relative congiunte verifichino la seguente relazione (Ind) fX,Y (Xh , Yk ) = fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ), per ogni coppia (h, k), h = 1, . . . , H, k = 1, . . . , K. Dimostrazione. La necessità della condizione segue dalla definizione di frequenza subordinata. Infatti, se X e Y sono indipendenti, le frequenze subordinate fY |Xh (Yk ) sono uguali a fY (Yk ) per ogni h = 1, . . . , H e k = 1, . . . , K. Pertanto fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ) = fY (Yk ) 101 7.4. DIPENDENZA IN SENSO STATISTICO Genere F M E 942 668 Facoltà F L 543 475 385 336 S 299 213 Tabella 7.31: Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03. Frequenze teoriche di indipendenza. per ogni combinazione degli indici h e k. Questo prova la necessità. Per provare la sufficienza, basta osservare che, se fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ) per ogni h = 1, . . . , H e k = 1, . . . , K, le frequenze subordinate fY |Xh (Yk ) risultano uguali alle frequenze marginali fY (Yk ), per ogni h = 1, . . . , H. Pertanto le distribuzioni subordinate Y |Xh sono uguali e le variabili sono indipendenti. Moltiplicando le frequenze relative teoriche di indipendenza per la numerosità totale n, otteniamo l’espressione delle frequenze assolute di indipendenza: (Ind) nX,Y (Xh , Yk ) = nX (Xh )nY (Yk )/n, per ogni coppia di modalità (Xh , Yk ), h = 1, . . . , H, k = 1, . . . , K. In pratica, la frequenza congiunta della cella all’incrocio della riga h con la colonna k è uguale al prodotto delle corrispondenti frequenze assolute marginali, diviso per la numerosità totale. Per ogni distribuzione congiunta osservata esiste una distribuzione ombra teorica, di solito puramente ipotetica, in cui le frequenze congiunte soddisfano questa relazione. Le due tabelle, quella osservata e quella teorica, sono uguali se e solo se le variabili sono indipendenti. Vale la pena osservare che la relazione di indipendenza tra le variabili è l’unico caso in cui la distribuzione congiunta è ricavabile dalle sole distribuzioni marginali. Esempio 61 (Immatricolati a Ca’ Foscari) Se maschi e femmine avessero le stesse preferenze per le facoltà, le frequenze congiunte della distribuzione del genere e della facoltà seguirebbero il modello di indipendenza (Tabella 7.31) mentre invece si notano vistose differenze. Ad esempio, la frequenza teorica di indipendenza delle femmine iscritte a Scienze è pari a 512 × 2· 259/3·861 ' 299, molto più alta del valore osservato pari a 145. La frequenza teorica di indipendenza dei maschi iscritti a Lingue è pari a 811 × 1· 602/3·861 ' 336, più alta del valore osservato pari a 194. L’indipendenza statistica è un modello teorico usato come termine di confronto per le distribuzioni osservate. Raramente le distribuzioni osservate sono esattamente conformi al modello di indipendenza. È invece utile misurare la loro distanza dal modello di indipendenza. Quando i dati sono campionari, queste distanze permettono di valutare se le discrepanze tra le frequenze congiunte osservate e quelle teoriche di indipendenza sono attribuibili all’errore di campionamento, oppure rivelano una differenza reale, attribuibile al fatto che le variabili sono dipendenti. 102 RELAZIONI TRA VARIABILI Una distanza molto usata è la statistica chi-quadrato di Pearson χ2 = H X K X h=1 k=1 = H X K X h=1 k=1 ( frequenze osservate − teoriche)2 /frequenze teoriche (Ind) (Ind) (nX,Y (Xh , Yk ) − nX,Y (Xh , Yk ))2 /nX,Y (Xh , Yk ). Si dimostra che 0 ≤ χ2 ≤ n min {H − 1, K − 1}. Il valore 0 viene assunto se e solo se le variabili sono indipendenti. L’estremo superiore viene raggiunto quando nella distribuzione congiunta ogni riga ed ogni colonna ha una sola cella con frequenza positiva. In tal caso le distribuzioni subordinate sono tutte degeneri. Esempio 62 (Bilanci familiari) Il titolo di studio del capofamiglia e del coniuge (o convivente) sono statisticamente dipendenti. Infatti le distribuzioni subordinate (Tabella 7.30) sono diverse, con un’evidente concentrazione sul titolo di studio corrispondente alla modalità subordinante. La statistica chi-quadrato è pari a 5· 156, un valore la cui interpretazione probabilistica segnala una forte discrepanza dal valore atteso nel caso di indipendenza. Regressione e correlazione Le distribuzioni subordinate di una variabile Y rispetto ad una variabile X forniscono l’informazione necessaria per lo studio della relazione di Y con X. Se le distribuzioni subordinate sono uguali, le variabili sono statisticamente indipendenti. Se le distribuzioni subordinate sono diverse, Y dipende da X. Diventa allora importante, da un lato, quantificare il grado di dipendenza, dall’altro interpretare la relazione. Nel caso delle variabili Y numeriche, il compito è facilitato dallo studio della variazione di qualche indice di posizione (media o mediana) delle distribuzioni subordinate Y |X, al variare di X. Da tali considerazioni scaturiscono le nozioni di regressione e correlazione che sono alla base delle indagini statistiche di causalità. 8.1 Funzioni di regressione Il termine regression fu usato da F. Galton59 per descrivere la tendenza delle stature dei figli di padri alti a diminuire verso valori normali. Oggi i modelli di regressione sono usati per descrivere la relazione di una variabile dipendente rispetto a una o più variabili esplicative. Noi ci limitiamo a considerare una coppia di variabili numeriche e indichiamo sempre con X la variabile esplicativa, con Y la variabile dipendente. Definizione 21 (Funzione di regressione) La funzione di regressione è l’applicazione m : x → y|x che ad ogni modalità della variabile esplicativa X associa la media della corrispondente distribuzione subordinata Y |X = x. La funzione di regressione riassume le distribuzioni subordinate per mezzo delle corrispondenti medie evidenziando l’effetto della variabile esplicativa sul posizionamento della variabile dipendente. La dispersione interna delle distribuzioni subordinate, essenziale per valutare la precisione delle medie, viene misurata dalle deviazioni standard sY |x . Pertanto la funzione di regressione è sempre accompagnata dalla funzione x → sY |x che ne descrive la qualità statistica. 59 F. Galton (1822-1911), medico e scienziato inglese, è considerato il pioniere del metodo statistico nelle indagini scientifiche. 103 104 REGRESSIONE E CORRELAZIONE N. Percettori, X 1 2 3 4 5 6 7 N. Famiglie (%) 3840 (47.9) 3228 (40.3) 752 (9.4) 174 (2.2) 16 (0.2) 1 (0.0) 1 (0.0) Reddito Medio, y|x 20.4 35.5 46.7 56.6 65.1 85.3 111.2 sY |x 20.3 29.5 26.1 23.1 32.8 0 0 Tabella 8.32: Reddito medio familiare (migliaia di euro) in funzione del numero di percettori di reddito, 2004 (fonte: Banca d’Italia). Esempio 63 (Numero di percettori di reddito e reddito familiare) Il reddito familiare è ovviamente influenzato dal numero di percettori di reddito presenti nelle famiglie. L’indagine sui bilanci familiari della Banca d’Italia consente di studiare la relazione tra le due variabili. I risultati, esposti nella Tabella 8.32, mostrano che il numero dei percettori varia da 1 a 7, con una fortissima concentrazione sui valori 1 (47.9% delle famiglie), 2 (40.3%) e 3 (9.4%). Le modalità estreme 6 e 7, con frequenza assoluta unitaria, sono praticamente irrilevanti. Conformemente alle aspettative, la funzione di regressione y|x mostra che il reddito familiare cresce col numero di percettori, ma in misura meno che proporzionale. Le deviazioni standard sY |x hanno un andamento oscillatorio, ma rivelano comunque l’esistenza di una non trascurabile dispersione dei redditi familiari all’interno delle distribuzioni subordinate, comparabile alla dispersione dei redditi nella distribuzione marginale, dato che sY ' 26.9. L’esempio precedente mostra che la funzione di regressione è una funzione empirica le cui caratteristiche sono dettate dai dati. Allo studioso interessa rilevarne l’andamento, monotono (in particolare, lineare) crescente o decrescente, o non monotono, nel qual caso acquistano importanza i punti estremi. La funzione di regressione è detta omoschedastica o eteroschedastica a seconda che la dispersione interna delle distribuzioni subordinate Y |X, misurata dalle deviazioni standard sY |x , sia costante o variabile. L’applicazione più importante è la previsione di Y . Infatti, y|x rappresenta la previsione statistica di Y , quando è noto che X assume la determinazione x; sY |x misura il corrispondente errore di previsione. Quando la funzione di regressione è costante, cioè le medie delle distribuzioni subordinate Y |X non variano al variare di X, Y è indipendente in media rispetto a X. In questo caso, da non confondere con l’indipendenza in distribuzione, non c’è alcuna relazione funzionale di Y con X, almeno quando si usa come indice di posizione la media. Se X e Y sono indipendenti in distribuzione, sono necessariamente indipendenti in media perchè l’uguaglianza delle distribuzioni subordinate implica l’uguaglianza dei corrispondenti indici di sintesi, in particolare delle medie. Viceversa, l’indipendenza in media non comporta, in generale, l’indipendenza in distribuzione. 8.2. PROPRIETÀ DELLA FUNZIONE DI REGRESSIONE X -1 0 1 fY -2 1/11 0 1/11 2/11 -1 1/11 1/11 1/11 3/11 Y 0 0 1/11 0 1/11 2 1/11 1/11 1/11 3/11 1 1/11 0 1/11 2/11 105 fX 4/11 3/11 4/11 1 Tabella 8.33: Distribuzione congiunta con variabili indipendenti in media e dipendenti in distribuzione. Esempio 64 (Indipendenza in media e indipendenza in distribuzione) Nella distribuzione congiunta della Tabella 8.33 Y è indipendente in media da X perchè µY |x = 0, x ∈ {−1, 0, 1} e X è indipendente in media da Y perchè µX|y = 0, y ∈ {−2, −1, 0, 1, 2}. D’altra parte, le variabili sono dipendenti in distribuzione perchè, come è facile verificare, le frequenze congiunte non rispettano il teorema di fattorizzazione. Nell’esempio seguente la funzione di regressione ha un andamento non monotono. Esempio 65 (Età media dei coniugi e numero di figli) Se studiamo la variazione del numero di figli conviventi in famiglia in relazione all’età media dei coniugi, la funzione di regressione cresce rapidamente quando i coniugi sono giovani, reggiunge il valore massimo attorno ai 45 anni e poi decresce gradualmente fin quasi ad azzerarsi. La Figura 8.33 mostra i risultati ricavati dal campione di famiglie dell’indagine della Banca d’Italia sui bilanci familiari, che descrive anche la composizione dei nuclei familiari. Le deviazioni standard s Y |x sono elevate e non lontane dalla deviazione standard marginale s Y ' 1.02 fino a x ' 65 anni, dopo di che si riducono sensibilmente. La frequenza dei valori estremi dell’età media dei coniugi è di poche unità e questo potrebbe rendere poco attendibili le corrispondenti stime della funzione di regressione. 8.2 Proprietà della funzione di regressione La funzione di regressione gode di un’importante proprietà di ottimalità, che generalizza l’ottimalità della media secondo il criterio dei minimi quadrati. In sintesi, descrivere la relazione di Y rispetto ad X con una funzione c(X) 6= y|X comporta un errore quadratico superiore rispetto a c(X) = y|X. Emerge inoltre un collegamento col teorema di scomposizione della varianza. Infatti le modalità X1 , . . . , XH della variabile esplicativa X inducono una partizione delle unità statistiche in H gruppi e le distribuzioni di Y all’interno di tali gruppi sono precisamente le distribuzioni subordinate Y |X1 , . . . , Y |XH . Pertanto la varianza marginale di Y è la somma di una componente che misura la dispersione media all’interno delle distribuzioni subordinate (s2Y,W IT H ) e di una componente che misura la dispersione delle medie subordinate, cioè della funzione di regressione, attorno alla media marginale di Y (s2Y,BET ). 106 REGRESSIONE E CORRELAZIONE 2.0 1.5 1.0 0.0 0.5 Numero Medio di Figli 2.5 3.0 Funzione di Regressione * ** * ** *** ****** ******* *** ***** * ** * * * ****** * ** ** * * * ***** * ** * *** *** * * * **** ***** * ** ** * * * ** * *** ** ** ****** ******** * ** * * ****************** ***** ** ** 20 40 60 80 Età Media dei Coniugi Figura 8.33: Numero di figli in funzione dell’età media dei coniugi, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x , la retta orizzontale indica la media marginale del numero di figli; fonte: Banca d’Italia). Dimostriamo per prima cosa la relazione della funzione di regressione con la media marginale della variabile dipendente. Teorema 22 (Media della funzione di regressione) La media della funzione di regressione è uguale alla media marginale della variabile dipendente. Dimostrazione. La funzione di regressione m : x → y|x è una trasformazione della variabile esplicativa X che ad ogni modalità X h associa la media della distribuzione subordinata Y |Xh , h ∈ {1, . . . , H}. Pertanto, per h ∈ {1, . . . , H}, y|Xh ha la frequenza relativa di Xh , cioè fX (Xh ). Usando la 8.2. PROPRIETÀ DELLA FUNZIONE DI REGRESSIONE 107 definizione di media e di funzione di regressione otteniamo60 M (y|X) = H X (y|Xh )fX (Xh ) h=1 = H X K X ( Yk fY |Xh (Yk ))fX (Xh ) h=1 k=1 = H X K X Yk fX,Y (Xh , Yk ) h=1 k=1 = K X k=1 Yk fY (Yk ) ≡ y. Si ottiene una dimostrazione alternativa del risultato precedente applicando la proprietà associativa della media. L’espressione della varianza della funzione di regressione è una conseguenza immediata del Teorema 22. Corollario 23 (Varianza della funzione di regressione) V ar(y|X) = H X h=1 (y|Xh − y)2 fX (Xh ). Il Teorema 22 indica che la funzione di regressione fluttua attorno alla media marginale della variabile dipendente e gli scostamenti misurano l’entità e la direzione dell’influenza esercitata dalla variabile esplicativa. Se c’è indipendenza in media, la funzione di regressione è costante e il valore che essa assume coincide necessariamente con la media marginale della variabile dipendente. In tal caso V ar(y|X) è nulla. Teorema 24 (Ottimalità della funzione di regressione) In una distribuzione congiunta {X, Y, fX,Y } la media dei quadrati degli errori di Y da una funzione c(X) è minima quando c(X) è la funzione di regressione y|X. In questo caso essa coincide con la media delle varianze interne delle distribuzioni subordinate Y |X, s2Y |x . Dimostrazione. Indichiamo con c(X) una funzione della variabile X che associa alle distribuzioni subordinate Y |Xh i valori ch = c(Xh ), h ∈ {1, . . . , H}. Gli errori quadratici di Y rispetto a tale funzione nella distribuzione Y |X h sono (Y1 − ch )2 , . . . , (YK − ch )2 da ponderare con le frequenze subordinate fY |Xh (Y1 ), . . . , fY |Xh (YK ). 60 I simboli M (·) e V ar(·) indicano l’applicazione degli operatori media e varianza ad una variabile statistica, in questo caso la funzione di regressione. 108 REGRESSIONE E CORRELAZIONE Pertanto l’errore quadratico medio per la distribuzione subordinata Y |X h è K X k=1 (Yk − ch )2 fY |Xh (Yk ). Per la proprietà dei minimi quadrati della media K X k=1 ≥ (Yk − ch )2 fY |Xh (Yk ) K X k=1 (Yk − y|Xh )2 fY |Xh (Yk ) = s2Y |Xh . Poichè la disuguaglianza precedente vale per ogni h ∈ {1, . . . , H}, l’errore quadratico medio complessivo soddisfa L2 (c(X)) = H X K X ( (Yk − ch )2 fY |Xh (Yk ))fX (Xh ) h=1 k=1 ≥ H X s2Y |Xh fX (Xh ) = L2 (y|X). h=1 La funzione L2 (c(X)) rappresenta l’errore quadratico medio derivante dalla previsione di Y mediante la funzione c(X) applicata alle distribuzioni subordinate Y |X. Il teorema precedente mostra che la funzione ottimale, con errore minimo, è la funzione di regressione. Vale la pena osservare che L2 (y|X) rappresenta un confine inferiore non migliorabile dell’errore di previsione, almeno nell’ambito del criterio dei minimi quadrati. Teorema 25 (Scomposizione della varianza) In una distribuzione congiunta {X, Y, fX,Y } la varianza marginale di Y verifica l’identità s2Y = s2Y,BET + s2Y,W IT H , in cui s2Y,BET = V arX (y|X) = H X h=1 (y|Xh − y)2 fX (Xh ) è la varianza della funzione di regressione e s2Y,W IT H = MX (s2Y |X ) = H X h=1 s2Y |Xh fX (Xh ) = L2 (y|X) 8.3. CORRELAZIONE STATISTICA 109 è la varianza media di Y all’interno delle distribuzioni subordinate Y |X h . Il risultato vale anche, mutatis mutandis, per la varianza marginale di X. Dimostrazione. La dimostrazione è un caso particolare del teorema di scomposizione della varianza per dati divisi in gruppi, perchè le modalità di X inducono una partizione delle unità statistiche. 8.3 Correlazione statistica La scomposizione della varianza del Teorema 25 offre una semplice quantificazione del grado di dipendenza di Y rispetto a X. La componente s2Y,BET misura la variazione delle medie subordinate di Y indotta da X ed è interpretabile come la componente della varianza di Y spiegata dalla relazione con X. Viceversa, s2Y,W IT H è interpretabile come la componente della varianza di Y residuale, cioè non spiegata dalla relazione con X. Una misura normalizzata del grado di dipendenza funzionale61 di Y rispetto a X è il rapporto tra la varianza spiegata dalla funzione di regressione e la varianza marginale della variabile dipendente s2Y,BET . ηY2 |X = s2Y Questo indice prende il nome di rapporto di correlazione. Le sue proprietà sono descritte dal seguente teorema. Teorema 26 (Variazione del rapporto di correlazione) i. 0 ≤ ηY2 |X ≤ 1; ii. ηY2 |X = 0 se e solo se Y è indipendente in media da X; iii. ηY2 |X = 1 se e solo se la distribuzioni subordinate Y |Xh sono degeneri, h ∈ {1, . . . , H}. Dimostrazione. i. La proprietà è una conseguenza immediata del Teorema 25 perchè s 2Y,BET e s2Y sono quantità non negative e s2Y,BET è una componente di s2Y . ii. ηY2 |X = 0 se e solo se s2Y,BET = 0. A sua volta s2Y,BET = 0 se e solo se, per h ∈ {1, . . . , H}, le medie subordinate y|Xh sono uguali fra loro e dunque coincidenti con la media marginale y. Questa è esattamente la condizione di indipendenza in media di Y rispetto ad X. iii. ηY2 |X = 1 se e solo se 1 − ηY2 |X = 0, cioè se e solo se s2Y,W IT H = 0. Questa condizione si verifica se e solo se s2Y |Xh = 0 per ogni h ∈ {1, . . . , H}, cioè se e solo se tutte le distribuzioni subordinate Y |Xh sono degeneri. 61 Dipendenza funzionale o in media o di regressione. 110 REGRESSIONE E CORRELAZIONE Quando ηY2 |X = 1, la varianza residua s2Y,W IT H è nulla. Quindi, nel caso di massima dipendenza in media, ad ogni modalità Xh di X corrisponde una ed una sola modalità di Y e questa corrispondenza è descritta perfettamente, senza errore, dalla funzione di regressione y|X. Si tratta evidentemente di una situazione estrema, virtualmente mai osservata in pratica. Gli esempi seguenti illustrano il caso consueto, in cui 0 < ηY2 |X < 1. 60 40 20 Età Media del Coniuge 80 Funzione di Regressione ** * * **** * *** * * *** * **** * * * *** *** * ** *** * * *** ** * * **** * * * ** ** * * ** *** ** * **** * **** * 20 40 60 80 Età del Capofamiglia Figura 8.34: Età del coniuge in funzione dell’età del capofamiglia, 2004 (*: funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ± sY |x , la retta orizzontale indica l’età media marginale del coniuge; fonte: Banca d’Italia). Esempio 66 (Età del capofamiglia e del coniuge) La Figura 8.34 mostra il grafico della funzione di regressione dell’età del coniuge, Y , rispetto all’età del capofamiglia, X (confronta col diagramma di dispersione della Figura 7.31). La relazione è lineare crescente e, come mostra la banda y|X ± s Y |X di ampiezza pressochè costante, tendenzialmente omoschedastica. La varianza di Y è s 2Y = 190.2237 e le componenti sono s2Y,BET = 164.9909, s2Y,W IT H = 25.23274. Il 111 8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA rapporto di correlazione è ηY2 |X ' 0.867. Il valore, molto elevato, indica che la funzione di regressione fornisce previsioni con un margine d’errore ridotto. Esempio 67 (Età media dei coniugi e numero di figli) Qui la variabile esplicativa, X, è l’età media dei coniugi e la variabile dipendente, Y , è il numero di figli conviventi. I risultati sono s2Y ' 1.050, s2Y,BET ' 0.344, s2Y,W IT H ' 0.706. Pertanto ηY2 |X ' 0.327. Il valore, piuttosto basso, riflette le considerevoli deviazioni dei dati osservati dalle previsioni fornite dalla funzione di regressione (vedi Figura 8.33). 8.4 Distribuzione gaussiana bivariata La distribuzione gaussiana (o normale) bivariata ha funzione di densità congiunta 1 1 p fX,Y (x, y) = exp − q(x, y) , 2 2πσX σY 1 − ρ2 in cui q(x, y) = 1 1 − ρ2 ( x − µX 2 x − µX y − µ Y y − µY 2 ) − 2ρ( )( )+( ) σX σX σY σY e µX , µY , σX > 0, σY > 0, −1 < ρ < 1 sono i parametri della distribuzione. Il grafico (vedi Figura 8.35) ha la forma di una campana col vertice in corrispondenza del punto di coordinate (µX , µY ) e dispersione dipendente congiuntamente da σX , σY . Il significato del parametro ρ verrà chiarito più avanti. Dimostriamo preliminarmente che la densità gaussiana bivariata è non negativa e il suo integrale è pari a 1. Teorema 27 (Normalizzazione della densità gaussiana bivariata) i. Per ogni coppia di numeri reali (x, y), fX,Y (x, y) > 0; R +∞ R +∞ ii. −∞ −∞ fX,Y (x, y)dxdy = 1. Dimostrazione. p i. fX,Y (x, y) > 0 perchè 2πσX σY 1 − ρ2 è una costante positiva e exp − 21 q(x, y) è un numero reale positivo comunque si fissino i valori di x e y. ii. La funzione q(x, y) si può scrivere in modo equivalente x − µX 2 ) σX 1 x − µX y − µ Y y − µY 2 2 x − µX 2 + ρ ( ) − 2ρ( )( )+( ) 1 − ρ2 σX σX σY σY x − µX 2 1 y − µY x − µX 2 =( ) + ( −ρ ) σX 1 − ρ2 σY σX x − µX 2 1 σY =( ) + 2 (y − µY − ρ (x − µX ))2 . 2 σX σY (1 − ρ ) σX q(x, y) = ( 112 REGRESSIONE E CORRELAZIONE Ponendo σY µY (x) = µY + ρ (x − µX ), σX p σY (x) = σY 1 − ρ2 , l’espressione di q(x, y) diventa q(x, y) = ( x − µX 2 y − µY (x) 2 ) +( ) . σX σY (x) A sua volta, fX,Y si può convenientemente riscrivere come segue 1 1 x − µX 2 1 1 y − µY (x) 2 √ √ fX,Y (x, y) = ) ) exp − ( exp − ( 2 σX 2 σY (x) σX 2π σY (x) 2π = fX (x)fY |X (y). L’integrale di fX,Y rispetto a x e a y diventa Z +∞ −∞ Z +∞ fX,Y (x, y)dxdy = −∞ = Z +∞ −∞ Z +∞ −∞ Z +∞ fX (x)fY |X (y)dxdy −∞ fX (x)( Z +∞ fY |X (y)dy)dx. −∞ Per ogni fissato valore di x, fY |X è interpretabile come una densità gaussiana univariata, con media µY (x) e deviazione standard σY (x). Pertanto R +∞ f (y)dy = 1 per ogni x reale. Anche fX è interpretabile come una −∞ Y |X densità gaussiana univariata, con media µX e deviazione standard σX , e quindi Z +∞ Z +∞ Z +∞ Z +∞ fX,Y (x, y)dxdy = fX (x)( fY |X (y)dy)dx −∞ −∞ = Z −∞ +∞ −∞ fX (x)(1)dx −∞ = 1. Questo completa la dimostrazione. Vale la pena notare alcuni risultati impliciti nella dimostrazione del Teorema 27. Il fatto che la densità congiunta fX,Y (x, y) sia identicamente uguale al prodotto fX (x)fY |X (y), prova che la distribuzione marginale X è gaussiana N (µX , σX ) e che le distribuzioni subordinate Y |X = x sono tutte gaussiane N (µY (x), σY (x)). Riconosciamo in µY (x) ≡ µY |X e σY (x) ≡ σY |X le medie e le deviazioni standard, rispettivamente, delle distribuzioni subordinate. Quindi, per la distribuzione normale bivariata, la funzione di regressione µY (x) è lineare, 8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA 113 crescente o decrescente a seconda che 0 < ρ < 1 o −1 < ρ < 0, e omoschedastica, σY (x) non dipendendo da x. È facile verificare che la densità congiunta fX,Y è anche esprimibile come fX,Y (x, y) = fY (y)fX|Y (x), con 1 y − µY 2 fY (y) = ) , exp − ( 2 σY σY 2π 1 1 x − µX (y) 2 √ exp − ( fX|Y (x) = ) , 2 σX (y) σX (y) 2π 1 √ e σX (y − µY ), µX (y) = µX + ρ σY p σX (y) = σX 1 − ρ2 . Questo mostra che la distribuzione marginale Y è gaussiana N (µY , σY ) e le distribuzioni subordinate X|Y = y sono gaussiane N (µX (y), σX (y)). Le caratteristiche della funzione di regressione µX (y) ≡ µX|y sono identiche a quelle di delle distribuzioni subordinate Y |X = x. Riassumiamo i risultati precedenti µX nel seguente teorema. Indichiamo con µ il vettore e con Σ la matrice µY 2 σX ρσX σY . ρσX σY σY2 Teorema 28 (Distribuzioni marginali e subordinate della normale bivariata) Nella distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ) le distribuzioni marginali e subordinate hanno le seguenti caratteristiche i. X ∼ N (µX , σX ), Y ∼ N (µY , σY ); ii. per x ∈ R e −1 < ρ < 1, Y |X = x ∼ N (µY |x , σY |x ), iii. per y ∈ R e −1 < ρ < 1, X|Y = y ∼ N (µX|y , σX|y ). La Figura 8.35 mostra i grafici della densità normale bivariata con componenti marginali standardizzate e parametro ρ rispettivamente uguale a 0.75 e −0.3. Le curve di livello costante62 delle normale bivariata sono ellissi col centro nel punto (µX , µY )T ed eccentricità dipendente dal parametro ρ (vedi Figura 8.36). Poichè la distribuzione subordinata Y |X = x è normale, per ogni fissato p 2 x la frequenza subordinata dell’intervallo µY |x ± 3σY 1 − ρ supera il 99%. Questo mostra che la parte preponderante dei dati della distribuzione congiunp ta di (X, Y ) è compresa nella banda di semiampiezza 3σY 1 − ρ2 attorno alla retta µY |x descritta dalla funzione di regressione. L’ampiezza della banda, a 62 Ottenute intersecando la superficie gaussiana con piani paralleli al piano coordinato xy. 114 REGRESSIONE E CORRELAZIONE Densità Normale Bivariata (rho = 0.75 ) Densità Normale Bivariata (rho = −0.3 ) 0.15 0.20 ità Dens 0.10 3 0.10 0.05 3 0.05 2 2 1 0 −2 −1 −3 −1 −1 X 0 −2 Y −3 1 0 1 −1 X −2 Y ità Dens 0.15 0 1 2 −2 2 3 −3 3 −3 Figura 8.35: Funzioni di densità gaussiane. parità di valore di σY , dipende solo dal parametro ρ e diminuisce quando ρ tende a ±1. Questo indica che le previsioni mediante la funzione di regressione sono tanto più precise quanto più ρ, in valore assoluto, è prossimo a 1. Equivalentemente, ρ misura la concentrazione dei dati attorno alla retta di regressione che aumenta quando | ρ |→ 1. È facile verificare che per la normale bivariata il rapporto di correlazione risulta essere ηY2 |X = 1 − MX (σY2 |X ) σY2 =1− 2 MY (σX|Y ) 2 σX = ρ2 . Per le sue proprietà il parametro ρ viene chiamato coefficiente di correlazione lineare. Nel teorema seguente mostriamo che esso è uguale alla media del prodotto delle componenti marginali standardizzate XST , YST della normale bivariata. Teorema 29 (Espressione del coefficiente di correlazione lineare) Per ogni distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ), ρ = MX,Y (XST YST ), in cui XST = (X − µX )/σX , YST = (Y − µY )/σY . Dimostrazione. Dobbiamo provare che risulta Z +∞ Z +∞ x − µX y − µY fX (x)( fY |X (y)dy)dx = ρ. σ σY X −∞ −∞ Operando il cambiamento di variabile u = (x − µX )/σX , v = (y − µY )/σY , 115 8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA 2 1 0 Y 0 * −2 −3 −3 −2 −1 * −1 Y 1 2 3 Curve di Livello Densità Normale (rho = −0.3 ) 3 Curve di Livello Densità Normale (rho = 0.75 ) −3 −2 −1 0 1 2 3 −3 −2 X −1 0 1 2 3 X Figura 8.36: Curve di livello della densità gaussiana, con centroide e funzione di regressione. l’integrale assume la seguente espressione Z +∞ Z +∞ ufU (u)( vfV |U (v)dv)du, −∞ −∞ p in cui U ∼ N (0, 1), V |U = u ∼ N (ρu, 1 − ρ2 ). L’integrale più interno è per definizione la media della distribuzione subordinata V |U = u, cioè ρu, pertanto l’integrale doppio diventa Z +∞ ρ u2 fU (u)du = V ar(U ) = ρ, −∞ perchè U è una variabile standardizzata. È evidente da quanto precede che, se ρ = 0, X e Y sono indipendenti in media perchè σY µY |x = µY + ρ (x − µX ) ≡ µY σX per ogni x e σX µX|y = µX + ρ (y − µY ) ≡ µX σY per ogni y. Per le distribuzioni normali, questa condizione è necessaria e sufficiente per l’indipendenza in distribuzione. Teorema 30 (Indipendenza in distribuzione per le distribuzioni normali) Le componenti marginali di una distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ) sono indipendenti in distribuzione se e solo se ρ = 0. 116 REGRESSIONE E CORRELAZIONE Dimostrazione. Se ρ = 0, fX,Y (x, y) = fX (x)fY (y), pertanto X, Y sono indipendenti in distribuzione per il teorema di fattorizzazione. D’altra parte, se X, Y sono indipendenti in distribuzione, la densità congiunta è uguale al prodotto delle densità marginali, quindi 1 1 x − µX 2 y − µY 2 fX,Y (x, y) = exp − (( ) +( ) ) 2πσX σY 2 σX σY da cui segue necessariamente ρ = 0. Il risultato precedente si deve considerare eccezionale e caratteristico delle distribuzioni normali. L’Esempio 64 ci ha infatti mostrato che, in generale, l’indipendenza in media non implica l’indipendenza in distribuzione. Correlazione lineare Come mostrano gli esempi del Capitolo 8, le relazioni lineari sono tutt’altro che la regola nelle analisi statistiche di dipendenza. Nondimeno, esse occupano una posizione centrale nella metodologia. Il motivo è da attribuire alla predominanza della distribuzione gaussiana come modello distributivo per dati numerici e il Teorema 28 mostra che per tale distribuzione la funzione di regressione è effettivamente lineare. Le deviazioni delle distribuzioni empiriche da questo modello possono essere talvolta corrette mediante trasformazioni dei dati di base63 . Frequentemente, l’ipotesi di linearità non ha un fondamento nella teoria, rappresenta piuttosto l’ipotesi più semplice da mettere alla prova dei dati ed eventualmente correggere in fasi successive. La Statistica offre strumenti efficaci per trattare le relazioni lineari. La covarianza e il coefficiente di correlazione lineare (già incontrato nel Capitolo 8) forniscono una diagnosi precisa circa l’esistenza di relazioni lineari. Se l’esito è positivo, un’approssimazione lineare della funzione di regressione con buone proprietà statistiche è la retta dei minimi quadrati. 9.1 Covarianza L’ordinaria misura statistica del grado di interdipendenza lineare di due variabili numeriche X, Y è coefficiente di correlazione lineare, definito come la media del prodotto delle variabili standardizzate XST , YST rX,Y = MX,Y (XST YST ). Usando la definizione di variabile standardizzata e le proprietà delle trasformazioni lineari, si ottiene l’espressione equivalente rX,Y = MX,Y ( X − xn Y − y n ) sX sY 1 MX,Y ((X − xn )(Y − y n )) sX sY sX,Y , = sX sY = 63 Un esempio è la trasformazione logaritmica applicata a dati reddituali. 117 118 CORRELAZIONE LINEARE N. Componenti 1 2 3 4 5 6 7 8 9 Totali 0 1885 2040 164 49 12 0 0 0 0 4150 N. Figli Conviventi 1 2 3 4 5 0 0 0 0 0 382 0 0 0 0 1384 127 0 0 0 79 1331 25 0 0 32 60 316 4 0 6 11 15 63 2 2 2 0 1 8 0 3 3 1 0 0 1 0 1 8 1885 1535 359 69 10 6 0 0 0 0 0 0 1 1 1 2 7 0 0 0 0 0 0 0 0 2 2 Totali 1885 2422 1675 1484 424 97 14 8 3 8012 Tabella 9.34: Bilanci familiari. Distribuzione congiunta del numero di componenti delle famiglie e del numero di figli, 2004 (fonte: Banca d’Italia). in cui sX,Y = MX,Y ((X − xn )(Y − yn )) è la covarianza della distribuzione congiunta (X, Y ). Quando i dati bivariati sono n coppie di valori (xi , yi ), i = 1, . . . , n, la formula di calcolo della covarianza è sX,Y = n−1 = (n n X (xi − xn )(yi − y n ) i=1 n X −1 i=1 xi y i ) − x n y n . Esempio 68 (Caratteristiche delle autovetture) Nell’Esempio 53 abbiamo osservato che al crescere della cilindrata delle autovetture aumentano sia i consumi di carburante che le emissioni di CO2 . Indichiamo con X, Y , Z, rispettivamente, la cilindrata, il consumo di carburante e le emissioni di CO 2 . Dalla Tabella 7.23 si ricava n X i=1 xi = 11415, n X x2i = 18055441, i=1 n X n X i=1 yi = 43.40, n X yi2 = 240.88, i=1 xi yi = 64116.7. i=1 Pertanto sX,Y = 64116.7/8 − (11415/8)(43.40/8) ' 273.791 rX,Y = sX,Y /(sX sY ) ' 0.707. Lo stesso procedimento fornisce rX,Z ' 0.860 e rY,Z ' 0.914. 119 9.1. COVARIANZA Se i dati bivariati sono ordinati in una distribuzione di frequenze, si deve usare la versione ponderata sX,Y = H X K X h=1 k=1 =( (Xh − xn )(Yk − y n )fhk H X K X h=1 k=1 Xh Yk fhk ) − xn y n . Esempio 69 (Dimensione delle famiglie e numero di figli) La Tabella 9.34 mostra la distribuzione congiunta del numero di componenti delle famiglie (X) e del numero di figli conviventi (Y ), ricavata dai dati della Banca d’Italia sui bilanci familiari (rilevazione 2004). La definizione delle variabili implica x i > yi per ogni famiglia. Le distribuzioni marginali sono asimmetriche positivamente con una forte concentrazione sulle modalità più basse. La moda del numero di componenti è pari a 2, quella del numero di figli è pari a 0. La moda della distribuzione congiunta è X = 2 ∩ Y = 0. Altre celle con frequenze elevate sono X = 1 ∩ Y = 0, X = 3 ∩ Y = 1, X = 4 ∩ Y = 2. In generale, per y ≥ 0 la distribuzione congiunta è fortemente concentrata sulle modalità y + 1 ≤ x ≤ y + 3. Le statistiche riassuntive sono n X i=1 · xi = 20 581, n X x2i · = 65 925, i=1 n X n X i=1 · yi = 6 384, n X yi2 = 12· 780, i=1 xi yi = 25· 268, i=1 da cui segue, in particolare, sX,Y ' 1.107 e rX,Y = sX,Y /(sX sY ) ' 0.885. Diversamente dalle medie xn , yn e dalle deviazioni standard sX , sY , che dipendono dalle distribuzioni marginali, la covarianza dipende dalla distribuzione congiunta bivariata. Essa è definita come la media del prodotto degli scostamenti delle due variabili dalle rispettive medie ed è identicamente uguale alla media del prodotto delle due variabili, diminuita del prodotto delle medie. Il coefficiente di correlazione lineare, uguale alla covarianza divisa per il prodotto delle deviazioni standard, è una versione normalizzata della covarianza. L’informazione essenziale sul legame lineare tra le variabili è tuttavia fornito dalla covarianza. Un’interpretazione della covarianza è offerta dalla disposizione dei dati bivariati nel diagramma di dispersione. Il grafico è diviso in quattro quadranti dalle rette perpendicolari x = xn , y = y n passanti per il centroide, il punto di coordinate (xn , y n ). Il quadrante in alto a destra è il luogo dei punti (x, y) con x > xn e y > y n , mentre nel quadrante in basso a sinistra x < xn e y < y n . In queste due regioni le variabili X, Y sono concordanti, intendendo con questo che assumono entrambe determinazioni superiori o inferiori alla media. I dati bivariati appartenenti a queste due regioni danno un contributo positivo alla 120 Squadra CORRELAZIONE LINEARE Reti Segnate Reti Subite Inter Roma Juventus Fiorentina Milan Sampdoria Udinese Napoli Atalanta Genoa 69 72 72 55 66 56 48 50 52 44 26 37 37 39 38 46 53 53 56 52 Chievo Bologna Lecce Albinoleffe Brescia Pisa Rimini Ascoli Mantova Frosinone Bari 77 58 70 67 59 61 68 64 56 63 50 43 29 29 48 40 44 46 49 49 67 55 Punteggio Squadra Serie A Palermo Lazio Siena Cagliari Torino Reggina Catania Empoli Parma Livorno Serie B 85 Triestina 84 Grosseto 83 Messina 78 Piacenza 72 Modena 71 Treviso 69 Vicenza 62 Avellino 60 Ravenna 56 Spezia 55 Cesena 85 82 72 66 64 60 57 50 48 48 Reti Segnate Reti Subite Punteggio 47 47 40 40 36 37 33 29 42 35 57 51 45 56 49 56 45 52 62 60 47 46 44 42 40 40 37 36 34 30 55 47 38 43 57 41 43 42 48 45 37 67 54 62 59 65 52 60 64 75 66 66 51 49 49 47 46 45 45 36 35 33 32 Tabella 9.35: Reti segnate e subite e punteggio finale nella stagione 2007-08 del campionato di calcio di serie A e B. covarianza. Viceversa, i dati bivariati appartenenti agli altri due quadranti danno un contributo negativo, perchè lı̀ le variabili sono discordanti, essendo una inferiore, l’altra superiore alla media. La covarianza assume valori positivi o negativi a seconda che prevalga il contributo del primo e terzo quadrante o degli altri due. Valori prossimi a zero indicano equlibrio nel contributo delle quattro regioni. Nel caso limite in cui la covarianza è uguale a zero, le variabili sono linearmente indipendenti perchè non c’è una concentrazione preferenziale dei dati attorno ad una retta. Esempio 70 (Campionato di calcio) La Tabella 9.35 riporta il numero di reti segnate (X) e subite (Y ) e il punteggio nella classifica finale delle squadre di calcio di serie A e B. I dati si riferiscono al campionato 2007-08. Ovviamente, è positiva la correlazione lineare del punteggio finale con le reti segnate mentre è negativa quella con le reti subite. La Figura 9.37 mostra i corrispondenti diagrammi di dispersione delle squadre di serie B, con i quadranti determinati dal centroide. Nel caso delle reti segnate i dati sono quasi tutti nel primo e terzo quadrante, indizio di un valore positivo elevato del coefficiente di correlazione 121 9.2. COMBINAZIONI LINEARI 70 60 Punteggio 60 * 40 30 30 40 50 * 50 Punteggio 70 80 Campionato di Calcio Serie B 80 Campionato di Calcio Serie B 40 50 60 70 Reti Segnate 30 40 50 60 70 Reti Subite Figura 9.37: Campionato di calcio di serie B 2007-08. Diagramma di dispersione del numero di reti segnate (subite) e del punteggio finale (*: centroide). lineare. I valori sono sX,Z ' 154.8, rX,Z ' 0.842. Risultato opposto nel caso delle reti subite; si ricava sY,Z ' −176.4, rY,Z ' −0.879. 9.2 Combinazioni lineari Le combinazioni lineari sono particolari trasformazioni di distribuzioni di p > 1 variabili numeriche che generalizzano le familiari nozioni di somma, differenza e media. Si consideri, ad esempio, la spesa mensile di un campione di famiglie ripartita in p capitoli (abbigliamento, alimentazione, casa, trasporti, ecc.). La spesa mensile totale ST OT è la somma delle spese imputate ai singoli capitoli, cioè ST OT = S1 + . . . + Sj + . . . + Sp , in cui Sj è la spesa del capitolo j-esimo, j = 1, . . . , p. La trasformazione che viene operata sui dati perde il dettaglio della composizione della spesa familiare mantenendone solo il valore complessivo. Un altro esempio è il calcolo del saldo naturale annuo V (t) della popolazione residente nei comuni, definito come differenza tra i tassi di natalità N (t) e di mortalità M (t). Esso è definito dalla trasformazione V (t) = N (t) − M (t) che riassume la distribuzione bivariata (N (t), M (t)) mediante il saldo, positivo o negativo, dei due contributi. È ancora una combinazione lineare il voto medio degli esami. Se indichiamo con Vj il voto dell’esame j-esimo, j = 1, . . . , p, il 122 CORRELAZIONE LINEARE voto medio VM è VM = (V1 + . . . + Vj + . . . + Vp )/p. Non si deve confondere questa operazione, che definisce una nuova variabile, VM , sintesi delle variabili V1 , . . . , Vp , col calcolo del voto medio campionario che descrive la posizione delle singole variabili, siano esse i voti di partenza V1 , . . . , V p o V M . Gli esempi presentati sono casi particolari di una classe di trasformazioni, le combinazioni lineari, la cui espressione generale è Y = a 1 X1 + . . . + a j Xj + . . . + a p Xp = p X a j Xj . j=1 Qui Xj , j = 1, . . . , p, sono p variabili numeriche la cui distribuzione congiunta è descritta dalla funzione di frequenza o di densità congiunta, a seconda che le variabili siano discrete o continue; aj , j = 1, . . . , p, sono i coefficienti numerici che definiscono la specifica combinazione e Y è il risultato della trasformazione. Nel caso della somma di due variabili Y = X1 + X2 , a1 = a2 = 1; nel caso della differenza Y = X1 − X2 , a1 = 1 e a2 = −1; nel caso della media Y = (X1 + X2 )/2, a1 = a2 = 1/2. Lo studio delle combinazioni lineari è agevolato da un importante teorema che ne descrive la media e la varianza. Il teorema viene enunciato per combinazioni lineari di p = 2 variabili. Teorema 31 (Media e varianza delle combinazioni lineari) Si consideri una coppia di variabili numeriche X1 , X2 con funzione di frequenza o di densità congiunta fX1 ,X2 e si indichi con Y = a1 X1 + a2 X2 una loro combinazione lineare. i. Se le medie di X1 e X2 sono x1 e x2 , la media y di Y è la combinazione lineare di x1 e x2 y = a 1 x1 + a 2 x 2 . ii. Se le varianze di X1 e X2 sono s21 ed s22 e la covarianza è s12 , la varianza s2Y di Y è s2Y = a21 s21 + a22 s22 + 2a1 a2 s12 . Dimostrazione. i. Supponiamo, senza perdita di generalità che i dati siano un campione di n osservazioni congiunte di X1 , X2 (x11 , x12 ), . . . , (xi1 , xi2 ), . . . , (xn1 , xn2 ). 123 9.2. COMBINAZIONI LINEARI In tal caso il dato i-esimo di Y è yi = a1 xi1 + a2 xi2 , i = 1, . . . , n. Usando la definizione di media y = n−1 n X yi = n−1 i=1 = a1 (n−1 n X (a1 xi1 + a2 xi2 ) i=1 n X xi1 ) + a2 (n−1 i=1 n X xi2 ) i=1 = a 1 x 1 + a 2 x2 . ii. Usando la definizione di varianza s2Y = n−1 n X i=1 = a21 (n−1 (yi − y)2 = n−1 n X i=1 + 2a1 a2 (n−1 = a21 s21 + n X i=1 (a1 (xi1 − x1 ) + a2 (xi2 − x2 ))2 (xi1 − x1 )2 ) + a22 (n−1 n X i=1 a22 s22 + n X i=1 (xi2 − x2 )2 ) (xi1 − x1 )(xi2 − x2 )) 2a1 a2 s12 . Il teorema precedente fornisce come casi particolari media e varianza della somma, della differenza e della media. Corollario 32 (Media e varianza di somma, differenza e media) Nelle stesse ipotesi del Teorema 31 i. M (X1 + X2 ) = M (X1 ) + M (X2 ), V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) + 2Cov(X1 , X2 ). ii. M (X1 − X2 ) = M (X1 ) − M (X2 ); V ar(X1 − X2 ) = V ar(X1 ) + V ar(X2 ) − 2Cov(X1 , X2 ). iii. M ((X1 + X2 )/2) = (M (X1 ) + M (X2 ))/2; V ar((X1 + X2 )/2) = V ar(X1 )/4 + V ar(X2 )/4 + Cov(X1 , X2 )/2. 124 CORRELAZIONE LINEARE Esempio 71 (Campionato di calcio) Riprendiamo ancora dalla Tabella 9.35 il numero di reti segnate (X) e subite (Y ) dalle 22 squadre del campionato di Pn calcio di serie B nella stagione 2007-08. Dalle statistiche di sintesi x = i i=1 Pn Pn Pn Pn 2 2 y = 1189, x = 66977, y = 67495, x y = 62495 si i i i i=1 i=1 i i=1 i i=1 ricava x = y =' 54.05, sX ' 11.11, sY ' 12.13 e sX,Y ' −80.23. Pertanto il coefficiente di correlazione lineare rX,Y è approssimativamente uguale a −0.60. La differenza tra le reti segnate e subite Z = X − Y è un indicatore riassuntivo della bravura di una squadra. Nel nostro esempio il Corollario 32 fornisce z = x − y = 0, s2Z = s2X + s2Y − 2sX,Y = 431, sZ ' 20.76. La distribuzione di Z si ricava facilmente dai dati della Tabella 9.35 (vedi il ramo-foglia della Tabella 9.36.) n = 22 2| si legge 29 P9 n xi = 0 Pi=1 n 2 i=1 xi = 9482 -2 -1 -0 0 1 2 3 4 97421 7621 8754 7 5799 29 4 1 Tabella 9.36: Ramo-foglia della differenza reti nella stagione 2007/08 del campionato di calcio di serie B. 9.3 Proprietà della covarianza Alcune proprietà della covarianza, come la simmetria sX,Y = MX,Y ((X − xn )(Y − y n )) = MY,X ((Y − y n )(X − xn )) = sY,X e la relazione con la varianza sX,X = s2X , sY,Y = s2Y , sono conseguenze immediate della definizione. Esse ci autorizzano a disporre varianze e covarianze della distribuzione bivariata di (X, Y ) in una matrice 125 9.3. PROPRIETÀ DELLA COVARIANZA quadrata simmetrica, detta matrice di varianze e covarianze (o di covarianza) 2 sX.X sX,Y sX sX,Y S= ≡ sY,X sY,Y sX,Y s2Y i cui elementi diagonali sono le varianze delle distribuzioni marginali. Dividendo gli elementi di questa matrice per le deviazioni standard delle distribuzioni marginali si ottiene la matrice di correlazione 1 rX,Y R= rY,X 1 i cui elementi diagonali sono pari a 1. Il teorema seguente descrive come reagisce la covarianza alle trasformazioni lineari64 . Teorema 33 (Covarianza delle trasformazioni lineari) Nelle stesse ipotesi del Teorema 31, se U = a1 + b1 X e V = a2 + b2 Y sU,V = b1 b2 sX,Y , rU,V = segno(b1 )segno(b2 )rX,Y . Dimostrazione. Usando la definizione di covarianza sU,V = n−1 = n−1 n X i=1 n X i=1 (ui − un )(vi − v n ) (a1 + b1 xi − a1 − b1 xn )(a2 + b2 yi − a2 − b2 y n ) = b1 b2 n−1 n X i=1 (xi − xn )(yi − y n ) = b1 b2 sX,Y . La dimostrazione della seconda parte del teorema è immediata perchè s U =| b1 | sX , sV =| b2 | sY e bi =| bi | segno(bi ), i = 1, 2. Mentre la covarianza dipende sia dal valore assoluto che dal segno dei coefficienti di scala b1 e b2 delle trasformazioni lineari, il coefficiente di correlazione dipende solo dal segno. Se b1 e b2 sono concordi, rXe ,Ye = rX,Y , altrimenti rX, e Y e = −rX,Y . La proprietà più importante della covarianza riguarda il suo valore massimo. Per ogni distribuzione bivariata (X, Y ), il quadrato della covarianza non può superare il prodotto delle varianze delle distribuzioni marginali. Il risultato 64 Per ogni numero reale x, la funzione segno(x) è −1, segno(x) = 0, 1, definita come segue x < 0, x = 0, x > 0. 126 CORRELAZIONE LINEARE è una conseguenza della disuguaglianza di Cauchy-Schwarz65. Nel seguente teorema ne diamo una dimostrazione basata sulle proprietà delle combinazioni lineari. Teorema 34 (Valore massimo della covarianza) Per ogni distribuzione bivariata (X, Y ) con momenti secondi finiti s2X,Y ≤ s2X s2Y . Dimostrazione. La varianza della combinazione lineare Z = a1 X + a2 Y s2Z = a21 s2X + a22 s2Y + 2a1 a2 sX,Y è una funzione non negativa dei coefficienti a1 e a2 , cioè s2Z = g(a1 , a2 ) ≥ 0 per ogni valore assegnato ai due coefficienti. Se poniamo, ad esempio, a2 = 1, otteniamo g(a1 , 1) ≡ g1 (a1 ) = s2X a21 + 2sX,Y a1 + s2Y ≥ 0 per ogni valore di a1 . La precedente espressione è interpretabile come un polinomio di secondo grado nella variabile a1 , con coefficienti s2X , 2sX,Y e s2Y . Poichè il polinomio non è mai negativo e il coefficiente del termine di secondo grado s2X è positivo, il discriminante s2X,Y − s2X s2Y dev’essere nullo o negativo. Come conseguenza immediata del teorema precedente, il coefficiente di correlazione lineare varia nell’intervallo chiuso [−1, 1]. Corollario 35 (Variazione del coefficiente di correlazione lineare) −1 ≤ rX,Y ≤ 1 Dimostrazione. La proprietà s2X,Y ≤ s2X s2Y equivale a | sX,Y |≤ sX sY . Dividendo membro a membro questa disuguaglianza per sX sY otteniamo | rX,Y |= | sX,Y | sX sY ≤ = 1. sX sY sX sY Si può dimostrare che l’estremo superiore della covarianza viene raggiunto se e solo se Y = a + bX, in cui a è un numero reale qualsiasi e il segno di b coincide col segno della covarianza. 65 Per ogni coppia di vettori x = (x1 , . . . , xn )T , y = (y1 , . . . , yn )T ( n X i=1 xi y i ) 2 ≤ ( n X i=1 x2i )( n X i=1 yi2 ). 127 9.4. RETTA DEI MINIMI QUADRATI 9.4 Retta dei minimi quadrati Consideriamo una distribuzione congiunta (X, Y ) in cui X svolge il ruolo di variabile esplicativa per Y . Come abbiamo visto nel Capitolo 8, la funzione di regressione y|x descrive l’andamento delle medie delle distribuzioni subordinate Y |X = x al variare di x permettendo di esplorare le caratteristiche della relazione che lega Y a X. Per sua natura, la funzione di regressione è una funzione empirica definita soltanto per i valori di X osservati nello specifico campione mentre sarebbe desiderabile disporre di una funzione definita su tutto l’intervallo di variazione di X. Questo consentirebbe, ad esempio, di prevedere il valore di Y associato a modalità di X non osservate nel campione. Il problema viene risolto approssimando la funzione di regressione mediante opportune funzioni analitiche, la più importante delle quali è la polinomiale di grado q ≥ 0 ybq (x; a0 , a1 , . . . , aq ) = a0 + a1 x + a2 x2 + . . . + aq xq . I coefficienti a0 , a1 , . . . , aq sono determinati in modo da ottimizzare l’accostamento della polinomiale ai dati. Come per la funzione di regressione, il criterio più usato è quello dei minimi quadrati. Per la generica coppia (xi , yi ), il valore teorico di Y , basato sulla polinomiale, è ybi ≡ ybq (xi ; a0 , a1 , . . . , aq ) = a0 + a1 xi + a2 x2i + . . . + aq xqi e l’errore (o residuo) rispetto al valore osservato yi è ei = yi − ybi = yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ). L’errore quadratico medio corrispondente ad una particolare scelta di q e a 0 , a1 , . . . , aq è L2 (a0 , a1 , . . . , aq ) = n−1 n X e2i i=1 = n−1 n X i=1 (yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ))2 . Nel caso di una distribuzione di frequenze (X, Y, fX,Y ), gli errori devono essere ponderati con le frequenze congiunte e l’espressione di L2 è L2 (a0 , a1 , . . . , aq ) = H X K X h=1 k=1 (Yk − (a0 + a1 Xh + a2 Xh2 + . . . + aq Xhq ))2 fhk . I valori ottimali dei coefficienti, indicati con a∗0 , a∗1 , . . . , a∗q , sono quelli che minimizzano la funzione L2 : (a∗0 , a∗1 , . . . , a∗q ) = arg min a0 ,a1 ,...,aq L2 (a0 , a1 , . . . , aq ). La retta dei minimi quadrati è la polinomiale d’ordine q = 1 e costituisce l’approssimazione lineare ottimale (secondo il criterio dei minimi quadrati) della 128 CORRELAZIONE LINEARE funzione di regressione. I suoi coefficienti sono univocamente determinati dal vettore delle medie e dalla matrice di varianze e covarianze della distribuzione congiunta. Teorema 36 (Coefficienti della retta dei minimi quadrati) Una distribuzione bivariata (X, Y, fX,Y ) con V ar(X) > 0 ammette un’unica approssimazione lineare ottimale della funzione di regressione. I suoi coefficienti sono a∗0 = y − a∗1 x, sX,Y sY . a∗1 = 2 = rX,Y sX sX P Dimostrazione. La funzione L2 (a0 , a1 ) = n−1 ni=1 (yi − a0 − a1 xi )2 è una funzione derivabile di a0 e a1 e le sue derivate parziali rispetto ad a0 e a1 sono n X ∂ L2 (a0 , a1 ) = −2n−1 (yi − a0 − a1 xi ), ∂a0 i=1 n X ∂ L2 (a0 , a1 ) = −2n−1 (yi − a0 − a1 xi )xi . ∂a1 i=1 I valori ottimali dei coefficienti sono le soluzioni del sistema formato dalle precedenti espressioni, uguagliate a zero: Pn n−1P i=1 (yi − a0 − a1 xi ) = 0, (A1) n −1 n i=1 (yi − a0 − a1 xi )xi = 0. Isolando a0 nella prima equazione si ricava a0 = y − a1 x. Sostituendo tale espressione nella seconda equazione otteniamo n−1 n X i=1 cioè a1 n−1 ((yi − y) − a1 (xi − x))xi = 0, n X i=1 (xi − x)xi = n−1 n X i=1 (yi − y)xi . P P È facile verificare che n−1 ni=1 (xi − x)xi = s2X e n−1 ni=1 (yi − y)xi = sX,Y . Pertanto, essendo per ipotesi s2X > 0, a1 = sX,Y sY = rX,Y . s2X sX Per completare la dimostrazione si deve provare che la matrice hessiana delle derivate seconde di L2 (a0 , a1 ), valutate nella soluzione del sistema (A1), è 129 9.4. RETTA DEI MINIMI QUADRATI definita positiva. Poichè ∂2 ∂ L2 (a0 , a1 ) = ∂a20 ∂a0 ∂ ∂2 L2 (a0 , a1 ) = ∂a21 ∂a1 2 ( −2n ( −1 −2n−1 2 n X i=1 n X i=1 (yi − a0 − a1 xi ) ) (yi − a0 − a1 xi )xi ∂ ∂ ∂ L2 (a0 , a1 ) = L2 (a0 , a1 ) = ∂a0 ∂a1 ∂a1 ∂a0 ∂a1 ( −2n = 2x, −1 = 2, ) = 2n−1 n X x2i , i=1 n X i=1 (yi − a0 − a1 xi ) ) la matrice hessiana è H(a0 , a1 ) ≡ H = 2 1 Pxn x n−1 i=1 x2i . Essa è definita positiva perchè h11 = 2 > 0 e det H = 2(n−1 2s2X > 0. Pn i=1 x2i − x2 ) = La retta dei minimi quadrati passa per il centroide (x, y) della distribuzione e per i punti di coordinate(x ± sX , y ± rX,Y sY ). Questa proprietà è utile per visualizzarne l’andamento sul diagramma di dispersione. Esempio 72 (Caratteristiche delle autovetture) Dai dati della Tabella 7.23 ricaviamo la retta dei minimi quadrati delle emissioni di CO2 (Y ) in funzione della cilindrata (X). Le statistiche riassuntive sono n X i=1 n X xi = 11·415, n X x2i = 18· 055·441, i=1 n X yi = 1· 108, i=1 n X yi2 = 157·186, i=1 xi yi = 1· 650·757, i=1 da cui si ricava x = 1· 426.875, sX ' 470.062, y = 138.5, sY ' 21.587, sX,Y ' 8· 722.438, rX,Y ' 0.860. Pertanto i coefficienti della retta sono a∗1 = sX,Y ' 0.0394756, s2X a∗0 = y − a∗1 x ' 82.1733. Per la Fiat Punto 1.2 8V Bipower x = 1242 e y = 119. In base all’approssimazione lineare il valore previsto delle emissioni di CO2 è yb(1242) ' 131.202 con un errore rispetto al valore osservato pari a y − yb(1242) = 119 − 131.202 ' −12.202. 130 CORRELAZIONE LINEARE L’interpretazione di quest’ultimo risultato viene approfondita nella sezione seguente. Per il momento ci limitiamo ad osservare che la retta dei minimi quadrati permette di ottenere previsioni per ogni valore dell’intervallo di variazione di X 66 , anche diverso dai dati osservati. Ad esempio, il valore previsto delle emissioni di CO2 per una cilindrata x = 1000 è yb(1000) ' 121.649. 9.5 Proprietà della retta dei minimi quadrati L’interpretazione della retta dei minimi quadrati è simile alla funzione di regressione, col vantaggio di essere una funzione continua, definita su tutto l’intervallo di variazione della variabile esplicativa. Come abbiamo visto nell’Esempio 72, per una fissata coppia di valori (x0 , y0 ), yb(x0 ) = a∗0 + a∗1 x0 ' y|x0 rappresenta l’approssimazione lineare della media della distribuzione subordinata Y |X = x0 , mentre e0 = y0 − yb(x0 ) misura la deviazione del dato osservato da tale approssimazione. La qualità statistica della retta dei minimi quadrati dipende dalle proprietà di questi errori. Nel Teorema 38 ricaviamo media e deviazione standard degli errori della retta dei minimi quadrati. Prima però presentiamo un lemma preliminare riguardante i valori teorici. Lemma 37 (Proprietà dei valori teorici) Sotto le ipotesi del Teorema 36 i. M (Yb ) = y; 2 ii. V ar(Yb ) = rX,Y s2Y ; 2 iii. Cov(Y, Yb ) = V ar(Yb ) = rX,Y s2Y . Dimostrazione. I primi due risultati sono immediati perchè Yb = a∗0 + = y + a∗1 (X − x) è una trasformazione lineare di X, pertanto a∗1 X M (Yb ) = M (y + a∗1 (X − x) = y + a∗1 M (X − x) = y, V ar(Yb ) = V ar(y + a∗ (X − x)) 1 2 = (a∗1 )2 V ar(X) = rX,Y s2Y . Il terzo risultato è una conseguenza della definizione di covarianza: Cov(Y, Yb ) = M ((Y − y)(Yb − y)) = M (a∗1 (X − x)(Y − y)) 2 = a∗1 sX,Y = rX,Y s2Y . Teorema 38 (Proprietà dei residui) Sotto le ipotesi del Teorema 36 66 Previsioni corrispondenti a valori esterni all’intervallo di variazione della variabile esplicativa sono ammissibili in linea di principio ma la loro accuratezza dipende dalla linearità della funzione di regressione sull’intera retta reale, ipotesi difficilmente verificabile in pratica. 9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI 131 i. M (e) = 0; 2 ii. V ar(e) = (1 − rX,Y )s2Y . Dimostrazione. Osserviamo che e = Y − Yb è la differenza delle variabili Y e Yb e quindi la dimostrazione segue dalle proprietà delle combinazioni lineari (Corollario 32). Si ottiene M (e) = M (Y − Yb ) = M (Y ) − M (Yb ) =0 e V ar(e) = V ar(Y ) + V ar(Yb ) − 2Cov(Y, Yb ) 2 2 = s2Y + rX,Y s2Y − 2rX,Y s2Y 2 = (1 − rX,Y )s2Y . La retta dei minimi quadrati definisce una scomposizione della varianza di Y simile alla funzione di regressione. Teorema 39 (Scomposizione della varianza) Sotto le ipotesi del Teorema 36 V ar(Y ) = V ar(Yb ) + V ar(e). Dimostrazione. Partiamo dall’identità (Y − y)2 = (Y − Yb )2 + (Yb − y)2 + 2(Y − Yb )(Yb − y), in cui Y − Yb = e. Usando la definizione di varianza, V ar(Y ) = M (Y − y)2 = M (Y − Yb )2 + M (Yb − y)2 + 2M ((Y − Yb )(Yb − y)) = V ar(e) + V ar(Yb ) + 2Cov(e, Yb ). Si può inoltre dimostrare che Cov(e, Yb ) = 0. In base al sistema (A1) del Teorema 36 Pn n−1P i=1 (yi − a∗0 − a∗1 xi ) = 0, n n−1 i=1 (yi − a∗0 − a∗1 xi )xi = 0. Poichè yi − a∗0 − a∗1 xi = yi − ybi = ei , la prima equazione equivale a M (e) = 0 e la seconda equivale a M (eX) = Cov(e, X) = 0. Moltiplicando ambo i membri della prima equazione per a∗0 ,e quelli della seconda per a∗1 e sommando membro a membro i risultati otteniamo l’equazione n −1 n X i=1 (yi − a∗0 − a∗1 xi )(a∗0 + a∗1 xi ) = 0 132 CORRELAZIONE LINEARE cioè M (eYb ) = Cov(e, Yb ) = 0. I Teoremi 38 e 39 completano il quadro interpretativo della retta dei mib nimi quadrati. q Gli errori e = Y − Y hanno media nulla e deviazione stan2 dard se = 1 − rX,Y sY . Sotto l’ipotesi di linearità della funzione di regressione, la previsione del valore di Y corrispondente a X = x è il valore teorico yb(x) = a∗0 + a∗1 x ' y|x. Se le distribuzioni subordinate sono omoschedastiche, l’errore della previsione può essere valutato mediante se , la deviazione standard comune delle distribuzioni subordinate (Y − Yb )|x. Nel caso univariato, l’intervallo y ± sY contiene le osservazioni di Y centrali, ad una distanza dalla media non superiore alla deviazione standard sY . In modo analogo, al variare di x, l’intervallo yb(x)±se definisce una banda centrata sulla retta dei minimi quadrati contenente i dati y ad una distanza dalla previsione non superiore alla deviazione standard se . I risultati della Sezione 8.4 indicano che, se la distribuzione congiunta delle variabili è normale, circa il 68% degli errori rientra nell’intervallo (−se , se ) e meno dello 0.5% è esterno all’intervallo (−3se , 3se ) 2 La deviazione standard degli errori se è una funzione decrescente di rX,Y , il 2 quadrato del coefficiente di correlazione lineare. Poichè 0 ≤ rX,Y ≤ 1, 0 ≤ se ≤ sY e si verifica facilmente che 2 se = 0 ⇔ rX,Y = 1 ⇔ rX,Y = ±1 (massima dipendenza lineare), se = sY ⇔ rX,Y = 0 (indipendenza lineare). In base al teorema di scomposizione della varianza, s2Y = V ar(Yb ) + V ar(e) 2 2 = rX,Y s2Y + (1 − rX,Y )s2Y , 2 pertanto V ar(Yb )/s2Y = rX,Y è interpretabile come la frazione della varianza di Y spiegata dalla retta dei minimi quadrati, cioè in definitiva dalla relazione 2 lineare con X, mentre V ar(e)/s2Y = 1 − rX,Y è interpretabile come la frazione non spiegata, attribuibile a fattori esogeni. In questa particolare accezione, il quadrato del coefficiente di correlazione lineare prende il nome di coefficiente di determinazione lineare e viene indicato col simbolo R 2 . Esso ha un significato analogo al coefficiente ηY2 |X del Capitolo 8 e risulta sempre n o 2 R2 ≤ min ηY2 |X , ηX|Y perchè R2 misura l’accostamento ai dati della funzione lineare ottimale, mentre 2 misurano l’accostamento ai dati delle funzioni di regressione, che ηY2 |X e ηX|Y possono essere lineari o non lineari. 9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI 133 150 140 130 * 110 120 Emissioni di CO2 160 170 Retta dei Minimi Quadrati 1000 1500 2000 Cilindrata Figura 9.38: Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). Esempio 73 (Caratteristiche delle autovetture) La Figura 9.38 mostra il diagramma di dispersione della cilindrata e delle emissioni di CO 2 del campione di automobili della Tabella 7.23, insieme col centroide, la retta dei minimi quadrati e la banda di dispersione yb(x) ± se . I segmenti verticali misurano gli errori (in valore assoluto) delle previsioni yb(xi ) rispetto ai valori osservati yi , i = 1, ..., n. La Tabella 9.37 riporta la scomposizione della varianza. 2 Dall’Esempio 72 risulta s2Y = 466 e rX,Y ' 0.860, pertanto rX,Y ' 0.739, 2 2 2 2 2 2 sYb = rX,Y sY ' 344.32 e se = sY − sYb ' 121.68. Il valore di R2 indica che circa il 74% della varianza delle emissioni di CO2 è spiegata dal modello di regressione lineare basato sulla cilindrata. La deviazione standard s e ' 11.031 è usata per valutare l’entità degli errori e individuare casi anomali. L’errore e ' −12.202 della Fiat Punto, in valore assoluto, è di poco superiore a s e ed appare dunque in linea con le ipotesi del modello. 134 CORRELAZIONE LINEARE Variabilità dovuta a Regressione Residua Totale Varianza % s2Yb ' 344.32 s2e ' 121.68 s2Y = 466 R2 ' 74% 1 − R2 ' 26% 100% Tabella 9.37: Scomposizione della varianza per la regressione lineare delle emissioni di CO2 sulla cilindrata dell’Esempio 73. La retta dei minimi quadrati è largamente usata nell’analisi di dati numerici bivariati, anche per la semplicit del modello. A ben vedere, un’unica statistica – il coefficiente di correlazione lineare rX,Y – ne determina le caratteristiche. Infatti rX,Y misura l’intensità del legame lineare tra le variabili esplicativa e dipendente. Ma esso appare anche nella formula del coefficiente angolare della retta dei minimi quadrati a∗1 = rX,Y sY /sX 67 e il suo quadrato, l’indice R2 , è usato per valutare l’accostamento del modello ai dati campionari. Non bisogna però dimenticare che le stime ottenute col metodo dei minimi quadrati possono essere facilmente distorte da dati anomali. Nelle applicazioni è dunque opportuna una verifica accurata, basata sulle proprietà dei residui, come quella proposta nell’esempio seguente. Esempio 74 (Campionato di calcio) La differenza reti di una squadra è considerata un indicatore del risultato del campionato. Dai dati della Tabella 9.35, le statistiche riassuntive della differenza reti (X) e del punteggio finale(Y ) per le 22 squadre di serie B sono n X i=1 xi = 0, n X x2i = 9482, i=1 n X n X i=1 yi = 1243, n X yi2 = 76257, i=1 xi yi = 7286. i=1 Pertanto rX,Y ' 0.964 e i coefficienti della retta dei minimi quadrati sono a∗0 = 56.5, a∗1 ' 0.768403. Poichè R2 ' 0.93, il grado di accostamento del modello ai dati è molto buono: oltre il 90% della varianza del punteggio finale è spiegata dalla differenza reti. Dalla Figura 9.39 la copertura della banda yb(x) ± se non varia visibilmente nell’intervallo di variazione di X, confermando l’ipotesi di omoschedasticit delle distribuzioni subordinate Y |x. Un’analisi grafica dettagliata degli errori dei dati rispetto al modello lineare è presentata nella Figura 9.40. A sinistra appare il diagramma di dispersione dei valori teorici yb(xi ) e degli errori standardizzati (yi − yb(xi )/se , i = 1, ..., n. In accordo col Teorema 39, valori teorici ed errori 67 Se le variabili sono standardizzate, sY = sX = 1 e a∗1 = rX,Y . 135 9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI 60 50 * 30 40 Punteggio Finale 70 80 Retta dei Minimi Quadrati −30 −20 −10 0 10 20 30 40 Differenza Reti Figura 9.39: Campionato di calcio di serie B. Diagramma di dispersione della differenza reti e del punteggio finale(*: centroide; retta dei minimi quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). sono linearmente indipendenti. Inoltre, non emergono relazioni non lineari nè raggruppamenti delle unità. Il grafico di destra 68 serve a controllare se la distribuzione degli errori sia approssimabile con una distribuzione gaussiana. Le ordinate dei punti sono le statistiche ordinate degli errori standardizzati mentre le ascisse sono i corrispondenti valori della normale standard. Se l’ipotesi di normalità è verificata, i punti tendono a disporsi sulla bisettrice del primo e terzo quadrante, o in prossimità di essa. Nel nostro esempio non si rilevano deviazioni di rilievo da tale ipotesi. 68 Noto come Q-Q plot 136 CORRELAZIONE LINEARE 2 1 0 −3 −3 −2 −1 Residui Standardizzati 1 −1 0 * −2 Residui Standardizzati 2 3 Analisi dei Residui 3 Analisi dei Residui 40 50 60 70 Punteggio Finale (Valore Teorico) 80 90 −3 −2 −1 0 1 2 Quantili Teorici Normale Standard Figura 9.40: Campionato di calcio di serie B. Diagramma di dispersione dei valori teorici e dei residui standardizzati (a sinistra); Q-Q plot dei residui standardizzati (a destra). 3