...

TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di

by user

on
Category: Documents
49

views

Report

Comments

Transcript

TRASFORMARE DATI IN INFORMAZIONE Appunti del Corso di
TRASFORMARE DATI IN INFORMAZIONE
Appunti del Corso di Statistica I
Mario Romanazzi
ii
Indice
Dai dati alla distribuzione
1.1 Variabili statistiche . . . .
1.2 Popolazione e campioni .
1.3 Perchè casualizzare . . . .
1.4 Calcolo statistico . . . . .
1.5 Distribuzioni di frequenze
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
6
7
7
Distribuzioni numeriche
11
2.1 Presentazioni ramo-foglie . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Tipologie distributive . . . . . . . . . . . . . . . . . . . . . . . . 18
Statistiche ordinate e quantili
3.1 Statistiche ordinate . . . . . . .
3.2 Quantili . . . . . . . . . . . . .
3.3 Diagrammi scatola-baffi . . . .
3.4 Funzioni di ripartizione . . . .
3.5 Dal campione alla popolazione
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
28
32
38
Media
4.1
4.2
4.3
4.4
4.5
4.6
4.7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
44
45
48
51
56
58
Distribuzione gaussiana
5.1 La curva gaussiana . . . . . . . .
5.2 La famiglia gaussiana . . . . . .
5.3 Aree sottese alla curva gaussiana
5.4 Applicazioni . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
69
70
73
e deviazione standard
Media . . . . . . . . . .
Momenti . . . . . . . . .
Deviazione standard . .
Minimi quadrati . . . .
Trasformazioni . . . . .
Scala standard . . . . .
Unità divise in gruppi .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
iv
INDICE
Confrontare distribuzioni
79
6.1 Ordinamento in distribuzione . . . . . . . . . . . . . . . . . . . . 80
6.2 Curve di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . 84
Relazioni tra variabili
7.1 Distribuzioni congiunte . . . .
7.2 Distribuzioni marginali . . . .
7.3 Distribuzioni subordinate . .
7.4 Dipendenza in senso statistico
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
88
91
92
99
Regressione e correlazione
8.1 Funzioni di regressione . . . . . . . . .
8.2 Proprietà della funzione di regressione
8.3 Correlazione statistica . . . . . . . . .
8.4 Distribuzione gaussiana bivariata . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
103
105
109
111
. . . . . .
. . . . . .
. . . . . .
. . . . . .
quadrati
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
117
121
124
127
130
.
.
.
.
Correlazione lineare
9.1 Covarianza . . . . . . . . . . .
9.2 Combinazioni lineari . . . . . .
9.3 Proprietà della covarianza . . .
9.4 Retta dei minimi quadrati . . .
9.5 Proprietà della retta dei minimi
.
.
.
.
.
.
.
.
.
.
.
.
Elenco delle tabelle
1.1
Nazionalità dei premi Nobel per la Fisica. . . . . . . . . . . . . .
2.2
Numero di componenti delle famiglie, censimenti 1961-2001 (fonte:
ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sviluppo costiero e superficie delle regioni. . . . . . . . . . . . . .
Ramo-foglia dello sviluppo costiero delle regioni. . . . . . . . . .
Ramo-foglia della magnitudo dei terremoti. . . . . . . . . . . . .
Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti successivi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Età dei premi Nobel per la Fisica (a destra) e la Letteratura (a
sinistra), 1901-2006. . . . . . . . . . . . . . . . . . . . . . . . . .
SAU delle aziende agricole, 2000 e 2005 (fonte: ISTAT). . . . . .
2.3
2.4
2.5
2.6
2.7
2.8
Età dei presidenti della Repubblica Italiana e degli Stati Uniti,
1945-2006. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Decili del reddito familiare, 2004 (fonte: Banca d’Italia). . . . . .
3.11 Ramo-foglia dell’intervallo di tempo (giorni) tra due pagamenti
successivi con carta di credito. . . . . . . . . . . . . . . . . . . .
8
12
13
14
14
15
16
17
3.9
4.12 Scostamenti delle età dei Presidenti dalla media (a sinistra Presidenti italiani, a destra americani). . . . . . . . . . . . . . . . . .
4.13 Scostamenti delle età dei premi Nobel per la Fisica dalla media. .
4.14 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. .
4.15 Temperature medie giornaliere (◦ C) a New York, gennaio 2006. .
4.16 Statistiche riassuntive delle temperature medie giornaliere a New
York, gennaio 2006. . . . . . . . . . . . . . . . . . . . . . . . . .
4.17 Statistiche riassuntive del reddito delle famiglie italiane, per titolo
di studio del capofamiglia, 2004 (fonte: Banca d’Italia). . . . . .
4.18 Statistiche riassuntive dell’età dei docenti di Statistica, per qualifica, 2005 (fonte: Ministero per l’Università e la Ricerca). . . . .
4.19 Statistiche riassuntive del primo numero estratto sulle ruote di
Napoli, Roma e Venezia, 2006. . . . . . . . . . . . . . . . . . . .
5.20 Decili positivi della normale standard. . . . . . . . . . . . . . . .
v
24
27
30
46
48
54
54
56
60
62
63
72
vi
ELENCO DELLE TABELLE
5.21 Aree di intervalli centrati sulla media di N (µ, σ). . . . . . . . . .
5.22 Temperatura corporea. . . . . . . . . . . . . . . . . . . . . . . . .
73
74
7.23 Caratteristiche di alcuni modelli di autovetture . . . . . . . . . . 88
7.24 Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03. . 89
7.25 Famiglie italiane per classi quintiliche di reddito 2002 e 2004
(fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . 90
7.26 Trasferimenti di residenza interregionali, per area di origine e
destinazione, 2002 (fonte: ISTAT). . . . . . . . . . . . . . . . . . 91
7.27 Popolazione con 18 anni e più per genere, età e indice di massa
corporea (IMC), 1999 (fonte: ISTAT). . . . . . . . . . . . . . . . 93
7.28 Immatricolati a Ca’ Foscari. Distribuzioni subordinate della facoltà, per genere. . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.29 Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere,
per facoltà. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.30 Distribuzioni subordinate del titolo di studio del coniuge Y , per
titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia). 95
7.31 Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03.
Frequenze teoriche di indipendenza. . . . . . . . . . . . . . . . . 101
8.32 Reddito medio familiare (migliaia di euro) in funzione del numero
di percettori di reddito, 2004 (fonte: Banca d’Italia). . . . . . . . 104
8.33 Distribuzione congiunta con variabili indipendenti in media e
dipendenti in distribuzione. . . . . . . . . . . . . . . . . . . . . . 105
9.34 Bilanci familiari. Distribuzione congiunta del numero di componenti delle famiglie e del numero di figli, 2004 (fonte: Banca
d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.35 Reti segnate e subite e punteggio finale nella stagione 2007-08 del
campionato di calcio di serie A e B. . . . . . . . . . . . . . . . . .
9.36 Ramo-foglia della differenza reti nella stagione 2007/08 del campionato di calcio di serie B. . . . . . . . . . . . . . . . . . . . . .
9.37 Scomposizione della varianza per la regressione lineare delle emissioni di CO2 sulla cilindrata dell’Esempio 73. . . . . . . . . . . .
118
120
124
134
Elenco delle figure
1.1
Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia). .
9
2.2
2.3
SAU delle aziende agricole, 2005 (fonte: ISTAT). . . . . . . . . .
Numero di componenti delle famiglie, censimento 2001 (fonte:
ISTAT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tipologie distributive. . . . . . . . . . . . . . . . . . . . . . . . .
Cifre decimali di π (linea tratteggiata: approssimazione uniforme).
18
2.4
2.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
19
21
22
Reddito familiare e decili, 2004 (fonte: Banca d’Italia). . . . . . . 28
Intervallo di tempo (giorni) tra due pagamenti successivi con
carta di credito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Età dei premi Nobel per la Fisica e la Letteratura, 1901-2006. . . 31
Funzione di ripartizione della SAU delle aziende agricole, 2005. . 33
Funzione di ripartizione del numero di componenti delle famiglie,
censimento 2001 (fonte: ISTAT). . . . . . . . . . . . . . . . . . . 35
Funzione di ripartizione empirica della magnitudo dei terremoti
(terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006). 36
Età degli ordinari di Statistica, 2005 (fonte: Ministero per l’Università e la Ricerca). . . . . . . . . . . . . . . . . . . . . . . . . . 39
Lunghezza delle parole della Costituzione italiana. . . . . . . . . 39
4.14 Migliori tempi (secondi) nelle maratone maschili. . . . . . . . . .
4.15 Effetto su media e mediana della perturbazione dell’età minima
dei presidenti italiani. . . . . . . . . . . . . . . . . . . . . . . . .
4.16 Velocità (km/h) nella maratona maschile. . . . . . . . . . . . . .
4.17 Età dei docenti di Statistica, per qualifica (R: ricercatori; A:
associati; O: ordinari), anno 2005. . . . . . . . . . . . . . . . . .
4.18 Età (punteggi standard) dei docenti di Statistica, per qualifica
(R: ricercatori; A: associati; O: ordinari), anno 2005. . . . . . . .
4.19 Primo estratto sulle ruote di Napoli, Roma e Venezia (2006). . .
5.20 Curve di densità gaussiane. . . . . . . . . . . . . . . . . . . . . .
5.21 Funzione di densità e di ripartizione della normale standard (sono
evidenziati i quartili). . . . . . . . . . . . . . . . . . . . . . . . .
vii
43
45
52
57
58
63
67
71
ELENCO DELLE FIGURE
5.22 Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.23 Temperatura corporea. Approssimazione gaussiana della funzione di ripartizione e dei quantili empirici. . . . . . . . . . . . .
5.24 Teorema centrale di convergenza. Approssimazione gaussiana
della somma dei punteggi ottenuti in n lanci di un dado. . . . . .
6.25 Tempi nella maratona maschile e femminile. . . . . . . . . . . . .
6.26 Funzioni di ripartizione delle età dei premi Nobel per la Fisica e
la Letteratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.27 Funzioni di ripartizione delle età dei docenti di Statistica, per
qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.28 Curve di dispersione dei tempi nella maratona di maschi e femmine.
6.29 Curve di dispersione delle età dei docenti di Statistica, per qualifica (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.30 Bilanci familiari. Distribuzioni subordinate del titolo di studio del
coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte:
Banca d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.31 Diagramma di dispersione delle età del capofamiglia e del coniuge,
2004 (fonte: Banca d’Italia). . . . . . . . . . . . . . . . . . . . . .
7.32 Diagrammi scatola-baffi delle distribuzioni subordinate dell’età
del coniuge, per classi di età del capofamiglia, 2004 (fonte: Banca
d’Italia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.33 Numero di figli in funzione dell’età media dei coniugi, 2004 (*:
funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ± sY |x , la retta orizzontale indica la media marginale
del numero di figli; fonte: Banca d’Italia). . . . . . . . . . . . . .
8.34 Età del coniuge in funzione dell’età del capofamiglia, 2004 (*:
funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x , la retta orizzontale indica l’età media marginale
del coniuge; fonte: Banca d’Italia). . . . . . . . . . . . . . . . . .
8.35 Funzioni di densità gaussiane. . . . . . . . . . . . . . . . . . . . .
8.36 Curve di livello della densità gaussiana, con centroide e funzione
di regressione. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
75
76
77
80
81
83
85
86
96
97
98
106
110
114
115
9.37 Campionato di calcio di serie B 2007-08. Diagramma di dispersione del numero di reti segnate (subite) e del punteggio finale
(*: centroide). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.38 Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi
quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). . . . . . 133
9.39 Campionato di calcio di serie B. Diagramma di dispersione della
differenza reti e del punteggio finale(*: centroide; retta dei minimi
quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate). . . . . . 135
2
ELENCO DELLE FIGURE
9.40 Campionato di calcio di serie B. Diagramma di dispersione dei
valori teorici e dei residui standardizzati (a sinistra); Q-Q plot
dei residui standardizzati (a destra). . . . . . . . . . . . . . . . . 136
Dai dati alla distribuzione
La Statistica è una metodologia per l’analisi scientifica di fenomeni variabili. Descrivere, interpretare, prevedere fenomeni variabili sono i suoi obiettivi
principali.
Esempi familiari di fenomeni variabili sono il genere, il peso e la statura di
una persona; la marca, il colore, il chilometraggio di un’autovettura; il numero
di componenti, il numero di figli ed il reddito di una famiglia, la lunghezza
(numero di lettere) di una parola.
1.1
Variabili statistiche
Si definisce variabile statistica un fenomeno osservabile, suscettibile di presentare manifestazioni diverse, dette modalità della variabile. Cosı̀, il genere di
una persona è una variabile statistica dicotomica, le cui modalità sono femmina
e maschio. Il numero di componenti di una famiglia è una variabile statistica le
cui modalità sono i numeri naturali 1, 2, 3, ..., fino ad un valore massimo dipendente dal particolare collettivo oggetto di studio. Il peso e la statura di una
persona sono variabili statistiche le cui modalità sono numeri decimali compresi
in un intervallo limitato.
Distinguiamo le variabili qualitative, le cui modalità sono nomi o aggettivi,
da quelle quantitative, le cui modalità sono numeri. All’interno della classe delle
variabili qualitative è utile distinguere le variabili le cui modalità sono ordinabili
secondo un criterio oggettivo da quelle per le quali un tale criterio non esiste. A
loro volta, le variabili quantitative si dividono in discrete e continue, a seconda
che le modalità siano numeri naturali o numeri decimali. Il titolo di studio di
una persona è una variabile qualitativa le cui modalità — licenza elementare,
licenza media, diploma di scuola superiore, laurea — sono ordinabili. La regione (o stato estero) di nascita di un cittadino italiano è invece una variabile
qualitativa le cui modalità — Piemonte, Valle d’Aosta, ..., Sicilia, Sardegna —
non sono ordinabili. Il numero di componenti di una famiglia è una variabile discreta, mentre la superficie dell’abitazione in cui la famiglia vive è una variabile
continua. Questa nomenclatura è importante perchè la metodologia di analisi
dei dati dipende dalla natura delle variabili.
Non si devono confondere le variabili con le unità di rilevazione, cioè le
entità su cui le variabili d’interesse sono osservate. Supponiamo di rilevare il
3
4
DAI DATI ALLA DISTRIBUZIONE
numero di pagine dei manoscritti custoditi nella Biblioteca Marciana di Venezia:
le unità di rilevazione sono i manoscritti, la variabile è il numero di pagine. Se
volessimo rilevare la durata degli studi universitari (laurea triennale), le unità di
rilevazione sono i laureati triennali, la variabile è la durata degli studi, definita
come misura dell’intervallo di tempo compreso tra data di immatricolazione e
data di laurea.
Un’analisi statistica si dice univariata o multivariata a seconda che sulle
unità di rilevazione si osservi una sola variabile o più di una. Lo scrutinio delle
schede elettorali è una rilevazione univariata che classifica le schede in base al
voto espresso da ciascun elettore: schede valide, ripartite secondo il partito (o
la coalizione), schede bianche e schede nulle. Sarebbe invece un’indagine multivariata un questionario compilato dai laureati triennali con quesiti rigurdanti il
genere, l’anno di nascita, il comune di residenza, il diploma di scuola superiore, il voto di diploma, il corso di laurea ed il punteggio di laurea. Indagini di
questo tipo permettono di studiare la rete di associazioni e interdipendenze tra
le diverse variabili.
Nelle indagini multivariate si distinguono le variabili d’interesse principale,
alle quali si riferiscono gli obiettivi della ricerca, dalle variabili di stratificazione,
spesso qualitative, che aggiungono contesto al fenomeno indagato e possono
contribuire alla sua interpretazione. Il genere è una tipica variabile di stratificazione nelle indagini sulle caratteristiche fisiche (peso, statura) o sulle condizioni professionali delle persone. In Italia, l’area geografica di residenza è ancora un’importante variabile di stratificazione nelle indagini sulle caratteristiche
socio-demografiche e reddituali delle famiglie.
1.2
Popolazione e campioni
La Statistica non si occupa solo dell’analisi dei dati dopo la loro rilevazione.
Essa svolge un ruolo importante anche prima, nella definizione di procedure di
rilevazione che permettano di ricavare dai dati conclusioni significative. L’uso
di metodi di casualizzazione nelle operazioni che conducono alla selezione delle
unità di rilevazione è una caratteristica cruciale della Statistica.
Dopo che l’obiettivo di un’indagine è stato stabilito e le variabili sono state
specificate, viene definita la popolazione di riferimento, cioè l’insieme delle unità
sulle quali le variabili d’interesse sono osservabili. Consideriamo, ad esempio,
un’indagine sulle caratteristiche professionali dei laureati a tre anni dal conseguimento del titolo. Le variabili d’interesse comprendono caratteristiche anagrafiche (genere, età, comune di residenza, stato civile), curriculum scolastico (corso di laurea, data e voto di laurea), posizione lavorativa corrente. Se
l’indagine è riferita al 1/7/2007, la popolazione di riferimento è costituita da
tutti i laureati nell’anno accademico 2003/04.
La rilevazione dei dati è completa se riguarda tutte le unità della popolazione,
campionaria se riguarda una parte della popolazione. L’esempio tipico di rilevazione completa è il censimento della popolazione svolto con cadenza decennale.
Le rilevazioni campionarie sono meno costose e più rapide di quelle complete.
1.2. POPOLAZIONE E CAMPIONI
5
Esse però richiedono una pianificazione accurata ed un’analisi dei dati più sofisticata. L’estensione alla popolazione dei risultati campionari comporta un errore
dovuto al campionamento. È compito della Statistica specificare le modalità di
rilevazione e di analisi dei dati in modo da consentire una valutazione accurata
ed un controllo dell’errore.
Si definisce piano di campionamento l’insieme delle operazioni mediante le
quali si individuano le unità da includere nel campione. Il modello di riferimento per tutti i piani di campionamento è il campionamento casuale semplice.
Supponiamo di dover selezionare un campione di n elementi da una popolazione
di N elementi. La popolazione è assimilata ad un’urna contenente N biglietti
numerati da 1 a N . Dall’urna si prelevano in sequenza, a caso e senza reinserimento (come nelle estrazioni del lotto), n biglietti i cui numeri identificano le
unità della popolazione che formeranno il campione. La procedura presuppone
che la numerosità campionaria sia fissata in anticipo e che sia disponibile un
elenco delle unità della popolazione.
Nelle rilevazioni campionarie reali si usano accorgimenti per ridurre l’errore
di campionamento. Le tecniche più diffuse sono la stratificazione ed il campionamento a più stadi. Nel campionamento stratificato la popolazione è divisa in
sottopopolazioni (strati) utilizzando caratteristiche note delle unità di rilevazione (comune di residenza, genere) e da ciascuna sottopopolazione è estratto un
campione casuale semplice. Se le sottopopolazioni sono internamente omogenee
rispetto alle variabili obiettivo, la stratificazione produce un errore di campionamento inferiore a quello di un campione casuale semplice di pari numerosità.
Il campionamento a più stadi è usato quando le unità appartengono ad una
struttura gerarchica, come quella amministrativa. Un esempio è l’indagine sui
bilanci familiari svolta dalla Banca d’Italia (www.bancaditalia.it) con cadenza
biennale.
Esempio 1 (Bilanci familiari) La Banca d’Italia è uno dei maggiori produttori italiani di dati e statistiche, soprattutto in campo economico e finanziario.
Nella sua indagine sui bilanci familiari la popolazione di riferimento è l’insieme
di tutte le famiglie italiane. Il piano di campionamento è a due stadi: le unità di
primo stadio sono i comuni, quelle di secondo stadio le famiglie. La procedura
prevede inoltre la stratificazione delle unità di primo stadio, i comuni, in base
alla regione d’appartenenza e alla classe di ampiezza demografica. All’interno
di ogni strato viene selezionato un campione contenente tutti i comuni con più
di 40· 000 abitanti più altri comuni scelti in modo da assegnare ai comuni di
maggiore dimensione una più elevata probabilità di inclusione. Le famiglie sono
successivamente estratte a caso dalle liste anagrafiche dei comuni selezionati
nel primo stadio. Nell’indagine del 2004 sono state intervistate 8 · 012 famiglie,
estratte a caso dalle liste anagrafiche di 344 comuni1 .
L’Istituto Nazionale di Statistica (ISTAT, www.istat.it) è il principale produttore italiano di statistiche ufficiali. Tra i suoi compiti istituzionali la realiz1 Banca d’Italia, I bilanci delle famiglie italiane nell’anno 2004, Suypplementi al bollettino
statistico, Anno XVI, N. 7, 17/1/2006.
6
DAI DATI ALLA DISTRIBUZIONE
zazione di censimenti generali: popolazione e abitazioni, industria e servizi, agricoltura. L’ISTAT realizza anche importanti indagini campionarie periodiche:
consumi delle famiglie, condizioni di vita (progetto coordinato dall’Unione Europea), professioni.
Esempio 2 (Consumi delle famiglie) L’indagine sui consumi delle famiglie
rileva, con periodicità annuale, le spese sostenute dalle famiglie residenti in
Italia per acquistare beni e servizi destinati al consumo. L’obiettivo è stimare il
livello e la struttura della spesa, e la sua dinamica temporale, anche in relazione
alle caratteristiche economiche, sociali e territoriali delle famiglie. I risultati
sono utilizzati anche per la stima della povertà in Italia. Le unità di rilevazione sono le famiglie incluse nel campione ed i rispettivi componenti. Come
nell’indagine sui bilanci familiari, il piano di campionamento è a due stadi: le
unità di primo stadio sono i comuni, quelle di secondo stadio le famiglie. La
scelta dei comuni avviene mediante un campionamento casuale stratificato in
base all’ampiezza demografica; tutti i comuni capoluogo di provincia sono inclusi nel campione. Le famiglie sono selezionate in modo casuale dalle liste
anagrafiche comunali. La numerosità campionaria è di circa 28 · 000 famiglie,
residenti in 480 comuni.
1.3
Perchè casualizzare
Secondo l’opinione corrente, il campione perfetto riproduce, su scala ridotta,
tutte le caratteristiche della popolazione, è una popolazione in miniatura. Esso
tuttavia è irrealizzabile perchè è proprio la necessità di studiare qualche proprietà non nota della popolazione che ci spinge ad usare le rilevazioni campionarie.
La casualizzazione ha il compito di ridurre l’impatto dei fattori di distorsione
per mezzo di una procedura di selezione delle unità autocorrettiva ed imparziale.
Nel campionamento casuale semplice, questa imparzialità è rivelata dal fatto
che tutti gli elementi della popolazione hanno pari probabilità di entrare nel
campione, indipendentemente dalle loro caratteristiche. Nelle indagini reali, i
piani di campionamento effettuano un controllo esplicito di poche variabili note,
lasciando alla casualizzazione il compito di mettere sotto controllo gli altri fattori
di variazione, noti e non noti. Questo avviene, ad esempio, nel campionamento
stratificato.
La casualizzazione consente di usare metodi probabilistici per valutare l’errore che si commette quando i risultati campionari vengono estesi alla popolazione. È questa la caratteristica più importante del campionamento casuale.
Nella fase di pianificazione dell’indagine diventa possibile confrontare piani di
campionamento diversi e scegliere quello adeguato al problema. Nella fase finale, è possibile presentare in modo trasparente i risultati, accompagnandoli con
valutazioni numeriche dell’errore di campionamento.
Nel campionamento per quote, molto usato in pratica, la selezione delle unità
da includere nel campione deve rispettare vincoli rigorosi riguardanti le variabili di stratificazione ma all’interno degli strati è delegata in ultima istanza
1.4. CALCOLO STATISTICO
7
all’intervistatore. L’estensione alla popolazione dei risultati di queste procedure
richiede cautela perchè non è possibile arrivare ad una quantificazione dell’errore. Emerge qui un aspetto cruciale. L’errore derivante da un campionamento
per quote potrebbe essere addirittura inferiore a quello di un campionamento
stratificato di numerosità comparabile, ma non ci sono strumenti in grado di
valutarlo.
1.4
Calcolo statistico
La rivoluzione informatica sta avendo un impatto formidabile sulla Statistica.
Grazie all’aumento della velocità dei processori e della capacità di archiviazione
nella memoria dei computer, il calcolo statistico è divenuto accessibile anche ai
singoli studiosi e alle piccole organizzazioni. Molti programmi di gestione ed
analisi dei dati incorporano una parte importante della metodologia statistica.
Segnaliamo il programma R, distribuito gratuitamente dall’omonima fondazione
(www.r-project.org/foundation/main.html) in versioni compatibili con la maggior parte dei sistemi operativi. L’atto di nascita ufficiale è l’articolo di R.
Ihaka e R. Gentleman “R: a language for data analysis and graphics”, apparso
nel 1996 sul Journal of Computational and Graphical Statistics. Da allora il
software si è sviluppato grazie al contributo dei ricercatori del Comprehensive
R Archive Network (CRAN). R è un linguaggio di programmazione e un ambiente di calcolo le cui risorse permettono di specificare ed eseguire un insieme
di comandi, visualizzare i risultati in formato testo, visualizzare i grafici in una
finestra ausiliaria, accedere ad archivi esterni, anche in rete, per importare dati
e grafici, archiviare in modo permanente risultati e grafici.
R è depositato all’indirizzo www.r-project.org. Merita una prova.
1.5
Distribuzioni di frequenze
Scopo di un’indagine statistica è far emergere le proprietà generali di un collettivo, non certo le caratteristiche delle singole unità. Per ottenere questo risultato,
un passaggio fondamentale è la costruzione della distribuzione di frequenze secondo le modalità della variabile. Si tratta di un’operazione di classificazione dei
dati, mediante la quale ad ogni modalità si associa il numero di unità di rilevazione che la possiedono. Questo numero è la frequenza assoluta della modalità
in questione. Al posto delle frequenze assolute, per agevolare i confronti, è
spesso preferibile considerare le frequenze relative, che si ottengono dividendo le
frequenze assolute per la loro somma, pari al numero delle unità rilevate2 .
La distribuzione di frequenze descrive la composizione di un collettivo secondo le modalità della variabile oggetto di studio. Dal punto di vista matematico,
essa costituisce una partizione dell’insieme delle unità di rilevazione in sottoinsiemi (classi), uno per ogni modalità della variabile, comprendenti ciascuno unità
2 La somma delle frequenze assolute è uguale al numero delle unità di rilevazione se le
modalità sono incompatibili ed esaustive, condizione che supponiamo sempre verificata.
8
DAI DATI ALLA DISTRIBUZIONE
aventi la stessa modalità. La frequenza assoluta è il numero di elementi di ogni
classe della partizione della quale rappresenta la misura.
L’interpretazione in chiave statistica di un fenomeno scaturisce dalla lettura della corrispondente distribuzione. Le domande più comuni sono: quali
sono le modalità più/meno rappresentate? c’è una modalità dominante? la
distribuzione è concentrata su poche modalità o è tendenzialmente omogenea 3?
Esempio 3 (Premi Nobel) Dal 1901 al 2006 il premio Nobel per la Fisica
è stato assegnato a 178 scienziati. Qual è la nazionalità dei vincitori? La
distribuzione secondo la nazionalità degli scienziati mostra che 76 premi, pari al
42.7%, sono andati a scienziati statunitensi4 , 24 a scienziati tedeschi (13.5%),
20 a scienziati inglesi (11.2%). La distribuzione è fortemente concentrata: le
prime tre nazionalità totalizzano il 67.4% dei premi.
Nazionalità
ALGERIA
AUSTRIA
BIELORUSSIA
CANADA
CINA
DANIMARCA
FRANCIA
GERMANIA
GIAPPONE
INDIA
Premi
1
2
1
2
2
3
10
24
3
1
%
0.6
1.1
0.6
1.1
1.1
1.7
5.6
13.5
1.7
0.6
Nazionalità
IRLANDA
ITALIA
OLANDA
PAKISTAN
REGNO UNITO
RUSSIA
STATI UNITI
SVEZIA
SVIZZERA
Premi
1
5
9
1
20
8
76
4
5
%
0.6
2.8
5.1
0.6
11.2
4.5
42.7
2.3
2.8
Tabella 1.1: Nazionalità dei premi Nobel per la Fisica.
Presentazioni grafiche appropriate aiutano a cogliere le caratteristiche di una
distribuzione in modo assai più efficace di una tabella di frequenze. Per le variabili qualitative si utilizza il diagramma a rettangoli distanziati, che associa ad
ogni modalità un rettangolo con base di ampiezza costante ed altezza uguale alla
frequenza relativa. Nel grafico che ne risulta il rettangolo più alto corrisponde
alla moda della distribuzione, la modalità con la massima frequenza.
Esempio 4 (Titolo di studio del capofamiglia) Dal campione Banca d’Italia del 2004 abbiamo estratto i dati riguardanti il titolo di studio del capofamiglia. La Figura 1.1 descrive la corrispondente distribuzione. La moda è
licenza media inferiore (35.7% delle famiglie), seguita da diploma di scuola media superiore (25.7%) e licenza elementare (24.0%). Solo l’8.3% dei capifamiglia
ha un titolo di studio universitario.
3 Una distribuzione è omogenea se tutte le modalità hanno la stessa frequenza. Una
distribuzione è degenere se tutte le unità di rilevazione presentano la medesima modalità.
4 La nazionalità è rilevata alla data di conferimento del premio. Numerosi premi Nobel
sono di origine tedesca, emigrati negli Stati Uniti durante le persecuzioni razziali hitleriane o
dopo la seconda guerra mondiale.
9
1.5. DISTRIBUZIONI DI FREQUENZE
10 15 20 25 30 35
0
5
Frequenza %
Bilanci Familiari 2004
Nessuno
L.Ele.
M.Inf.
M.Sup.
Laurea
Titolo di Studio del Capofamiglia
Figura 1.1: Titolo di studio del capofamiglia, 2004 (fonte: Banca d’Italia).
10
DAI DATI ALLA DISTRIBUZIONE
Distribuzioni numeriche
Le distribuzioni di frequenza per dati numerici presentano due importanti differenze rispetto ai dati non numerici. In primo luogo, per evitare la proliferazione delle modalità, è quasi sempre necessario dividere l’intervallo di variazione 5
dei dati in intervalli disgiunti. Ogni dato è poi attribuito all’intervallo di pertinenza mediante la consueta operazione di classificazione. In secondo luogo,
poichè i dati formano un sottoinsieme dell’insieme dei numeri reali, la distribuzione di frequenze è interpretabile come un sistema di pesi assegnati ai punti
della retta numerica. Il peso è positivo dove il fenomeno è presente, è pari a
zero dove il fenomeno è assente. I pesi più elevati identificano gli intervalli di
maggior concentrazione del fenomeno.
Esempio 5 (Dimensione delle famiglie) Le rilevazioni ISTAT documentano
puntualmente il processo di trasformazione delle famiglie italiane. La Tabella 2.2
mette a confronto le distribuzioni di frequenza del numero di componenti delle
famiglie in occasione dei censimenti dal 1961 al 2001. La variabile è discreta,
con modalità 1, 2, ...; per evitare dettagli inutili le famiglie con 6 componenti
o più sono aggregate in un’unica classe. I dati mostrano che nell’intervallo di
tempo considerato il numero delle famiglie aumenta in misura considerevole e
la loro dimensione si riduce. Le famiglie con più di 4 componenti passano dal
27.0% del 1961 al 7.5% nel 2001, mentre le famiglie con un solo componente
passano dal 10.6% al 24.9%. La moda, pari a 3 componenti nel 1961 e 1971,
scende a 2 componenti dal 1981 in poi. Dietro questi numeri possiamo scorgere
i mutamenti intervenuti nella società italiana.
2.1
Presentazioni ramo-foglie
La presentazione ramo-foglie6 ha la peculiarità di visualizzare la distribuzione
di frequenze di una variabile numerica, mantenendo la possibilità di leggere i
dati rilevati. L’esempio seguente ne illustra la costruzione.
5 L’intervallo
di variazione ha come estremi il minimo ed il massimo dei dati osservati.
ramo-foglie (stem-and-leaf display) e diagramma scatola-baffi (box-andwhisker display) sono stati proposti dal matematico e statistico americano John W. Tukey
(1915-2000).
6 Presentazione
11
12
DISTRIBUZIONI NUMERICHE
N. Componenti
1
2
3
4
5
6 e più
Media
N. Famiglie (Migliaia)
1961
10.6
19.6
22.4
20.4
12.6
14.4
3.6
13747
Famiglie(%)
1971
1981
1991
12.9
17.9
20.6
22.0
23.6
24.7
22.4
22.1
22.2
21.2
21.5
21.2
11.8
9.5
7.9
9.7
5.4
3.4
3.3
3.0
2.8
15981 18632 19909
2001
24.9
27.1
21.6
19.0
5.8
1.7
2.6
21811
Tabella 2.2: Numero di componenti delle famiglie, censimenti 1961-2001 (fonte:
ISTAT).
Esempio 6 (Sviluppo costiero delle regioni) La Tabella 2.3 riporta i dati
su sviluppo costiero e superficie delle 15 regioni con sbocco sul mare. Lo sviluppo
costiero corretto, ottenuto dividendo lo sviluppo costiero per la radice quadrata
della superficie, varia da un minimo di 0.51 per il Molise ad un massimo di
10.54 per la Sardegna. Per costruire il ramo-foglie è necessario individuare
le cifre più significative dei dati, che formeranno i rami, mentre le rimanenti
cifre formeranno le foglie. Nel nostro caso possiamo far coincidere le cifre più
significative con quelle intere. Riportiamo di seguito la suddivisione ramo-foglia
per alcune regioni.
Regione
Basilicata
Lazio
Sardegna
Sviluppo costiero
0.59
2.72
10.54
Ramo
0
2
10
Foglia
59
72
54
La presentazione ramo-foglie è una tabella formata da due colonne separate
da una linea verticale. Nella colonna di sinistra si elencano i valori dei rami,
uno per riga, dal più piccolo al più grande, considerando tutti i valori intermedi. Nella colonna di destra in ogni riga si elencano le foglie appartenenti al
corrispondente ramo, ordinate in senso crescente. Se le foglie sono formate da
una sola cifra, esse si succedono una dopo l’altra, senza caratteri di separazione.
Se sono formate da più di una cifra, tra una foglia e l’altra si inseriscono caratteri di separazione, come “,” o “;”. La posizione dell’eventuale punto decimale
è indicata nella legenda. Il ramo-foglie dello sviluppo costiero è riportato nella
Tabella 2.4.
Come si legge una presentazione ramo-foglie?
È evidente che i rami rappresentano intervalli di numeri reali e che il numero
di foglie appartenenti a ciascun ramo è la frequenza assoluta dei dati compresi
nel corrispondente intervallo. Pertanto un ramo-foglie descrive una distribuzione di frequenze di intervalli di numeri reali aventi tutti la medesima ampiezza.
Nell’Esempio 6 il ramo 0 è l’intervallo [0, 1) mentre il ramo 10 è l’intervallo
[10, 11). La frequenza delle regioni con uno sviluppo costiero compreso nell’in-
13
2.1. PRESENTAZIONI RAMO-FOGLIE
Regione
Liguria
Toscana
Lazio
Campania
Calabria
Sicilia
Sardegna
Veneto
Friuli V.-G.
Emilia R.
Marche
Abruzzo
Molise
Puglia
Basilicata
Sviluppo Costiero
(A, km)
346
573
357
461
710
1425
1636
156
110
130
172
124
34
830
59
Superficie
(B,kmq)
5421
22997
17208
13595
15080
25707
24089
18379
7844
22123
9694
10799
4438
19363
9992
√
A/ B
4.69
3.77
2.72
3.95
5.78
8.89
10.54
1.15
1.24
0.87
1.75
1.19
0.51
5.96
0.59
Tabella 2.3: Sviluppo costiero e superficie delle regioni.
tervallo [1, 2) è pari a 4, il numero di foglie del ramo 1. I rami privi di foglie
sono intervalli con frequenza nulla. Viceversa, il ramo col massimo numero di
foglie è l’intervallo (classe) modale della distribuzione, cioè l’intervallo con la
massima frequenza delle unità rilevate.
Dalla presentazione ramo-foglie si possono estrarre i dati rilevati semplicemente accostando ramo e foglia, avendo cura di inserire l’eventuale punto decimale nella posizione indicata dalla legenda. Nell’Esempio 6 il dato minimo è
0.51, il dato massimo è 10.54 e la mediana, o valore centrale 7 , è 2.72.
Se ruotiamo di 90 gradi in senso anti-orario la tabella, la presentazione ramofoglie è leggibile come un diagramma delle frequenze dei dati osservati sulla retta
reale. La linea verticale è la retta dei numeri reali e i rami indicano gli estremi
degli intervalli in cui è stato diviso l’intervallo di variazione della distribuzione.
L’altezza delle colonnine formate dalle foglie misura la frequenza dei dati nel
corrispondente intervallo ed il suo andamento può fornire elementi utili ai fini
interpretativi. Nell’Esempio 6 tutti i dati, tranne quelli di Sicilia e Sardegna,
si collocano tra 0 e 6, il che significa che la distribuzione è sbilanciata verso
sinistra, sui valori più bassi dell’intervallo di variazione. Si può verificare che le
regioni del versante adriatico, ad eccezione della Puglia, hanno valori compresi
tra 0 e 2, mentre le regioni dei versanti ionico e tirrenico, tranne la Basilicata,
hanno valori superiori a 2. Il fatto che i dati di Sicilia e Sardegna siano isolati,
nella parte destra del ramo-foglie, segnala che il loro sviluppo costiero è molto
7 La mediana è il valore che, nella successione ordinata dei dati, è preceduto e seguito dallo
stesso numero di dati. Se la numerosità è dispari la mediana è unica. Se la numerosità è pari
esiste una coppia di valori centrali ed in questo caso si considera usualmente come mediana
la semisomma di questi due valori.
14
DISTRIBUZIONI NUMERICHE
n = 15
2| 72 si legge 2.72 km
0
1
2
3
4
5
6
7
8
9
10
51,59,87
15,19,24,75
72
77,95
69
78,96
89
54
Tabella 2.4: Ramo-foglia dello sviluppo costiero delle regioni.
più alto delle altre regioni.
Esempio 7 (Magnitudo dei terremoti) La Tabella 2.5 mostra la distribuzione della magnitudo8 dei terremoti rilevati nella settimana dal 22/12 al 29/12
del 2006 (fonte: United States Geological Survey; terremoti con magnitudo
M ≥ 4). In questo intervallo di tempo sono stati rilevati 48 terremoti con
magnitudo compresa tra 4.0 e 7.1. La distribuzione è sbilanciata verso sinistra
e la mediana è 5.0. L’intervallo di tempo (in ore) tra due terremoti successivi (Tabella 2.69 ) ha una distribuzione monotona decrescente; il dato minimo
è 0.02, il dato massimo è 19.2 e la mediana è pari a 1.9. Questo significa che
metà dei dati è concentrata nell’intervallo (0, 1.9] e la restante parte nell’intervallo [1.9, 20). Sono presenti due dati isolati nella parte destra del ramo-foglie,
molto distanti dal resto della distribuzione, rispettivamente uguali a 16.8 e 19.2.
n = 48
5| 1 si legge 5.1
4
4
5
5
6
6
7
0022344
555555667788899
00000112222234
55677889
03
9
1
Tabella 2.5: Ramo-foglia della magnitudo dei terremoti.
8 La magnitudo è una misura fisica dell’intensità di un terremoto direttamente correlata
all’energia sprigionata.
9 Per brevità sono stati omessi, ed indicati con “:”, molti rami vuoti.
15
2.2. ISTOGRAMMI
n = 47
2| 1 si legge 2.1 ore
0
1
2
3
4
5
6
7
8
9
10
:
16
:
19
0122334444557779
23578899
123678
12268
0445
11
2
1
6
5
8
2
Tabella 2.6: Ramo-foglia dell’intervallo di tempo (ore) tra due terremoti
successivi.
Quando la stessa variabile è rilevata in due gruppi diversi, possiamo confrontarne le distribuzioni disponendo fianco a fianco le rispettive presentazioni
ramo-foglie.
Esempio 8 (Premi Nobel) La presentazione ramo-foglie appaiata dell’età dei
premi Nobel per la Fisica e la Letteratura (Tabella 2.7) ne mette in risalto le
differenze. La seconda distribuzione è traslata verso destra, su età più avanzate, rispetto alla prima. Le età mediane sono pari a 53 (Fisica) e 63 anni
(Letteratura).
2.2
Istogrammi
Se la numerosità dei dati numerici è elevata, lo strumento appropriato per rappresentare la distribuzione è l’istogramma. Diversamente dalla presentazione
ramo-foglie, esso non richiede che l’intervallo di variazione della variabile sia diviso in intervalli di ampiezza costante. Supponiamo di aver fissato sulla retta dei
numeri reali un insieme di intervalli che formano una partizione dell’intervallo
di variazione. Per costruire l’istogramma basta tracciare sopra ogni intervallo
un rettangolo avente come base l’intervallo corrispondente e come altezza la
frequenza relativa divisa per l’ampiezza dell’intervallo. Quest’ultima quantità è
chiamata densità di frequenza relativa e svolge un ruolo fondamentale nell’analisi
delle distribuzioni numeriche.
Esempio 9 (SAU delle aziende agricole) Un annoso problema dell’agricoltura
italiana è la frammentazione della proprietà terriera. Gli ultimi anni, anche
16
nLett = 103
nF is = 177
6| 9 si legge 69 anni
DISTRIBUZIONI NUMERICHE
5
42
9987665
44432222110
999888776666555
33332222110000000
999999888887777
4444433332222111110
9998887666655
30
5
2
3
3
4
4
5
5
6
6
7
7
8
8
5
1111234
555567777788899
0000012222222233344444
555556666666777778888899999999
0000011123333333444444
55555666666777889999999
000000111112233333444444
556677888
01112222334
56667789
004
78
Tabella 2.7: Età dei premi Nobel per la Fisica (a destra) e la Letteratura (a
sinistra), 1901-2006.
per effetto delle politiche europee, hanno fatto registrare una forte diminuzione
del numero di aziende ed un parallelo aumento della superficie agricola utilizzata (SAU) media. La Tabella 2.810 riporta le stime della distribuzione delle
aziende agricole italiane per classi di SAU riferite al 2000 e al 2005. I dati
derivano da un’indagine campionaria dell’ISTAT che ha coinvolto per il 2005
52· 984 aziende11 . I dati mostrano che dal 2000 al 2005 diminuisce la % delle
aziende con SAU inferiore a 2 ettari mentre aumenta la % delle aziende di tutte
le altre classi. L’aumento è più accentuato nelle classi da 2 a 20 ettari. Tuttavia
questa trasformazione non cambia le caratteristiche generali della distribuzione che rimane monotona decrescente, con una fortissima concentrazione delle
aziende nelle classi fino a 2 ettari di SAU: 28.5 aziende per ettaro ogni 100
aziende nella classe fino ad 1 ettaro, 20.9 aziende per ettaro ogni 100 aziende
nella classe da 1 a 2 ettari, solo 8.03 aziende per ettaro ogni 100 aziende nella
classe da 2 a 5 ettari. Avendo le classi ampiezze diverse, l’analisi della distribuzione richiede l’uso della densità di frequenza. L’istogramma riportato nella
Figura 2.2 illustra con chiarezza questi risultati.
La densità di frequenza relativa è una grandezza non negativa e dimensionale12 , la cui unità di misura è il reciproco dell’unità di misura della variabile.
Nell’Esempio 9 l’unità di misura della densità è (ettari)−1 . Vale la pena sottolineare la differenza tra frequenza e densità di frequenza. La frequenza misura
10 L’ampiezza
della prima classe è stimata uguale a 1, quella dell’ultima uguale a 100.
Struttura e produzioni delle aziende agricole italiane – Anno 2005. Collana
Statistiche in Breve.
12 La frequenza relativa è compresa tra 0 e 1 ed è una grandezza adimensionale, derivando
da un conteggio.
11 ISTAT,
17
2.2. ISTOGRAMMI
Classi di SAU
(ettari)
<1
1–2
2–5
5–10
10–20
20–30
30–50
50–100
≥ 100
N. Aziende (Migliaia)
Aziende (%)
2000 2005
35.5
28.5
21.5
20.9
21.4
24.1
10.1
11.9
6.0
7.6
2.1
2.6
1.7
2.2
1.1
1.5
0.6
0.7
2154 1729
Densità (%)
2000 2005
35.5
28.5
21.5
20.9
7.13
8.03
2.02
2.38
0.60
0.76
0.21
0.26
0.085
0.11
0.022
0.03
0.003 0.007
Tabella 2.8: SAU delle aziende agricole, 2000 e 2005 (fonte: ISTAT).
il peso relativo degli intervalli in cui è stato diviso l’intervallo di variazione. La
densità di frequenza (in modo analogo alla densità di popolazione in un territorio) misura l’addensamento, o concentrazione, delle unità di rilevazione in ogni
punto dell’intervallo di variazione.
L’istogramma, o curva di densità, è il grafico della densità di frequenza, della
quale mostra l’andamento sulla retta numerica. L’altezza dell’istogramma, più
o meno elevata, descrive l’addensamento delle unità di rilevazione, maggiore o
minore, in ogni punto dell’intervallo di variazione. In particolare, i picchi dell’istogramma individuano le classi modali, cioè gli intervalli contenenti i punti
di massimo relativo della densità. L’area della superficie sottesa all’istogramma
in un intervallo è uguale alla frequenza relativa corrispondente. Questa importante proprietà areale discende dalla definizione stessa di densità di frequenza.
In particolare, l’area totale è uguale a 1 (o 100%) il che consente di confrontare
istogrammi diversi, almeno quando le variabili hanno la stessa unità di misura.
Gli istogrammi sono largamente usati anche con le variabili discrete. Consideriamo, ad esempio, il numero di componenti delle famiglie. Ad ognuna delle
modalità 1, 2, ..., facciamo corrispondere un intervallo di ampiezza unitaria,
centrato sulla modalità medesima. Ad esempio, alla modalità 1 è associato l’intervallo [0.5, 1.5), alla modalità 2 l’intervallo [1.5, 2.5), e cosı̀ via. La densità di
frequenza coincide con la frequenza, perchè l’ampiezza degli intervalli è pari a 1.
È cosı̀ possibile utilizzare formalmente una rappresentazione grafica mediante
istogrammi. I corrispondenti calcoli areali sono esatti se limitati agli estremi
delle classi. La Figura 2.3 mostra l’istogramma del numero di componenti delle
famiglie italiane al censimento del 2001 (Esempio 5).
18
DISTRIBUZIONI NUMERICHE
25
20
15
10
5
0
Densità (% di aziende per ettaro)
SAU delle Aziende Agricole (2005)
0
10
20
30
40
50
60
Superficie Agricola Utilizzata (Ettari)
Figura 2.2: SAU delle aziende agricole, 2005 (fonte: ISTAT).
2.3
Tipologie distributive
Rappresentazioni grafiche come il ramo-foglie e l’istogramma hanno il pregio
di evidenziare le caratteristiche generali di una variabile statistica, cioè quelle
proprietà che ne definiscono la tipologia distributiva. Un passaggio fondamentale del processo di astrazione tipico della Statistica è proprio il riconoscimento
nell’istogramma delle proprietà caratteristiche di qualche curva di frequenza
ideale.
Una distribuzione è unimodale se il suo istogramma (o la presentazione ramofoglie) presenta un unico picco, coincidente con la classe modale. Nelle distribuzioni unimodali la densità di frequenza è non decrescente dall’estremo inferiore dell’intervallo di variazione fino alla classe modale ed è non crescente dalla
classe modale all’estremo superiore. Gli istogrammi delle distribuzioni multimodali presentano invece più di un picco, cioè la densità di frequenza ha più
di un massimo relativo. Nelle distribuzioni zeromodali la densità di frequenza
è monotona, non decrescente o non crescente. Sono esempi di distribuzioni
unimodali la magnitudo dei terremoti (Tabella 2.5) e il numero di componenti
19
2.3. TIPOLOGIE DISTRIBUTIVE
20
15
10
5
0
Densità (% di famiglie)
25
Dimensione delle Famiglie (2001)
0
1
2
3
4
5
6
7
Numero di Componenti
Figura 2.3: Numero di componenti delle famiglie, censimento 2001 (fonte:
ISTAT).
delle famiglie (Figura 2.3) mentre sono zeromodali con densità non crescente le
distribuzioni dell’intervallo di tempo tra due terremoti successivi (Tabella 2.6)
e della SAU delle aziende agricole (Figura 2.2).
Una distribuzione è simmetrica se il suo istogramma (o la presentazione
ramo-foglie) è simmetrico rispetto ad un asse verticale passante per il punto
centrale dell’intervallo di variazione. Nelle distribuzioni unimodali simmetriche
la classe modale è al centro dell’intervallo di variazione. Una distribuzione unimodale asimmetrica è sbilanciata a sinistra o a destra a seconda che la classe
modale sia spostata verso l’estremo inferiore o superiore dell’intervallo di variazione13 . Gli esempi precedentemente richiamati della magnitudo dei terremoti e
del numero di componenti delle famiglie sono distribuzioni unimodali asimmetriche sbilanciate a sinistra. La Figura 2.4 illustra schematicamente l’andamento
delle distribuzioni unimodali simmetriche e asimmetriche.
Una distribuzione è uniforme se la densità di frequenza è costante in tutto
13 Le distribuzioni unimodali asimmetriche sbilanciate a sinistra (a destra) sono anche
chiamate asimmetriche positivamente (negativamente).
20
DISTRIBUZIONI NUMERICHE
l’intervallo di variazione. Le distribuzioni uniformi hanno un intervallo di variazione limitato, non hanno moda e sono simmetriche rispetto al punto centrale
dell’intervallo di variazione. La Figura 2.4 mostra il grafico della funzione di
densità di una distribuzione uniforme nell’intervallo (a, b). Questo modello distributivo viene usato per approssimare curve di densità irregolari, prive di un
andamento ben definito. A ben vedere, la distribuzione uniforme è anche utilizzata nella rappresentazione mediante istogrammi, per approssimare la distribuzione della variabile in ciascun intervallo. L’istogramma è infatti una mistura
di distribuzioni uniformi, una per intervallo, con pesi uguali alle corrispondenti
frequenze relative.
Esempio 10 (Cifre decimali di π) Il numero più famoso, π, definito come
rapporto tra la lunghezza della circonferenza e quella del suo diametro, ha uno
sviluppo decimale illimitato aperiodico. Nell’approssimazione con 50 cifre decimali
3.1415926535897932384626433832795028841971693993751
le cifre 0, 1, ..., 9 hanno frequenze simili e si succedono senza uno schema definito. L’istogramma della distribuzione delle prime 10000 cifre di π 14 riportato
nella Figura 2.5 suggerisce proprio una tipologia uniforme.
14 Calcolo
eseguito con Mathematica.
21
2.3. TIPOLOGIE DISTRIBUTIVE
Unimodale Simmetrica
Uniforme
Densità %
Densità %
200/(b−a)
a
(a+b)/2
b
100/(b−a)
a
(a+b)/2
b
X
X
Asimmetrica Sinistra
Asimmetrica Destra
Densità %
200/(b−a)
Densità %
200/(b−a)
a
(a+b)/2
b
a
X
Figura 2.4: Tipologie distributive.
(a+b)/2
X
b
22
DISTRIBUZIONI NUMERICHE
10
8
6
4
0
2
Densità (% di cifre)
12
Prime 10000 Cifre Decimali di Pi Greco
0
2
4
6
8
10
Cifra
Figura 2.5: Cifre decimali di π (linea tratteggiata: approssimazione uniforme).
Statistiche ordinate e
quantili
L’analisi dei dati numerici, oltre ad evidenziarne la tipologia distributiva attraverso curve di densità, si avvale di indici di sintesi specifici, per descrivere
caratteristiche come la posizione sulla retta numerica, la variabilità, il grado
di asimmetria. Tali indici forniscono valori numerici che vengono chiamati
parametri della distribuzione quando i dati si riferiscono all’intera popolazione,
statistiche campionarie quando i dati si riferiscono ad un campione. Indici di
posizione già presentati sono la moda e la mediana. La moda del numero di componenti delle famiglie nel censimento del 2001 è pari a 2 e coincide col numero
mediano di componenti (Esempio 5). Questo valore rappresenta un parametro
noto della specifica popolazione oggetto dell’indagine. La magnitudo mediana
dei terremoti con magnitudo superiore a 4 è pari a 5 ed il tempo d’attesa mediano tra due terremoti successivi è pari a 1.9 (Esempio 7). Questi due valori
sono statistiche campionarie.
3.1
Statistiche ordinate
Prima di procedere, è opportuno precisare la notazione utilizzata. Le lettere
maiuscole X, Y . . . indicano le variabili e le corrispondenti lettere minuscole x,
y . . . indicano i dati osservati. La numerosità campionaria è indicata col simbolo n15 . I dati campionari della variabile X sono x1 , . . . , xi , . . . , xn , in cui,
per i = 1, . . . , n, xi indica il dato rilevato sull’i-esima unità. Una statistica campionaria può essere definita come una funzione dei dati campionari che
all’n-upla x1 , . . . , xn associa una sua trasformazione g(x1 , . . . , xn ) = gn , non
necessariamente univariata.
La più semplice trasformazione dei dati numerici campionari è quella che
ad x1 , . . . , xn associa i corrispondenti valori ordinati in senso crescente (non
decrescente) x(1) ≤ . . . ≤ x(i) ≤ . . . ≤ x(n) . L’n-upla x(1) , . . . , x(i) , . . . , x(n)
è chiamata la statistica ordinata; x(1) è il minimo dato campionario, x(n) il
massimo, x(i) l’i-esima componente della statistica ordinata. Molte statistiche
campionarie sono trasformazioni delle statistiche ordinate. Tra quelle già in15 Il
simbolo N è di solito riservato alla numerosità della popolazione.
23
24
STATISTICHE ORDINATE E QUANTILI
contrate ricordiamo l’intervallo di variazione (x(1) , x(n) )16 e la corrispondente
ampiezza, il campo di variazione x(n) − x(1) , che rappresenta il più semplice
indice di variabilità. Notiamo che dalla presentazione ramo-foglie, diversamente
dall’istogramma, si possono ricavare le statistiche ordinate.
Presidente Repubblica Italiana
E. De Nicola
L. Einaudi
G. Gronchi
A. Segni
G. Saragat
G. Leone
S. Pertini
F. Cossiga
O. L. Scalfaro
C. A. Ciampi
G. Napolitano
Età
71
74
63
71
66
63
82
58
74
79
81
Presidente Stati Uniti
H. S. Truman
D. D. Eisenhower
J. F. Kennedy
L. B. Johnson
R. Nixon
G. Ford
J. Carter
R. Reagan
G. Bush
B. Clinton
G. W. Bush
Età
61
63
44
55
56
61
53
70
65
47
55
Tabella 3.9: Età dei presidenti della Repubblica Italiana e degli Stati Uniti,
1945-2006.
Esempio 11 (Età dei presidenti) La Tabella 3.9 riporta l’elenco dei presidenti della Repubblica Italiana e degli Stati Uniti (quest’ultimi solo dopo il 1945)
e la loro età al momento dell’elezione17 . La statistica ordinata è
58, 63, 63, 66, 71, 71, 74, 74, 79, 81, 82
per i presidenti italiani,
44, 47, 53, 55, 55, 56, 61, 61, 63, 65, 70
per quelli americani. I presidenti americani sono generalmente più giovani di
quelli italiani: le età mediane sono rispettivamente 56 e 71 anni. Il più giovane
presidente italiano è F. Cossiga, 58 anni; il più giovane presidente americano è
J. F. Kennedy, 44 anni. Il più vecchio presidente italiano è S. Pertini, 82 anni;
il più vecchio presidente americano è R. Reagan, 70 anni.
3.2
Quantili
L’i-esima statistica ordinata x(i) è un valore la cui posizione relativa sulla retta
numerica è descritta dal suo indice: i dati (i/n, in termini relativi) hanno un
valore minore di (o uguale a) x(i) e n − i + 1 dati (1 − (i − 1)/n, in termini
relativi) hanno un valore maggiore di (o uguale a) x(i) . Al variare di i da 1 a n,
16 L’intervallo
17 Per
di variazione è un esempio di statistica bivariata.
i Presidenti degli Stati Uniti si considera il primo mandato.
25
3.2. QUANTILI
ciascuno dei due pesi pi = i/n e qi = 1 − (i − 1)/n descrive in modo equivalente
la posizione di x(i) . I dati estremi hanno un peso pi tendente a 0 (dati vicini
all’estremo inferiore dell’intervallo di variazione) o a 1 (dati vicini all’estremo
superiore). I dati centrali hanno un peso tendente a 0.518 .
La nozione di quantile è una semplice generalizzazione che si ottiene facendo
assumere al peso pi ogni valore reale compreso tra 0 e 1. Si definisce quantile
d’ordine p, e si indica col simbolo xp , un valore della variabile X tale che la
frequenza relativa dei dati minori di (o uguali a) xp è almeno pari a p e la
frequenza relativa dei dati maggiori di (o uguali a) xp è almeno pari a 1 − p.
L’interpretazione geometrica è chiara: il quantile xp divide l’istogramma della
distribuzione in due regioni: quella a sinistra di xp ha un’area circa uguale a p,
quella a destra ha un’area circa uguale a 1 − p.
I quantili più usati sono i quartili x0.25 , x0.5 (coincidente con la mediana),
x0.75 . Essi dividono la distribuzione in quattro intervalli [x(1) , x0.25 ), [x0.25 , x0.5 ),
[x0.5 , x0.75 ), [x0.75 , x(n) ] contenenti ciascuno, approssimativamente, il 25% dei
dati. A questi intervalli è associata un’utile nomenclatura. L’intervallo tra il
primo ed il terzo quartile forma la parte centrale della distribuzione, più precisamente l’intervallo contenente il 50% centrale dei dati; esso è preceduto dalla
coda sinistra, cioè l’intervallo contenente il 25% più basso dei dati ed è seguito
dalla coda destra, l’intervallo contenente il 25% più alto dei dati. L’ampiezza della parte centrale della distribuzione è il cosiddetto scarto interquartilico
SIQ = x0.75 −x0.25 , un indice di variabilità che svolge un ruolo importante nella
definizione del diagramma scatola-baffi.
Nelle applicazioni si incontrano frequentemente i decili x0.1 , . . . , x0.9 e i centili x0.01 , . . . , x0.99 che dividono la distribuzione in intervalli contenenti ciascuno,
rispettivamente, circa il 10% e l’1% dei dati.
Le seguenti proprietà seguono in modo immediato dalla definizione.
Q1. I quantili appartengono all’intervallo di variazione della variabile:
per ogni 0 < p < 1, x(1) ≤ xp ≤ x(n) .
Q2. La funzione quantilica è monotona non decrescente:
se 0 < p < q < 1, allora xp ≤ xq .
Q3. Quando l’ordine quantilico p tende a 0 (1), il quantile tende all’estremo
inferiore (superiore) dell’intervallo di variazione:
lim xp = x(1) , lim xp = x(n) .
p→0+
p→1−
L’ultima proprietà suggerisce di identificare i quantili d’ordine 0 e 1 col
minimo ed il massimo.
18 Secondo J. Tukey, la centralità di un dato numerico x rispetto ad un campione osservato
il minimo tra pi e qi .
26
STATISTICHE ORDINATE E QUANTILI
Esempio 12 (Distribuzione uniforme) Se X ha una distribuzione uniforme
nell’intervallo (a, b), per ogni 0 < p < 1
xp = a + p(b − a).
La formula mostra che la distanza di xp dall’estremo inferiore dell’intervallo
di variazione è semplicemente p volte l’ampiezza di quest’ultimo. I tre quartili
sono
x0.25 = a + (b − a)/4, x0.5 = a + (b − a)/2, x0.75 = a + 3(b − a)/4
e dividono l’intervallo (a, b) in quattro intervalli di uguale lunghezza, proprietà
caratteristica dei quantili delle distribuzioni uniformi.
Per calcolare i quantili di dati numerici divisi in classi, si introduce l’ipotesi di
distribuzione uniforme all’interno delle classi e si utilizza il risultato dell’Esempio
12.
Esempio 13 (SAU delle aziende agricole) Qual è la superficie mediana?
Com’è variata dal 2000 al 2005? Dalla Tabella 2.8 si ricava che nel 2005 il
49.4% delle aziende aveva meno di 2 ettari di SAU ed il 73.5% meno di 5 ettari.
Pertanto la mediana è compresa necessariamente tra 2 e 5 ettari. Imponendo
la condizione che la % di aziende con SAU minore di (o uguale a) x0.5 sia pari
al 50%, si ottiene l’equazione
49.4 + (24.1/3)(x0.5 − 2) = 50,
(2005)
da cui segue x0.5
= 2.07 ettari. Procedendo in modo analogo si trova che
nel 2000 la superficie mediana è compresa tra 1 e 2 ettari con valore puntuale
(2000)
x0.5
= 1.67. Il risultato fa risaltare il grado di asimmetria della distribuzione: nel 2005 il 50% delle aziende è concentrato tra 0 e 2.07 ettari di SAU
mentre le altre si distribuiscono in un intervallo che va da 2.07 a oltre 100 ettari.
Nelle distribuzioni asimmetriche la mediana, centro della distribuzione in termini di frequenza, può spostarsi in maniera rilevante dal centro dell’intervallo
di variazione.
I quantili sono largamente utilizzati nello studio della distribuzione del reddito. L’esempio seguente riprende alcuni risultati dell’indagine della Banca d’Italia
sui bilanci familiari.
Esempio 14 (Bilanci familiari) I quantili consentono una valutazione immediata della posizione delle famiglie sulla scala reddituale. Consideriamo, ad
esempio, una famiglia con 15500 euro di reddito annuo. Dalla Tabella 3.10 si
rileva che questo valore è inferiore alla mediana ed è compreso tra il secondo ed
il terzo decile. Pertanto meno del 30% delle famiglie hanno un reddito inferiore
a quella in esame, mentre oltre il 70% hanno un reddito superiore. Se invece
il reddito di una famiglia corrisponde al quantile d’ordine 0.95, la sua posizione
è invidiabile perchè solo il 5% delle famiglie ha un reddito uguale o superiore.
27
3.2. QUANTILI
p
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
xp
10517
14400
17140
20233
23833
28182
33417
40633
52798
xp − xp−0.1
3883
2740
3093
3600
4349
5235
7216
12165
Tabella 3.10: Decili del reddito familiare, 2004 (fonte: Banca d’Italia).
La tabella mostra che il reddito annuo è maggiore di x0.9 = 52798. Anche se
in modo indiretto, i quantili danno informazioni sulla densità di frequenza e
quindi sulla tipologia distributiva. La tabella mostra che la distribuzione non è
uniforme perchè gli intervalli tra decili successivi hanno ampiezze diverse. La
posizione della mediana, spostata a sinistra rispetto al centro dell’intervallo di
variazione, suggerisce una forma asimmetrica, con densità più elevata sui redditi più bassi. Si possono ricavare indicazioni più precise? Poichè gli intervalli tra
decili successivi contengono tutti il 10% di famiglie, quanto maggiore l’ampiezza
dell’intervallo tanto minore è la corrispondente densità. I dati mostrano che la
densità aumenta fino all’intervallo [x0.2, x0.3 ) e poi diminuisce, in accordo con
una tipologia distributiva unimodale asimmetrica, sbilanciata a sinistra. Questa
analisi è confermata dall’istogramma della Figura 3.6.
Ricavare i quantili da un ramo-foglie è piuttosto semplice, dato che questo
tipo di diagramma riporta proprio la statistica ordinata x(1) , . . . , x(n) . Si deve
preliminarmente calcolare il prodotto np che fornisce la posizione del quantile desiderato all’interno del ramo-foglie. Se np è un valore decimale, lo si
approssima all’intero superiore più prossimo, pertanto
xp = x(dnpe) ,
cioè il quantile d’ordine p coincide con la statistica ordinata di rango dnpe19 .
Se np è un numero intero, ogni valore nell’intervallo [x(np) , x(np+1) ) possiede i
requisiti necessari ed in tal caso si pone
xp = (x(np) + x(np+1) )/2,
cioè si fa coincidere il quantile con la semisomma delle statistiche ordinate di
rango np e np + 1.
19 Il
simbolo dae indica l’intero superiore più vicino ad a.
28
STATISTICHE ORDINATE E QUANTILI
0.000 0.005 0.010 0.015 0.020 0.025 0.030
Densità (famiglie/1000 euro)
Bilanci Familiari 2004
1 23 4 5 6 7
0
20
8
40
9
60
80
100
Reddito familiare (migliaia di euro)
Figura 3.6: Reddito familiare e decili, 2004 (fonte: Banca d’Italia).
Esempio 15 (Premi Nobel) I quartili dell’età dei premi Nobel per la Fisica
sono
x0.25 = x(45) = 44, x0.5 = x(89) = 53, x0.75 = x(133) = 62.
Il risultato è una semplice applicazione del metodo di calcolo sopra esposto ai dati
della Tabella 2.7. Qual è l’interpretazione? Come sappiamo, il primo ed il terzo
quartile delimitano l’intervallo contenente il 50% centrale della distribuzione
che in questo caso risulta essere simmetrico rispetto alla mediana. Infatti |
x0.25 − x0.5 |= | x0.75 − x0.5 |= 9 anni. La coda destra (x0.75 , x(177) ] = (62, 88] è
un po’ più lunga della coda sinistra [x(1) , x0.25 ) = [25, 44) il che suggerisce una
curva di densità col classico andamento prima crescente, poi decrescente. Come
mostra il ramo-foglie, la distribuzione è unimodale asimmetrica, sbilanciata a
sinistra. È vero che l’età dei premi Nobel per la Letteratura presenta le stesse
caratteristiche?
3.3
Diagrammi scatola-baffi
Il diagramma scatola-baffi è una rappresentazione schematica di un campione
numerico che utilizza cinque statistiche campionarie: il minimo, il massimo ed i
3.3. DIAGRAMMI SCATOLA-BAFFI
29
quartili. Esso comprende inoltre un criterio per l’individuazione di eventuali dati
statisticamente anomali. Questo popolare strumento della Statistica differisce
sia dalla presentazione ramo-foglie che dall’istogramma in quanto realizza una
sintesi assai più parsimoniosa dei dati.
Il diagramma scatola-baffi visualizza la posizione sulla retta numerica dei
quattro intervalli in cui i quartili dividono la distribuzione. È formato da un
rettangolo — la scatola20 — i cui estremi sono il primo ed il terzo quartile,
e da due segmenti — i baffi — uscenti dal punto medio dei lati verticali sinistro e destro della scatola. La scatola rappresenta l’intervallo centrale della
distribuzione mentre i baffi rappresentano le code. All’interno della scatola la
posizione della mediana è segnata mediante una linea verticale. Siano xS e xR
le ascisse delle estremità sinistra e destra dei baffi. Se non ci sono dati anomali,
xS = x(1) e xR = x(n) , cioè le estremità dei baffi sono semplicemente il minimo
ed il massimo dei dati campionari. Se invece nel campione ci sono dati anomali,
le estremità dei baffi sono il minimo ed il massimo dei dati non anomali.
Un dato anomalo si caratterizza per essere visibilmente molto più lontano
dal centro della distribuzione della maggior parte dei dati. Purtroppo, questa
definizione lascia il tempo che trova perchè non è chiaro cosa significhi “molto
più lontano” e “maggior parte”. Ecco la soluzione proposta da J. Tukey. Nelle
distribuzioni unimodali simmetriche la distanza dei dati estremi dal primo e dal
terzo quartile non supera il valore di SIQ moltiplicato per il fattore 1.5. Egli
propone pertanto di considerare le barriere cosı̀ calcolate
Binf = x0.25 − 1.5SIQ,
Bsup = x0.75 + 1.5SIQ
come il confine inferiore e superiore dei dati regolari; i dati inferiori a Binf o
superiori a Bsup sono considerati statisticamente anomali perchè troppo lontani
dal centro.
Possiamo ora completare la descrizione del diagramma scatola-baffi. Se tutti
i dati del campione sono compresi tra Binf e Bsup , non ci sono dati anomali e le
estremità dei baffi sono individuate dal minimo e dal massimo dato campionario.
Se invece ci sono dati esterni alle barriere, cioè anomali, l’estremità del baffo
sinistro è individuata dal minimo tra i dati campionari maggiori di (o uguali a)
Binf e l’estremità del baffo destro è individuata dal massimo tra i dati campionari
minori di (o uguali a) Bsup . La posizione di ciascun dato anomalo è evidenziata
con simboli particolari (asterisco, cerchietto, etc.).
Il diagramma scatola-baffi visualizza i quartili della distribuzione sulla retta
numerica, consentendo di valutarne in modo immediato posizione, dispersione
e forma. La posizione si evince dall’intervallo di variazione, dalla parte centrale/scatola e, in modo puntuale, dalla mediana. La dispersione è percepibile
dal campo di variazione; il diagramma consente inoltre di confrontare la dispersione nella parte centrale (lunghezza della scatola, coincidente con lo scarto
interquartilico) con quella nelle code. Forma. Mediana al centro dell’intervallo
20 È rilevante solo la lunghezza della scatola, pari allo scarto interquartilico, mentre l’altezza
non ha un significato statistico.
30
STATISTICHE ORDINATE E QUANTILI
di variazione ed estremità sinistra e destra della scatola e dei baffi equidistanti
dalla mediana sono un indizio di simmetria. Un visibile spostamento della mediana verso una delle estremità della scatola è invece un indizio di asimmetria,
che si rafforza se è accompagnato da un corrispondente squilibrio nella lunghezza dei baffi. L’ampiezza dei quattro intervalli in cui è divisa la distribuzione
fornisce indicazioni sull’andamento della densità. Sappiamo che un’ampiezza
costante degli intervalli è una caratteristica della distribuzione uniforme. Se
la lunghezza dei baffi è maggiore della distanza dei quartili dalla mediana, la
distribuzione potrebbe essere unimodale.
n = 62
2| 1 si legge 21 giorni
0
0
1
1
2
2
3
000000000001111111222233333334444
555555777899
0112244
5789
011
58
4
Tabella 3.11: Ramo-foglia dell’intervallo di tempo (giorni) tra due pagamenti
successivi con carta di credito.
Vale la pena approfondire il criterio di riconoscimento dei dati anomali. Supponiamo che i dati siano un campione casuale da una distribuzione unimodale
simmetrica. L’osservazione di un dato da una distribuzione di questo tipo nel
99.3% dei casi produce un valore interno all’intervallo delimitato dalle barriere21.
Il valore atteso del numero di dati esterni alle barriere in un campione di n osservazioni è pari a 0.007n: se n = 100, al massimo un dato, se n = 200, uno
o due dati. Abbiamo una reale evidenza che il campione sia contaminato se il
numero di dati esterni alle barriere supera questa soglia. Ad esempio, tre dati in
un campione di 50 elementi segnalano una reale anomalia. Va sottolineato che
una tipologia distributiva asimmetrica fa venir meno uno dei presupposti del
valore soglia. In effetti, se il campione proviene da una distribuzione unimodale
asimmetrica, ad esempio sbilanciata a sinistra, non desta particolare sorpresa la
presenza di dati esterni alla barriera destra.
Esempio 16 (Carta di credito) Dalla serie dei pagamenti con carta di credito effettuati nel periodo 1/10/2005-31/12/2006 abbiamo ricavato l’intervallo
di tempo, in giorni, tra due pagamenti successivi (Tabella 3.11). L’intervallo
di variazione va da 0 (pagamenti nello stesso giorno) a 34 giorni. I quartili
sono x0.25 = x(16) = 1, x0.5 = (x(31) + x(32) )/2 = 4, x0.75 = x(47) = 11. Nel
21 Il
5.
risultato si riferisce alle distribuzioni normali, di cui si parlerà diffusamente nel Capitolo
31
3.3. DIAGRAMMI SCATOLA-BAFFI
Carta di Credito
0
5
10
15
20
25
30
35
Intervallo di tempo (giorni) tra due pagamenti successivi
Figura 3.7: Intervallo di tempo (giorni) tra due pagamenti successivi con carta
di credito.
diagramma scatola-baffi (Figura 3.7) due dati, x(61) = 28 e x(62) = 34, sono
maggiori della barriera superiore Bsup = 26. Tuttavia, nessuno dei due è da
considerare statisticamente anomalo perchè, come mostra anche la presentazione
ramo-foglie, la tipologia distributiva è monotona decrescente.
LET FIS
Nobel per la Letteratura e la Fisica 1901−2006
30
40
50
60
70
80
90
Età
Figura 3.8: Età dei premi Nobel per la Fisica e la Letteratura, 1901-2006.
Una delle applicazioni più frequenti del diagramma scatola-baffi è il confronto
grafico di distribuzioni, per variabili con la stessa unità di misura.
Esempio 17 (Premi Nobel) Il diagramma scatola-baffi (Figura 3.8) mostra
con chiarezza le differenze tra l’età dei premi Nobel per la Letteratura e la Fisica,
in particolare lo spostamento a destra della prima distribuzione rispetto alla
seconda.
32
STATISTICHE ORDINATE E QUANTILI
Il diagramma scatola-baffi è un metodo robusto, cioè offre un’elevata resistenza alla contaminazione del campione con osservazioni spurie. Questa caratteristica discende dall’utilizzo di statistiche campionarie — i quartili — capaci di
sopportare senza grandi variazioni un’elevata percentuale di contaminazione. Si
confronti, a questo proposito, il campo di variazione x(n) − x(1) con la differenza
Bsup − Binf = 4SIQ. Entrambi forniscono una stima del campo di variazione
della popolazione ma, mentre il primo può variare in misura considerevole anche
per la presenza di un solo dato anomalo, la seconda è molto più stabile.
3.4
Funzioni di ripartizione
Lo studio delle distribuzioni numeriche si avvale di svariati strumenti, grafici ed
analitici, a prima vista molto diversi. In realtà, la semplice nozione di frequenza
cumulata fino ad un assegnato numero reale, che sta alla base della funzione di
ripartizione, si dimostra essere il concetto matematico unificante, a cui tutti gli
altri sono riconducibili.
La funzione di ripartizione della variabile X, indicata col simbolo FX , ad
ogni numero reale x associa la frequenza relativa complessivamente allocata sulla semiretta (−∞, x]22 . Tenuto conto della proprietà areale degli istogrammi, il
valore della funzione di ripartizione in un punto interno all’intervallo di variazione è semplicemente l’area sottesa all’istogramma, o ad una curva di densità,
fino a quel punto. Conviene ribadire il concetto: l’altezza dell’istogramma in
un punto x è il valore della funzione di densità in x, mentre l’area della superficie dell’istogramma fino a x è il valore della funzione di ripartizione in x. Da
questa interpretazione geometrica discende il metodo di calcolo della funzione di
ripartizione. Se X è una variabile continua con funzione di densità fX , allora23
Z x
FX (x) =
fX (z)dz.
−∞
Se invece X è una variabile discreta con funzione di frequenza relativa fX 24 ,
X
FX (x) =
fX (z).
z≤x
Esempio 18 (Distribuzione uniforme) Se X è una variabile continua con
distribuzione uniforme nell’intervallo (a, b), la sua funzione di ripartizione è

0,
x ≤ a,

(x − a)/(b − a), a < x < b,
FX (x) =

1,
x ≥ b.
22 La notazione matematica sottolinea che si deve considerare anche la frequenza
eventualmente attribuita ad x, l’estremo destro della semiretta.
23 Sotto opportune condizioni di regolarità, l’area sottesa al grafico della funzione f
X in un
intervallo è l’integrale definito di fX esteso all’intervallo desiderato.
24 Usiamo lo stesso simbolo per indicare la funzione di densità e la funzione di frequenza. Il
contesto è di solito sufficiente a chiarirne il significato.
33
3.4. FUNZIONI DI RIPARTIZIONE
Questa è l’unica distribuzione la cui funzione di ripartizione ha un andamento
lineare. L’inclinazione, costante in tutto l’intervallo (a, b), coincide con la densità di frequenza fX (x) = 1/(b − a) ed è inversamente proporzionale al campo
di variazione.
60
40
0
20
F. Ripartizione (%)
80
100
SAU delle Aziende Agricole (2005)
0
10
20
30
40
50
60
Superficie Agricola Utilizzata (Ettari)
Figura 3.9: Funzione di ripartizione della SAU delle aziende agricole, 2005.
Come per i quantili, la funzione di ripartizione delle distribuzioni di dati numerici divisi in classi viene determinata ipotizzando una distribuzione uniforme
all’interno delle classi.
Esempio 19 (SAU delle aziende agricole) Dalla Tabella 2.8 otteniamo i
valori della funzione di ripartizione corrispondenti agli estremi delle classi sommando via via le frequenze relative: nel 2005, FX (1) = 28.5%, FX (2) = 28.5 +
20.9 = 49.4%, e cosı̀ via. Per ottenere il valore di FX nei punti interni delle
classi è necessario introdurre un’ipotesi distributiva che, in generale, è quella
uniforme. Dato il risultato dell’Esempio 18, ciò equivale ad interpolare linearmente i valori che la funzione assume agli estremi. Consideriamo, ad esempio,
la classe da 2 a 5 ettari nel 2005. Il valore di FX in un punto 2 < x < 5 è
uguale al valore della funzione nell’estremo inferiore, FX (2), aumentato della
34
STATISTICHE ORDINATE E QUANTILI
frequenza relativa delle aziende agricole con SAU compresa tra 2 e x. Se la
distribuzione all’interno della classe è uniforme, questa frequenza è semplicemente l’area del rettangolo avente come base l’intervallo (2, x] e come altezza la
densità di frequenza 8.03. Pertanto il risultato finale è
FX (x) = 49.4 + 8.03(x − 2), .
per ogni x compreso tra 2 e 5 ettari. L’espressione completa di F X è riportata
di seguito. Il suo diagramma (Figura 3.9) è la poligonale congiungente i punti
di coordinate xC , FX (xC ), in cui xC indica l’estremo inferiore delle classi.

0,
x ≤ 0,




28.5x,
0
<
x ≤ 1,




28.5
+
20.9(x
−
1),
1
<
x
≤ 2,




49.4
+
8.03(x
−
2),
2
<
x
≤ 5,




5 < x ≤ 10,
 73.5 + 2.38(x − 5),
85.4 + 0.76(x − 10),
10 < x ≤ 20,
FX (x) =


93.0
+
0.26(x
−
20),
20 < x ≤ 30,




95.6
+
0.11(x
−
30),
30 < x ≤ 50,




97.8
+
0.03(x
−
50),
50
< x ≤ 100,




99.3
+
0.007(x
−
100),
100
< x ≤ 200,



1,
x > 200.
In ogni classe, il coefficiente angolare della poligonale è il corrispondente valore
della densità di frequenza. La funzione di ripartizione risolve qualsiasi problema
relativo alla distribuzione. La percentuale delle aziende con SAU compresa tra
10 e 40 ettari è ottenibile come
FX (40) − FX (10) = 95.6 + 0.11(40 − 30) − 85.4 = 11.3%.
Analogamente, la percentuale delle aziende con SAU maggiore di 60 ettari è pari
a
100 − FX (60) = 100 − 97.8 − 0.03(60 − 50) = 1.9%.
Dalla funzione di ripartizione si ottengono facilmente i quantili di qualsiasi ordine. Consideriamo, ad esempio, il quantile x0.90 . Esso divide la distribuzione in due intervalli: l’intervallo a sinistra di x0.90 comprendente le aziende
con SAU minore o uguale di x0.90 , l’intervallo a destra di x0.90 comprendente
le aziende con SAU maggiore o uguale di x0.90 . La frequenza relativa di entrambi è esprimibile in termini della funzione di ripartizione; in particolare, la
percentuale delle aziende agricole con SAU minore o uguale a x 0.90 è identicamente uguale all’ordine del quantile, 90%, e questo valore altro non è che il
valore assunto da FX nel punto x0.90 . Vale cioè l’uguaglianza
FX (x0.90 ) = 90%.
Dall’espressione di FX si deduce che 10 < x0.90 < 20, quindi l’equazione
risolvente è
FX (x0.90 ) = 85.4 + 0.76(x0.90 − 10) = 90%
35
3.4. FUNZIONI DI RIPARTIZIONE
60
40
0
20
F. Ripartizione (%)
80
100
Dimensione delle Famiglie (Censimento 2001)
0
1
2
3
4
5
6
7
Numero di Componenti
Figura 3.10: Funzione di ripartizione del numero di componenti delle famiglie,
censimento 2001 (fonte: ISTAT).
la cui soluzione è x0.90 = 16.05 ettari. Questo procedimento equivale a calcolare
la funzione inversa della funzione di ripartizione, cioè
−1
x0.90 = FX
(90%).
Nei due esempi precedenti la funzione di ripartizione risulta continua in tutto
il suo dominio. Questo risultato non è valido per le variabili discrete in cui la
frequenza è distribuita sulla retta numerica in pacchetti discreti.
Esempio 20 (Dimensione delle famiglie) Consideriamo il censimento del
2001. Per ogni numero reale x < 1, FX (x) = 0 perchè non ci sono unità osservabili in questo intervallo. Per x = 1, FX (1) = 24.9%, coincidente con la
frequenza relativa delle famiglie con 1 componente. Questo valore resta invariato
per ogni 1 ≤ x < 2, non potendosi osservare famiglie con un numero frazionario
di componenti. Per x = 2, FX (2) = 52.0%, valore uguale alla somma delle frequenze relative delle famiglie con 1 e 2 componenti. La funzione di ripartizione
è dunque una funzione costante a tratti, con punti di discontinuità coincidenti con le modalità aventi frequenza positiva (Figura 3.10). La sua espressione
36
STATISTICHE ORDINATE E QUANTILI
0.6
0.4
0.0
0.2
F. Ripartizione
0.8
1.0
Terremoti con magnitudo maggiore o uguale a 4
4.0
4.5
5.0
5.5
6.0
6.5
7.0
Magnitudo
Figura 3.11: Funzione di ripartizione empirica della magnitudo dei terremoti
(terremoti con magnitudo maggiore o uguale a 4, 22/12-29/12/2006).
completa è riportata di seguito.

0,
x < 1,




24.9,
1
≤
x < 2,




 52.0, 2 ≤ x < 3,
73.6, 3 ≤ x < 4,
FX (x) =


92.6,
4 ≤ x < 5,




98.4,
5
≤ x < 6,



100,
x ≥ 6.
La funzione di ripartizione assume solo alcuni valori dell’intervallo [0, 1] il che
comporta che quantili di ordine diverso possono coincidere. Si verifica facilmente, ad esempio, che x0.6 = x0.7 = 3 perchè la funzione di ripartizione “salta”
da 52.0% a 73.6%, senza passare per i valori intermedi.
La distribuzione di un campione di n elementi di una variabile numerica
ha le stesse proprietà di una variabile discreta in cui ogni valore osservato ha
37
3.4. FUNZIONI DI RIPARTIZIONE
una frequenza relativa costante, pari a 1/n. La corrispondente funzione di ripartizione, chiamata funzione di ripartizione empirica e indicata col simbolo Fbn per
distinguerla da quella della popolazione, ha il classico andamento “a gradini”
tipico delle distribuzioni discrete, con punti di discontinuità in corrispondenza
ai dati campionari.
Esempio 21 (Magnitudo dei terremoti) Il diagramma della funzione di ripartizione empirica (Figura 3.11) fornisce le stesse informazioni della presentazione ramo-foglie (Tabella 2.5), anche se in modo diverso. L’intervallo di
variazione dei dati è l’intervallo in cui 0 < Fbn < 1. Gli intervalli in cui il
fenomeno è più (meno) presente sono quelli in cui le variazioni di Fbn , misurate
dall’altezza dei “gradini”, si succedono a breve (lunga) distanza l’una dall’altra.
I dati sparsi sono invece preceduti da lunghi intervalli in cui Fbn è costante.
Riassumiamo di seguito le proprietà della funzione di ripartizione, insieme
con le principali formule operative.
D1. Il dominio di FX è l’insieme dei numeri reali e il codominio è l’intervallo
[0, 1], essendo FX la frequenza relativa dell’intervallo (−∞, x].
D2. Quando x tende all’estremo inferiore o superiore dell’intervallo di variazione, FX tende rispettivamente a 0 e a 1, cioè
lim FX (x) = 0, lim FX (x) = 1.
x→−∞
x→+∞
D3. FX è una funzione monotona non decrescente: se x1 < x2 , allora FX (x1 ) ≤
FX (x2 ).
D4. FX è continua almeno nell’intorno destro di x:
lim FX (x + ) = FX (x).
→0+
D5. La frequenza relativa dell’intervallo (a, b] è identicamente uguale alla differenza FX (b) − FX (a).
D6. Per le variabili continue la derivata di FX nel punto x0 coincide col valore
della densità in x0 :
d
FX (x)|x=x0 = fX (x0 ).
dx
D7. La differenza tra il limite destro ed il limite sinistro di FX nel punto x0
coincide col valore della frequenza relativa puntuale di x0 25 :
FX (x0 ) − lim+ FX (x0 − ) = fX (x0 ).
→0
25 Per
le variabili continue questo valore è pari a 0, perchè lim→0+ FX (x0 − ) = FX (x0 ),
essendo FX una funzione continua.
38
STATISTICHE ORDINATE E QUANTILI
D8. Per le variabili continue il quantile d’ordine p è il valore che assume la
funzione inversa di FX calcolata in p:
−1
xp = F X
(p), 0 < p < 1.
Questo valore esiste ed è unico per ogni 0 < p < 1 perchè FX è una
funzione continua monotona crescente.
D9. Nel caso delle variabili discrete, per superare le difficoltà create dalle
discontinuità di FX , la definizione viene modificata come segue:
xp = inf {x : FX (x) ≥ p} .
3.5
Dal campione alla popolazione
L’analisi di dati campionari deve farsi carico di un duplice compito: da un lato
descrivere adeguatamente le caratteristiche del campione, dall’altro inferire da
queste le caratteristiche della popolazione da cui il campione proviene. Nella
fase iniziale dello studio vengono preferiti gli strumenti che consentono un’esplorazione dettagliata dei dati e nello stesso tempo favoriscono la formazione
di ipotesi riguardanti la popolazione. Presentazione ramo-foglie e diagramma
scatola-baffi sono esempi emblematici al riguardo. La presentazione ramo-foglie
usa la statistica ordinata campionaria completa, il che permette di indagare
le peculiarità dei dati ma può anche far emergere caratteristiche distributive
dalle quali partire per elaborare le prime ipotesi sul profilo della popolazione.
Il diagramma scatola-baffi usa invece una sintesi molto più stringata dei dati
— i quartili — per valutare posizione, dispersione e forma. Questi elementi
forniscono un primo riscontro delle evidenze scaturite dalla presentazione ramofoglie e possono costituire il punto di partenza per la formulazione di ipotesi più specifiche riguardanti posizione, dispersione e forma della popolazione.
Un aspetto che merita di essere sottolineato è l’uso nel diagramma scatolabaffi di statistiche campionarie robuste, capaci di sopportare con un minimo di
distorsione un’elevata percentuale di contaminazione del campione.
Esempio 22 (Ordinari di Statistica) Al 31/12/2005 le università italiane
avevano in organico 341 ordinari di Statistica, 265 dei quali maschi, pari al
77.7% del totale. La Figura 3.12 confronta i diagrammi scatola-baffi dell’età
della popolazione degli ordinari maschi e di un campione casuale 26 di n = 35
unità. Nella popolazione l’età ha una distribuzione unimodale asimmetrica, sbilanciata a destra, con un dato esterno alle barriere in corrispondenza di x = 37
anni. I quartili sono x.25 = 54, x0.5 = 59, x0.75 = 64. Il campione rispecchia
abbastanza fedelmente le caratteristiche della popolazione, ma sono evidenti le
approssimazioni dovute all’errore di campionamento. I quartili del campione
26 Estrazioni
senza reinserimento.
39
3.5. DAL CAMPIONE ALLA POPOLAZIONE
Camp
Pop
Ordinari di Statistica (2005)
40
50
60
70
Età
Figura 3.12: Età degli ordinari di Statistica, 2005 (fonte: Ministero per
l’Università e la Ricerca).
sono x.25 = 57, x0.5 = 60, x0.75 = 63. È inesatta soprattutto la rappresentazione della coda sinistra dove i tre dati esterni alla barriera inferiore sono in realtà
riconducibili ad una ben precisa caratteristica della popolazione. L’estensione
alla popolazione delle proprietà osservate su un campione non è mai scontata,
richiede l’adozione di metodi di rilevazione adeguati e deve comprendere la quantificazione dell’errore dovuto al campionamento, almeno riguardo ai parametri
più importanti della popolazione.
Camp1 Camp2
Costituzione Italiana
5
10
15
Lunghezza delle parole
Figura 3.13: Lunghezza delle parole della Costituzione italiana.
40
STATISTICHE ORDINATE E QUANTILI
Il piano di campionamento può presentare caratteristiche molto diverse, ma
dovrebbe sempre prevedere forme di casualizzazione. L’esempio seguente adotta un campionamento a grappoli: da una popolazione divisa in G gruppi si
seleziona a caso un campione di g < G gruppi le cui unità sono poi sondate
esaustivamente.
Esempio 23 (Costituzione italiana) La Costituzione italiana è formata da
139 articoli, a loro volta divisi in paragrafi. Qual è la lunghezza delle parole
di un testo cosı̀ particolare? Per rispondere alla domanda abbiamo scelto un
campione casuale di 10 articoli in ciascuno dei quali abbiamo scelto a caso un
paragrafo. Nel campione di parole cosı̀ ottenuto abbiamo isolato nomi, aggettivi,
verbi ed avverbi, scartando tutto il resto. La Figura 3.13 mostra i diagrammi
scatola-baffi della lunghezza delle parole di due campioni ottenuti con la procedura descritta sopra. Le numerosità campionarie sono risultate uguali a 151 e
152 parole, rispettivamente. In entrambi i casi viene suggerita una distribuzione unimodale, forse simmetrica. La parte centrale della distribuzione potrebbe
andare da 5 a 10 lettere. Anche in questo caso è evidente l’errore introdotto dal
campionamento: la ripetizione dell’esperimento campionario, a parità di condizioni, produce risultati diversi. È lo studio di questa variabilità campionaria
che fornisce gli elementi per valutare l’errore di campionamento.
Media e deviazione
standard
Media e deviazione standard forniscono una sintesi di dati numerici che particolarmente semplice ed efficace per le distribuzioni unimodali simmetriche.
Inoltre, nell’analisi di campioni casuali, l’estensione alla popolazione è sostenuta da importanti risultati teorici, come la legge dei grandi numeri e il teorema
centrale di convergenza.
4.1
Media
La media27 dei dati x1 , . . . , xn , è uguale alla somma dei dati divisa per la loro
numerosità, cioè28
xn = (x1 + . . . + xi + . . . + xn )/n
n
X
=(
xi )/n.
i=1
Il simbolo xn è impiegato per la media campionaria; per la media della popolazione si usa di preferenza il simbolo µX 29 .
Esempio 24 (Presidenti) L’età media dei Presidenti della Repubblica al momento dell’elezione è
(IT )
µX
= (58 + 63 + 63 + 66 + 71 + 71 + 74 + 74 + 79 + 81 + 82)/11
= 782/11 ' 71.1
mentre l’età mediana è 71 anni, un valore molto vicino. Per i Presidenti ame(U S)
ricani del secondo dopoguerra l’età media è µX
= 630/11 ' 52.3, un valore
assai più basso della mediana che è pari a 56 anni. A cosa si deve questa
differenza?
27 Il
Ptermine media indica sempre la media aritmetica.
è il simbolo di sommatoria.
29 Questa convenzione riguarda altri indici, come la deviazione standard e il coefficiente di
correlazione lineare.
28
41
42
MEDIA E DEVIAZIONE STANDARD
Per le distribuzioni di frequenza delle variabili discrete, la formula di calcolo
della media diventa30
xn = (X1 n1 + . . . + Xh nh + . . . + XH nH )/n
=(
H
X
h=1
Xh nh )/n =
H
X
Xh f h ,
h=1
in cui fh = nh /n è la frequenza relativa della generica modalità Xh . Per ottenere
la media basta dunque sommare le modalità della variabile moltiplicate per le
rispettive frequenze relative.
Esempio 25 (Dimensione delle famiglie) Negli ultimi cinquant’anni il numero medio di componenti delle famiglie diminuisce costantemente passando da
3.6 componenti nel 1961 a 2.6 nel 2001 (Tabella 2.2). Per il 2001 la formula di
calcolo è
(01)
µX
= 1 × 0.249 + 2 × 0.271 + 3 × 0.216 + . . . ' 2.6.
Il risultato esatto non è ottenibile dai dati della tabella a causa dell’accorpamento
in un’unica classe delle famiglie con 6 componenti o più.
La media aritmetica, come la moda e la mediana, è usata per descrivere
puntualmente la posizione di una distribuzione sulla retta numerica. Se la distribuzione è simmetrica, la sua media coincide col centro di simmetria c. Infatti,
sotto l’ipotesi di simmetria, le modalità della variabile saranno c con frequenza
n0 , c − a1 e c + a1 con frequenza n1 , . . ., c − aH e c + aH con frequenza nH . Qui
a1 , . . . , aH sono numeri reali positivi e le frequenze n0 , n1 , . . . , nH hanno come
somma n, la numerosità delle unità rilevate. È evidente che, qualunque sia la
scelta di c, a1 , . . . , aH e di n0 , n1 , . . . , nH , la somma dei dati è nc e la media è
c31 .
Quindi, se la distribuzione è simmetrica, media e mediana sono uguali32 . Se
la distribuzione è anche unimodale, la moda dà una diagnosi coincidente con
quella degli altri due indici. Se la distribuzione è unimodale asimmetrica, i tre
indici danno misure di posizione diverse. Più precisamente, se la distribuzione
è sbilanciata a sinistra
xmoda ≤ x0.5 ≤ xn ,
mentre, se la distribuzione è sbilanciata a destra, l’ordinamento è rovesciato
xn ≤ x0.5 ≤ xmoda .
30 Se la modalità X ha frequenza n , il dato corrispondente si ripete n volte nell’n-upla
1
1
1
campionaria, pertanto nel calcolo della media X1 dovrà essere moltiplicato per n1 . Lo stesso
vale per le modalità X2 , . . . , XH .
31 Almeno una delle frequenze n , n , . . . , n
0
1
H dev’essere positiva.
32 Nel caso discreto, la mediana può differire da c se la sua frequenza n è nulla.
0
43
4.1. MEDIA
Esempio 26 (Bilanci familiari) La distribuzione del reddito familiare (Figura 3.6) è unimodale asimmetrica, fortemente sbilanciata a sinistra. Nel campione di 8012 famiglie la classe modale è [15000, 20000), il reddito mediano 24200
euro e il reddito medio 29870. La differenza tra media e mediana, in rapporto
allo scarto interquartilico, è (29870 − 24200)/(37220 − 15820) ' 0.26. Questo
risultato indica che la distanza tra i due indici di posizione è circa 1/4 della
distanza tra il terzo ed il primo quartile, un valore tutt’altro che trascurabile.
0.004
0.000
Densità
0.008
Maratona Maschile
300
350
400
450
500
550
Tempo (Scarto da 2 ore, secondi)
Figura 4.14: Migliori tempi (secondi) nelle maratone maschili.
Esempio 27 (Maratona) La Figura 4.14 mostra l’istogramma delle migliori
prestazioni registrate in competizioni ufficiali. I tempi, in secondi, sono espressi
come differenza rispetto a due ore. La distribuzione è unimodale asimmetrica,
sbilanciata a destra. La classe modale è [500, 525), il tempo mediano 492 secondi,
il tempo medio 481 secondi. La differenza tra media e mediana, in rapporto allo
scarto interquartilico, è (481 − 492)/(518 − 458) ' −0.18.
Gli esempi precedenti suggeriscono che la differenza tra media e mediana può
fornire una diagnosi del grado di asimmetria di una distribuzione. Per agevolare
44
MEDIA E DEVIAZIONE STANDARD
l’interpretazione è opportuno dividere la differenza per lo scarto interquartilico
(xn − x0.5 )/(x0.75 − x0.25 ).
Se il rapporto tende a 0, la diagnosi è di simmetria. Un rapporto negativo o
positivo suggerisce una distribuzione sbilanciata a destra o a sinistra33 .
La moda si posiziona in corrispondenza del picco più alto dell’istogramma e
la mediana è il punto di dimezzamento della sua area. L’interpretazione della
media è più sofisticata: essa rappresenta il baricentro dell’istogramma. Questa
proprietà scaturisce dal seguente modello fisico della distribuzione di frequenza. Se su un’asta rigida graduata riportiamo la posizione dei dati osservati ed
applichiamo a ciascuno un peso uguale alla corrispondente frequenza, la media
viene a cadere proprio nel punto in cui si deve sospendere l’asta affinchè resti
in equilibrio, cioè nel baricentro. Alla luce di questo risultato appare ovvio che
la media delle distribuzioni simmetriche sia il centro di simmetria. Esso spiega
anche la scarsa resistenza della media alla contaminazione del campione con dati
estremi. Consideriamo il campione x1 , . . . , xn con media xn . Supponiamo che,
al posto di x1 , si legga per errore x
e1 = x1 +e, in cui e è un numero reale qualsiasi.
È chiaro che la media diventa x∗n = xn + e/n e può divergere arbitrariamente
dal valore esatto.
Esempio 28 (Presidenti) Supponiamo di sostituire l’età minima x(1) = 58
(corrispondente a F. Cossiga) con un dato perturbato, inferiore. Se, ad esempio,
x
e(1) = 57, la media perturbata risulta x∗n = 71. La mediana, da parte sua, non
varia affatto. Per modificare la mediana è infatti necessario sostituire almeno
la metà dei dati campionari. La Figura 4.15 mostra la variazione della media e
della mediana quando l’età minima varia da 58 a 40.
La mediana è assai più resistente della media alla contaminazione del campione. Pertanto il confronto dei due indici, oltre a dare informazioni sulla forma
della distribuzione, può rivelare la presenza di dati contaminanti nelle code della
distribuzione.
4.2
Momenti
La media è il rappresentante più noto della famiglia dei momenti. Si definisce
momento di ordine s (s può assumere i valori 1, 2, . . .) la media aritmetica delle
potenze di esponente s dei dati34
(s)
mX = (
n
X
xsi )/n.
i=1
33 Una
distribuzione sbilanciata a sinistra viene detta asimmetrica positivamente, perchè la
differenza xn − x0.5 è positiva, essendo la media maggiore della mediana. Analogamente, una
distribuzione sbilanciata a destra viene detta asimmetrica negativamente.
PH
34 Per una distribuzione di frequenze, la formula di calcolo è m (s) =
h=1 Xh fh .
X
45
4.3. DEVIAZIONE STANDARD
0.0
Non Robustezza della Media
−0.5
−1.0
−1.5
Errore nell’indice di posizione
media
mediana
−15
−10
−5
0
Errore nel dato
Figura 4.15: Effetto su media e mediana della perturbazione dell’età minima
dei presidenti italiani.
(s)
Il simbolo mX è riservato ai momenti campionari; i momenti della popolazione
(s)
si indicano con µX . I momenti più usati sono quello d’ordine 1, coincidente con
la media, e quelli d’ordine 2 e 3.
Esempio 29 (Età dei Presidenti) Il momento d’ordine 2 dell’età dei Presidenti italiani è
(2)
µX,IT = (582 + 632 + . . . + 822 )/11
= 56218/11 ' 5110.727
(2)
e quello dei Presidenti americani è µX,U S = 3334.182.
4.3
Deviazione standard
La media ci informa dove si trova il baricentro della distribuzione. Se ci viene
riferito che l’età media dei Presidenti italiani è di circa 71.1 anni, siamo indotti
a pensare che le età degli 11 Presidenti si collocano attorno a questo valore.
46
MEDIA E DEVIAZIONE STANDARD
La media tuttavia non dà alcuna informazione circa la dispersione dei dati.
Infatti distribuzioni con la stessa media possono presentare caratteristiche molto
diverse. Se due studenti, A e B, hanno i seguenti voti (in trentesimi)
A : 23, 24, 24, 25, 25, 25, 26, 26, 27,
B : 20, 20, 24, 24, 25, 26, 26, 30, 30,
il voto medio (e mediano), 25, è lo stesso ma i voti di B sono più dispersi dei
voti di A. È chiaro che la media descrive meglio la distribuzione dei voti di A.
La corretta interpretazione di un indice di posizione richiede che il suo adattamento alla distribuzione sia descritto da una misura della dispersione dei dati.
Per la media questa misura è la deviazione standard35
r Pn
2
i=1 (xi − xn )
sX =
n
r Pn
2
i=1 xi
− (xn )2 .
=
n
La quantità all’interno della radice, la varianza s2X , è l’ingrediente base della
deviazione standard, interpretabile come la media delle distanze al quadrato
(xi − xn )2 dei dati dalla media. La seconda linea della formula, utilizzata per
i calcoli, mostra che la varianza è identicamente uguale alla differenza tra il
momento secondo e il quadrato del momento primo (cioè la media). Per le
distribuzioni di frequenze la distanza quadratica di ogni modalità dalla media
(Xh − xn )2 dev’essere moltiplicata per la corrispondente frequenza relativa
v
uH
uX
sX = t (Xh − xn )2 fh
h=1
v
uH
uX
=t
Xh 2 fh − (xn )2 .
h=1
n = 11
-0| 43 si legge -4.3 anni
31
01,01,51,81
99,79,29,29
09
-1
-0
0
1
33,03
43,23,23,13
37,37,57,77
27
Tabella 4.12: Scostamenti delle età dei Presidenti dalla media (a sinistra
Presidenti italiani, a destra americani).
35 La
deviazione standard della popolazione si indica con la lettera greca σ X .
4.3. DEVIAZIONE STANDARD
47
Esempio 30 (Età dei Presidenti) La varianza dell’età degli 11 Presidenti è
la differenza tra il momento secondo e il quadrato del momento primo,
(2)
2
σX,IT
= µX,IT − (µX,IT )2
' 5110.727 − 5053.917 = 56.81.
q
2
La deviazione standard è dunque σX,IT = σX,IT
' 7.5. Questo risultato ci
informa che i dati, in media, distano dalla media µX,IT ' 71.1 circa 7.5 anni. La Tabella 4.12 mostra che gli scostamenti dei dati dalla media variano da
un minimo di −13.1 (F. Cossiga) a +10.9 (S. Pertini). Nella presentazione
ramo-foglie il valore 0 corrisponde alla media. L’intervallo centrato sulla media di semi-ampiezza uguale alla deviazione standard (71.1 ∓ 7.5) = (63.6, 78.6)
contiene i dati la cui distanza dalla media è inferiore o al massimo uguale alla
deviazione standard. Nel nostro caso 5 dati hanno una distanza dalla media inferiore alla deviazione standard, mentre gli altri 6 hanno una distanza superiore.
Per i Presidenti americani gli scostamenti dei dati dalla media variano da un
minimo di −13.3 (J. F. Kennedy) a +12.7 (R. Reagan), l’intervallo centrato
sulla media è (57.3 ∓ 7.3) = (49.9, 64.6) e contiene 7 dati su 11.
Media e deviazione standard sono indici espressi nella stessa unità di misura
e quindi comparabili. La media indica, approssimativamente, la posizione della
distribuzione sulla retta numerica. Il valore della deviazione standard36 consente
di definire un intorno della media, l’intervallo (xn ∓ sX ), all’interno del quale si
collocano i dati la cui distanza dalla media è inferiore o al massimo uguale alla
“distanza media”. Questo intervallo è diverso da quello basato sui quartili estremi (x0.25 , x0.75 ). È un risultato empirico sorprendente, ma utile, che all’interno
degli intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX ) si trovano
spesso percentuali dei dati approssimabili a 68%, 95%, 99%, rispettivamente.
L’intervallo di semi-ampiezza pari a tre volte la deviazione standard in moltissimi casi comprende la quasi totalità dei dati37 . L’approssimazione è migliore
per le distribuzioni unimodali simmetriche, in particolare per le distribuzioni
normali.
Esempio 31 (Premi Nobel) Media e deviazione standard delle età dei premi
(F )
(F )
Nobel per la Fisica sono µX = 53.8 e σX = 12.8 anni. Gli scostamenti dei
dati dalla media (Tabella 4.13) vanno da un minimo di −28.75 ad un massimo di
(F )
(F )
+34.25. L’intervallo (µX ∓ σX ) è (41.0, 66.5) e contiene 120 casi osservati su
(F )
(F )
177, pari al 67.8% del totale. Un solo dato è esterno all’intervallo (µ X ∓3σX ).
36 La deviazione standard assume valori non negativi ed è uguale a zero se e solo se la
distribuzione è degenere.
37 Equivalentemente, dati distanti dalla media più di tre volte la deviazione standard sono
molto rari. Tuttavia questa proprietà non è utilizzabile per la ricerca dei dati statisticamente
anomali, perchè sia la media che la deviazione standard possono esserne alterati.
48
MEDIA E DEVIAZIONE STANDARD
n = 177
1| 6 si legge 16 anni
-2
-2
-1
-1
-0
-0
0
0
1
1
2
2
3
9
3333210
999987777766655
4444432222222211100000
999998888888777776666655555555
4444433321111111
0000001111122222233344
5555555666666777778899999
000000112233444
6777888899
01222334
566
034
Tabella 4.13: Scostamenti delle età dei premi Nobel per la Fisica dalla media.
4.4
Minimi quadrati
A rigore, una distribuzione degenere38 è una non-distribuzione, in cui tutte le
unità rilevate presentano esattamente la stessa determinazione, c, della variabile. La corrispondente distribuzione di frequenze vale 100% nel punto c, 0%
dappertutto altrove. Supponiamo di aver osservato i dati x1 , . . . , xi , . . . , xn . La
ricerca di un indice di posizione equivale a determinare una costante c, cioè una
distribuzione degenere, che approssima al meglio i dati. Idealmente, il calcolo
della media ai dati veri x1 , . . . , xi , . . . , xn sostituisce i dati costanti c, . . . , c, . . . , c,
producendo gli errori x1 − c, . . . , xi − c, . . . , xn − c. Qui sorge un problema interessante: qual è la costante c ottimale, che riduce al minimo l’errore? Per
risolverlo, è necessario aggregare gli errori elementari x1 − c, x2 − c, . . . , definendo una misura dell’errore totale. La misura più utilizzata è la media dei quadrati
degli errori elementari
((x1 − c)2 + . . . + (xi − c)2 + . . . + (xn − c)2 )/n
n
X
= n−1
(xi − c)2 .
i=1
Poichè i dati x1 , . . . , xn sono fissi, l’espressione precedente è una funzione dipendente solo da c, che può assumere ogni valore reale. Indichiamo con L2 (c) questa
funzione39 . Si dimostra il seguente risultato.
38 Non si deve confondere la distribuzione degenere, in cui le determinazioni della variabile
sono costanti, con la distribuzione uniforme in cui la densità di frequenza è costante su tutto l’intervallo di variazione. Nelle distribuzioni uniformi la variabile assume determinazioni
diverse.
Pn
39 L (c) = n−1
2
2
i=1 (xi −c) è una semplice trasformazione della norma euclidea del vettore
degli errori (x1 − c, . . . , xn − c).
49
4.4. MINIMI QUADRATI
Teorema 1 (Proprietà dei minimi quadrati) La media dei quadrati degli
errori dei dati x1 , . . . , xn dalla costante c è minima quando c è la media di
x1 , . . . , xn . In questo caso essa coincide con la varianza.
La dimostrazione del teorema richiede un lemma introduttivo.
Lemma 2 (Scostamenti dalla media) La media degli errori dei dati x1 , . . . , xn
dalla loro media è identicamente nulla.
Dimostrazione. Dobbiamo provare che risulta
n−1
n
X
i=1
(xi − xn ) = 0.
A tale scopo basta mostrare che
n
X
i=1
(xi − xn ) = (x1 − xn ) + (x2 − xn ) + . . . + (xn − xn ) = 0.
Sciogliendo le parentesi e sommando algebricamente i termini simili otteniamo
n
n
n
X
X
X
xi −
xi = 0
xi − nxn =
perchè nxn =
Pn
i=1
i=1
i=1
i=1
xi .
Dimostrazione. Consideriamo
dapprima il termine generico (xi − c)2 della
Pn
−1
2
funzione L2 (c) = n
i=1 (xi − c) . Aggiungendo e togliendo la media x n
otteniamo l’espressione equivalente
(xi − c)2 = {(xi − xn ) + (xn − c)}
2
= (xi − xn )2 + 2(xn − c)(xi − xn ) + (xn − c)2 .
Se sostituiamo questa espressione in L2 (c) risulta
L2 (c) = n−1
n
X
i=1
(xi − xn )2 + 2n−1 (xn − c)
n
X
i=1
(xi − xn ) + (xn − c)2
perchè (xn − c) è costante rispetto all’indice della sommatoria e può essere
messo in evidenza. Il secondo termine è identicamente nullo in base al Lemma
2, pertanto
L2 (c) = n−1
n
X
i=1
=
s2X
(xi − xn )2 + (xn − c)2
+ (xn − c)2 .
50
MEDIA E DEVIAZIONE STANDARD
L’ultima espressione mostra che L2 (c) è la somma di due termini non negativi,
dei quali solo il secondo dipende da c. Per minimizzare L2 (c) si deve dunque
minimizzare (xn − c)2 rispetto a c e per farlo si deve porre c = xn .
È una semplice conseguenza del teorema precedente la formula di calcolo
della varianza.
Corollario 3 (Formula di calcolo della varianza)
(2)
(1)
s2X = mX − (mX )2
n
X
= n−1
x2i − (xn )2 .
i=1
Dimostrazione. In base al Teorema 1, per ogni numero reale c, vale la
seguente identità
n
X
(xi − c)2 − (xn − c)2 .
s2X = n−1
i=1
La dimostrazione si ottiene sostituendo nell’espressione precedente c = 0.
Il messaggio del Teorema 1 è chiaro. Se l’obiettivo è minimizzare la media dei
quadrati degli errori, non ci sono alternative alla media aritmetica. Qualsiasi
altra scelta c 6= xn produrrebbe infatti un aumento della media dei quadrati
degli errori, pari a (xn − c)2 .
Esempio 32 (Carta di credito) In media, tra un pagamento e l’altro, passano x62 = 431/62 ' 6.96 giorni (Tabella 3.11). La varianza della distribuzione
è s2X = 6741/62 − (431/62)2 ' 60.4 e quindi sX ' 7.77 giorni. L’intervallo
(xn ∓ sX ) risulta (0, 14.7) e comprende l’83.9% dei dati. La mediana della distribuzione è x0.5 = 4 giorni. Se al posto della media usassimo la mediana, la
media dei quadrati degli errori sarebbe maggiore di 60.4. In base al Teorema 1,
ponendo c = x0.5 si otterrebbe
L2 (x0.5 ) = s2X + (xn − x0.5 )2 ' 60.4 + (6.96 − 4)2 ' 69.2,
con un incremento rispetto al valore ottimale del 14.5%.
A prima vista, il Teorema 1 sembra far tabula rasa degli indici di posizione
diversi dalla media, come ad esempio la mediana. Le cose non stanno cosı̀.
Il teorema riposa sull’adozione di una particolare misura aggregata degli errori
elementari xi −c che è additiva e quadratica. L’adozione di una diversa forma di
aggregazione porterebbe a risultati diversi. Un esempio importante è la media
degli errori assoluti
n
X
−1
L1 (c) = n
| xi − c | .
i=1
51
4.5. TRASFORMAZIONI
per la quale la costante ottimale40 è la mediana.
Teorema 4 (Proprietà dei minimi errori assoluti) La media degli errori
in valore assoluto dei dati x1 , . . . , xn dalla costante c è minima quando c è la
mediana di x1 , . . . , xn .
Esempio 33 (Carta di credito) La media degli errori assoluti dalla mediana
risulta
n
X
L1 (x0.5 ) = (
| xi − x0.5 |)/62 = 343/62 ' 5.53.
i=1
La media degli errori assoluti rispetto alla media è invece
L1 (x0.5 ) = (
n
X
i=1
| xi − x62 |)/62 = 378.2258/62 ' 6.10 > L1 (x0.5 ),
come previsto dal teorema.
4.5
Trasformazioni
L’analisi statistica dei dati richiede talvolta di operare trasformazioni della variabile X riconducibili a funzioni matematiche t(X) il cui effetto è di definire una
nuova variabile Y = t(X). Ai dati osservati originariamente x1 , . . . , xi , . . . , xn
subentrano i dati trasformati y1 = t(x1 ), . . . , yi = t(xi ), . . . , yn = t(xn ) il cui
studio è eseguibile con gli strumenti grafici ed analitici usuali. Il problema
statistico è di riuscire a dedurre le caratteristiche distributive della variabile
trasformata Y da quelle della variabile d’origine X, evitando di ripetere ex novo
tutta l’analisi.
Esempio 34 (Maratona) Se X è il tempo impiegato a coprire il percorso, la
velocità41 V è calcolabile mediante la formula V = s0 /X, in cui s0 = 42.195 km
è la distanza fissata ufficialmente. Il 28/9/2003 P. Tergat stabilı̀ il record mondiale di 2 ore, 4 minuti e 55 secondi, corrispondente ad una velocità v = 20.27
km/h. La trasformazione in questo caso è monotona decrescente, non lineare. La curva di densità della velocità (Figura 4.16) è unimodale asimmetrica,
con un picco molto pronunciato nella classe (19.65, 19.70), fortemente sbilanciata a sinistra. I quartili della distribuzione sono v0.25 = 19.68, v0.5 = 19.75,
v0.75 = 19.84 km/h ed è facile verificare la seguente relazione con i quartili dei
tempi
vp = s0 /x1−p .
Media e deviazione standard delle velocità sono v ' 19.778, s V ' 0.1219 km/h
e non c’è una particolare relazione con la media e la deviazione standard dei
tempi. In particolare, v 6= s0 /x = 19.77725.
P
= n−1 n
i=1 | xi − c | è una semplice trasformazione della norma L1 del vettore
(x1 − c, . . . , xn − c).
41 Velocità media su tutto il percorso.
40 L
1 (c)
52
MEDIA E DEVIAZIONE STANDARD
3
2
0
1
Densità
4
5
Migliori Risultati Maratona Maschile
19.6 19.7 19.8 19.9 20.0 20.1 20.2 20.3
Velocità (km/h)
Figura 4.16: Velocità (km/h) nella maratona maschile.
Un esempio di trasformazione è l’algoritmo utilizzato per calcolare l’importo
delle bollette delle utenze domestiche. In generale, se X è il consumo, l’importo
da pagare è Y = t(X).
Esempio 35 (Consumi di energia elettrica) Riportiamo di seguito la statistica ordinata dei consumi bimestrali di energia elettrica (in kw/h) di un
campione di 11 famiglie
141, 146, 150, 158, 166, 178, 209, 230, 237, 294, 405.
Il sistema tariffario prevede un costo fisso c0 ed un prezzo variabile a seconda
del consumo, c1 per i consumi fino a x0 , c2 > c1 per quelli eccedenti x0 . La
formula matematica per calcolare l’importo della bolletta è
c0 + c1 X,
se X ≤ x0 ,
Y = t(X) =
c0 + c1 x0 + c2 (X − x0 ), se X > x0 ,
una trasformazione monotona crescente di X. Applicando la formula ai consumi
del nostro campione con c0 = 3.5, c1 = 0.0944, c2 = 0.1138 ed x0 = 150 kw/h,
si ottengono i seguenti risultati (valori in euro)
16.8, 17.3, 17.7, 18.5, 19.4, 20.8, 24.4, 26.8, 27.5, 34.1, 46.7.
53
4.5. TRASFORMAZIONI
Il consumo mediano di energia è x(6) = 178 e l’importo mediano è y(6) = 20.8.
Si verifica che le mediane sono legate dalla relazione y0.5 = t(x0.5 ). Media e
deviazione standard dei consumi sono x11 = 210, sX = 76.5 kw/h. Media e
deviazione standard degli importi sono y 11 = 24.55, sY = 8.69 ed anche in
questo caso non emerge una relazione con le corrispondenti statistiche di X.
Gli esempi precedenti suggeriscono che, se la trasformazione t(.) è monotona,
è possibile ricavare i quantili di Y da quelli di X. Se t(.) è monotona crescente,
essa conserva l’ordinamento, cioè
y(i) = t(x(i) ), i = 1, . . . , n.
Data la relazione tra le statistiche ordinate e i quantili, questo implica che
yp = t(xp ). Se t(.) è monotona decrescente, essa inverte l’ordinamento, cioè
y(i) = t(x(n−i+1) ), i = 1, . . . , n,
pertanto yp = t(x1−p ). Abbiamo cosı̀ dimostrato il seguente teorema.
Teorema 5 (Quantili di trasformazioni monotone) Se Y = t(X) è una
trasformazione monotona di X, allora
t(xp ),
se t(.) è monotona crescente,
yp =
t(x1−p ), se t(.) è monotona decrescente.
Una trasformazione lineare è sempre riconducibile all’espressione
Y = a + bX,
in cui a e b, i coefficienti della trasformazione, sono numeri reali qualsiasi42 . Essa
è interpretabile come la composizione di due trasformazioni: una traslazione,
il termine additivo a, e un cambiamento di scala, il prodotto bX 43 . Sono casi
particolari delle trasformazioni lineari le trasformazioni di pura scala, quando
a = 0, e le traslazioni, quando b = 1.
Nella misura della temperatura, il passaggio dalla scala Celsius alla scala
Fahrenheit è definito dalla relazione
TF = 32 + (9/5)TC ,
una trasformazione lineare con a = 32 e b = 9/5. La sostituzione della lira con
l’euro ha richiesto la conversione delle grandezze monetarie mediante la relazione
Yeuro = Ylire /1927.36,
una trasformazione di pura scala con b = 1/1927.36. Osserviamo infine che la
trasformazione Y = −X, che opera una riflessione speculare dei dati X rispetto
allo zero, è una trasformazione lineare con a = 0 e b = −1.
42 Supporremo
43 Se
sempre b 6= 0, onde evitare che Y abbia una distribuzione degenere.
b < 0, il cambiamento di scala comprende il rovesciamento del verso della scala.
54
MEDIA E DEVIAZIONE STANDARD
n = 31
4| 1 si legge 41◦ F
2
2
3
3
4
4
5
44
0144
5777888
0111444
577899
11223
Tabella 4.14: Temperature medie giornaliere (◦ C) a New York, gennaio 2006.
Esempio 36 (Temperature a New York) La Tabella 4.14 mostra le temperature medie giornaliere, in gradi Fahrenheit, registrate nel mese di gennaio
2006 a New York, Central Park. Ad esempio, la temperatura del 15/1/2006 è
24◦ F , corrispondente a −4.4◦C, circa. Poichè lo zero della scala Celsius corrisponde a 32◦ F , dalla tabella risulta che solo 4 giorni hanno fatto registrare una
temperatura media al di sotto di 0◦ C. Viceversa, 5 giorni hanno avuto una temperatura media superiore a 10◦ C. Come risulta dalla Tabella 4.15, il passaggio
dall’una all’altra scala comporta una traslazione e una contrazione dell’intervallo unitario (la variazione di 1◦ F equivale ad una variazione di (5/9)C), ma
queste trasformazioni non alterano le caratteristiche generali della distribuzione.
n = 31
0| 67 si legge 6.7◦ C
-0
0
0
1
44,44,11,06
11,11,17,28,28,28,33,33,33,44
50,50,50,67,67,67,72,83,83,89,94,94
06,06,11,11,17
Tabella 4.15: Temperature medie giornaliere (◦ C) a New York, gennaio 2006.
Gli effetti delle trasformazioni lineari sulle distribuzioni statistiche sono descrivibili facilmente.
Consideriamo dapprima il caso b > 0, in cui la trasformazione è crescente.
Se b < 1, il campo di variazione della variabile si riduce di un fattore pari a b
e la proprietà di normalizzazione delle distribuzioni di frequenza comporta che
la densità di frequenza aumenta uniformemente di un fattore pari a 1/b. In un
ipotetico istogramma, l’ampiezza di ogni classe si riduce, essendo moltiplicata
per b, e la corrispondente densità di frequenza aumenta, essendo moltiplicata
per 1/b. L’area, cioè la frequenza relativa, non cambia perchè le due variazioni
si compensano esattamente. Se b > 1, si osserva l’effetto opposto: l’ampiezza
del campo di variazione aumenta di un fattore pari a b e la densità di frequenza diminuisce uniformemente di un fattore pari a 1/b. Il termine additivo, a,
produce una traslazione della curva di densità lungo la retta numerica, verso
55
4.5. TRASFORMAZIONI
sinistra se a < 0, verso destra se a > 0. In definitiva, quando b > 0, una trasformazione lineare modifica la posizione e la dispersione della distribuzione, ma
l’andamento della curva di densità (unimodalità o multimodalità, simmetria o
asimmetria, uniforme, ecc.) rimane immutato.
Il caso b < 0 è riconducibile al precedente, con l’aggiunta di una riflessione
della curva di densità rispetto all’origine. Quest’ultima altera alcune caratteristiche della curva di densità: in una distribuzione unimodale il ramo crescente della curva di densità diventa quello decrescente e viceversa, l’asimmetria
positiva diventa negativa e viceversa.
La precedente discussione ha già chiarito che una trasformazione lineare
modifica sia la posizione che la dispersione di una distribuzione. Gli effetti sui
quantili sono descritti dal Teorema 5, quelli sulla media e la deviazione standard
sono descritti nel teorema seguente.
Teorema 6 (Media e deviazione standard di trasformazioni lineari) Se
i dati x1 , . . . , xn hanno media xn e deviazione standard sX , la media e la deviazione standard della trasformazione lineare Y = a + bX sono rispettivamente
y n = a + bxn ,
sY =| b | sX .
Dimostrazione. I dati trasformati sono y1 = a+bx1 , . . . yi = a+bxi , . . . , yn =
a + bxn e la loro media è
y n = (y1 + . . . + yi + . . . + yn )/n
= {(a + bx1 ) + . . . + (a + bxi ) + . . . + (a + bxn )} /n
= {na + b(x1 + . . . + xi + . . . + xn )} /n
= a + bxn .
Analogamente, la varianza dei dati trasformati è
s2Y = (y1 − y n )2 + . . . + (yn − yn )2 /n
= (a + bx1 − a − bxn )2 + . . . + (a + bxn − a − bxn )2 /n
= b2 (x1 − xn )2 + . . . + b2 (xn − xn )2 /n
= b2 s2X .
Estraendo la radice quadrata della varianza si ottiene la deviazione standard
sY =| b | sX .
È importante notare che, mentre la media subisce una trasformazione uguale
a quella dei dati44 , la deviazione standard non risente del termine additivo a
(la dimostrazione chiarisce che esso si elide nella differenza tra ciascun dato e
44 Questa
proprietà è definita equivarianza della media rispetto alle trasformazioni lineari.
56
MEDIA E DEVIAZIONE STANDARD
la media), ma solo del coefficiente di scala b, in valore assoluto. Si dimostra
facilmente che questa proprietà è condivisa dal campo di variazione e dallo
scarto interquartilico:
y(n) − y(1) =| b | (x(n) − x(1) ,
y0.75 − y0.25 =| b | (x0.75 − x0.25 ).
◦
F
◦
C
x(1)
24
−4.4
x0.25
37
2.8
x0.5
41
5.0
x
41.2
5.1
x0.75
47.5
8.6
x(n)
53
11.7
sX
7.8
4.3
Tabella 4.16: Statistiche riassuntive delle temperature medie giornaliere a New
York, gennaio 2006.
Esempio 37 (Temperature a New York) La Tabella 4.16 riporta alcune statistiche riassuntive, in gradi Fahrenheit e in gradi Celsius, delle temperature
medie giornaliere di gennaio 2006 a New York. Il passaggio alla scala Celsius non richiede la conversione dei dati osservati. Poichè la trasformazione
TC = 5(TF − 32)/9 è lineare e crescente, basta applicare i Teoremi 5 e 6. Per
ottenere la temperatura media e la deviazione standard, i calcoli necessari sono
x(◦ C) = 5(41.16 − 32)/9 ' 5.09,
sX (◦ C) = 5 × 7.8/9 ' 4.3.
Analogamente, la temperatura mediana è
x0.5 (◦ C) = 5(41 − 32)/9 ' 5.0.
4.6
Scala standard
Una trasformazione lineare crescente Y = a + bX, b > 0, modifica posizione
e dispersione della distribuzione, lasciando per il resto inalterato l’andamento
della curva di densità. Questo risultato suggerisce che la scelta della scala di
misura di un fenomeno non è obbligata, ma può essere variata in funzione di particolari esigenze. In particolare, è utile scegliere la scala di misura in modo che
media e deviazione standard assumano valori costanti per tutte le distribuzioni,
favorendone la comparabilità.
Nel Teorema 6 abbiamo dimostrato che y n = a + bxn e sY =| b | sX . Se
scegliamo a = −xn /sX e b = 1/sX , i dati trasformati avranno media nulla e deviazione standard unitaria. Questa particolare trasformazione, indicata con XST , è chiamata standardizzazione ed implica l’adozione di una scala
di misura45 dei dati tale che lo zero della scala corrisponde alla media della
45 Questa scala è chiamata scala standard e le coordinate dei dati rispetto ad essa sono
chiamati punteggi standard.
57
4.6. SCALA STANDARD
distribuzione e la lunghezza del segmento unitario coincide con la deviazione
standard.
La scala standard è adimensionale e facilmente interpretabile. Consideriamo
il punteggio standard, xST = (x − xn )/sX , di una unità di rilevazione. La sua
posizione è inferiore, uguale o superiore alla media a seconda che xST < 0,
xST = 0 oppure xST > 0. Inoltre il valore assoluto | xST | indica che la
distanza dalla media è pari a | xST | volte la deviazione standard. È chiaro
che ai tre intervalli centrati sulla media (xn ∓ sX ), (xn ∓ 2sX ), (xn ∓ 3sX )
corrispondono sulla scala standard gli intervalli (−1, 1), (−2, 2), (−3, 3) i quali
avranno la stessa frequenza relativa delle loro antiimmagini. Se la distribuzione
è unimodale simmetrica, queste frequenze relative sono prossime a 68%, 95%,
99%.
Esempio 38 (Età dei Presidenti) Il punteggio standard dell’età di G. Gronchi
è −1.073. Esso indica che la sua età è inferiore all’età media degli 11 Presidenti e lo scostamento dalla media è di poco superiore alla deviazione standard. Il
punteggio standard di L. Einaudi è 0.386: egli è dunque più anziano della media,
ma in misura contenuta perchè lo scostamento dalla media è meno della metà
della deviazione standard. Come si vede, l’interpretazione dei punteggi standard
è immediata e non richiede che siano noti i valori della media e della deviazione
standard dei dati di partenza.
R
A
O
Docenti di Statistica per Qualifica (2005)
30
40
50
60
70
Età
Figura 4.17: Età dei docenti di Statistica, per qualifica (R: ricercatori; A:
associati; O: ordinari), anno 2005.
La scala standard, essendo adimensionale, è utilizzata per confrontare variabili con ordine di grandezza, e anche unità di misura, diversi. Si deve sottolineare che tale confronto non riguarda posizione e dispersione che sono state
“parificate” dalla standardizzazione.
58
MEDIA E DEVIAZIONE STANDARD
Esempio 39 (Docenti di Statistica) Al 31/12/2005 le università italiane avevano in organico 832 docenti di Statistica, ripartiti in ricercatori (27.0%), professori associati (32.0%), professori ordinari (41.0%). I diagrammi scatola-baffi
delle età (Figura 4.17) riassumono le caratteristiche principali: l’età aumenta
con la qualifica, la tipologia distributiva è unimodale asimmetrica, sbilanciata
a sinistra per i ricercatori e gli associati, a destra per gli ordinari. I diagrammi dei punteggi standard (Figura 4.18) perdono l’informazione sul legame tra
età e qualifica ma conservano l’informazione sulla tipologia distributiva. La posizione della mediana rispetto alla media (corrispondente allo zero della scala)
è coerente con le caratteristiche delle tre distribuzioni.
R
A
O
Docenti di Statistica per Qualifica (2005)
−2
−1
0
1
2
Età (Punteggi Standard)
Figura 4.18: Età (punteggi standard) dei docenti di Statistica, per qualifica (R:
ricercatori; A: associati; O: ordinari), anno 2005.
4.7
Unità divise in gruppi
Media e varianza sono gli elementi basilari di un classico modello di analisi di
dati divisi in gruppi. I presupposti sono una partizione delle unità di rilevazione
in H gruppi e una variabile numerica Y osservabile su ciascuna unità. Il dato
(h)
generico yi è contraddistinto da due indici: l’indice h si riferisce al gruppo di
appartenenza, 1 ≤ h ≤ H, l’indice i enumera le unità all’interno del gruppo,
1 ≤ i ≤ nh . Le numerosità dei gruppi sono n1 , . . . , nh , . . . , nH e la loro somma
n1 + . . . + nH è pari a n, la numerosità totale.
Questa struttura si presenta in molte situazioni. Un esempio è la rilevazione
delle assenze per malattia dei dipendenti di un’impresa avente H > 1 unità
locali. La variabile è il numero di giorni di assenza per malattia, le unità di
rilevazione sono i dipendenti e i gruppi sono le unità locali. L’ipotesi di partenza
è l’omogeneità delle assenze per malattia nelle diverse unità locali. Un altro
esempio è la durata degli studi di un campione di laureati triennali di varie
59
4.7. UNITÀ DIVISE IN GRUPPI
facoltà. La variabile è la durata degli studi, le unità di rilevazione sono i laureati
triennali e i gruppi sono le facoltà. In generale, la struttura di dati divisi in
gruppi si presenta ogni volta che una variabile d’interesse principale Y è rilevata
congiuntamente ad una variabile di stratificazione X: le modalità della variabile
di stratificazione definiscono i gruppi.
L’ipotesi di base è l’omogeneità dei gruppi, cioè le distribuzioni parziali di Y
nei diversi gruppi sono uguali. Questa ipotesi, molto restrittiva, è spesso sostituita da ipotesi di uguaglianza di particolari indici di sintesi delle distribuzioni
parziali, soprattutto indici di posizione come le mediane o le medie. Qui noi
consideriamo le medie e le varianze parziali e presentiamo due classici teoremi.
(h)
Il primo teorema riguarda la relazione tra le medie parziali y nh , h = 1, . . . , H,
e la media complessiva y T ot calcolata su tutti i dati ignorando la struttura di
gruppo.
Teorema 7 (Associatività della media) La media complessiva di dati divisi
in gruppi è uguale alla media ponderata delle medie parziali, con pesi uguali alle
frequenze relative dei gruppi.
Dimostrazione. La media complessiva è la somma di tutti i dati divisa per
la numerosità totale. La somma dei dati è esprimibile come la somma dei totali
parziali di ciascun gruppo. Consideriamo ad esempio il primo gruppo. La sua
(1)
(1)
(1)
(1)
(1)
media è y n1 = (y1 +. . .+yn1 )/n1 e quindi il totale parziale è y1 +. . .+yn1 =
(1)
n1 yn1 . La stessa relazione vale per gli altri gruppi. La media complessiva si
può dunque scrivere
n
o
(1)
(H)
(H)
yT ot = (y1 + . . . + yn(1)
)
+
.
.
.
(y
+
.
.
.
+
y
)
/n
nH
1
1
(H)
= (n1 y(1)
n1 + . . . + nH y nH )/n
(H)
= y (1)
n1 (n1 /n) + . . . + y nH (nH /n).
L’ultima riga della precedente uguaglianza prova che la media a livello aggregato
è uguale alla media ponderata delle medie dei gruppi.
Esempio 40 (Bilanci familiari) La Tabella 4.17 riporta il reddito familiare
medio ed il reddito familiare mediano in base al titolo di studio del capofamiglia.
Il reddito medio di tutte le famiglie, indipendentemente dal titolo di studio del
capofamiglia, è
y T ot = 13446 × 0.064 + 20106 × 0.240 + 27942 × 0.357 + 36356 × 0.257
+54233 × 0.0833 ' 29483.
Si verifica facilmente che la mediana a livello aggregato, y 0.5 = 23833, non è
ottenibile come media ponderata delle mediane parziali.
(h)2
Il secondo teorema riguarda la relazione tra le varianze parziali sY , h =
1, . . . , H, e la varianza complessiva s2T ot . Si dimostra che la varianza complessiva
60
MEDIA E DEVIAZIONE STANDARD
Titolo di studio
Senza titolo
Licenza elementare
Media inferiore
Media superiore
Laurea
Tutti
Famiglie, %
6.4
24.0
35.7
25.7
8.3
100
Reddito mediano
12154
17398
24177
31641
45366
23833
Reddito medio
13446
20106
27942
36356
54233
29483
Tabella 4.17: Statistiche riassuntive del reddito delle famiglie italiane, per titolo
di studio del capofamiglia, 2004 (fonte: Banca d’Italia).
è la somma di due componenti, la varianza “dentro i gruppi” s2W e la varianza
“tra i gruppi” s2B 46 . La varianza dentro i gruppi misura la dispersione media
dei dati all’interno dei gruppi. La sua espressione è
(1)2
(H)2
s2W = sY (n1 /n) + . . . + sY
(nH /n)
ed è dunque uguale alla media ponderata delle varianze parziali, con pesi uguali
alle frequenze relative dei gruppi. La varianza tra i gruppi misura la dispersione
delle medie parziali rispetto alla loro media, la media complessiva. La sua
espressione è
2
(H)
2
s2B = (y (1)
n1 − y T ot ) (n1 /n) + . . . + (y nH − y T ot ) (nH /n)
ed è dunque uguale alla varianza delle medie parziali. Essa è calcolabile come
differenza tra le medie dei quadrati delle medie parziali ed il quadrato della
media complessiva:
(H)2
2
s2B = (y (1)2
n1 (n1 /n) + . . . + y nH (nH /n)) − y T ot .
La varianza dentro i gruppi è pari a zero se, e solo se, le medie parziali
assumono tutte lo stesso valore, coincidente con quello della media complessiva. Questo suggerisce che s2B è una statistica idonea a controllare l’ipotesi di
uguaglianza delle medie parziali.
Teorema 8 (Scomposizione della varianza) La varianza complessiva verifica l’identità
s2T ot = s2W + s2B .
Dimostrazione. Il punto di partenza è la definizione di varianza totale:
s2T ot
=n
−1
nh
H X
X
h=1 i=1
46 I
(h)
(yi
− yT ot )2 .
nomi ricalcano i termini inglesi within-groups e between-groups variance.
61
4.7. UNITÀ DIVISE IN GRUPPI
La sua espressione rimane invariata se all’interno delle parentesi si aggiunge e
toglie la media parziale y (h) :
n
o2
(h)
(h)
(yi − y T ot )2 = (yi − y (h) ) + (y (h) − yT ot )
(h)
= (yi
(h)
− y(h) )2 + 2(y (h) − y T ot )(yi
− y (h) ) + (y (h) − y T ot )2 .
Sostituendo la precedente espressione nella definizione di varianza totale ed
applicando l’operatore somma, s2T ot risulta uguale alla somma di tre termini
s2T ot = A + B + C,
in cui
A=n
−1
nh
H X
X
(h)
(yi
h=1 i=1
B = 2n−1
nh
H X
X
h=1 i=1
C = n−1
nh
H X
X
h=1 i=1
− y(h) )2
(h)
(y (h) − y T ot )(yi
− y(h) ),
(y (h) − yT ot )2 .
(h)2
Nel termine A, la sommatoria interna è pari alla varianza parziale sY
plicata per nh , pertanto
A = n−1
H
X
(h)2
sY
molti-
nh = s2W .
h=1
Nel termine C, l’argomento della sommatoria interna non dipende dall’indice i
e può essere messo in evidenza ottenendo
C = n−1
H
X
h=1
(y (h) − yT ot )2 nh = s2B .
Infine, il termine B è sempre identicamente nullo. Infatti
B = 2n
−1
H
X
h=1
e
P nh
(h)
i=1 (yi
(y
(h)
− y T ot )
nh
X
i=1
(h)
(yi
− y (h) )
− y (h) ) = 0 per ogni h = 1, . . . , H, per il Lemma 2.
Il teorema di scomposizione della varianza è l’esempio più semplice di quella
ricerca delle determinanti della variabilità dei dati che è al centro della Statistica.
Esso consente di quantificare la quota di variabilità di Y che è attribuibile ad una
variabile di stratificazione X, il rapporto s2B /s2T ot , e la quota di variabilità di Y
62
MEDIA E DEVIAZIONE STANDARD
Qualifica
Ricercatore
Associato
Ordinario
Tutte
Numero di Docenti
225
266
341
832
Età mediana
41
46
59
51
Età media
43.3
49.7
57.4
51.1
Varianza
72.1
98.4
67.5
112.0
Tabella 4.18: Statistiche riassuntive dell’età dei docenti di Statistica, per
qualifica, 2005 (fonte: Ministero per l’Università e la Ricerca).
“residua”, il rapporto complementare 1 − s2B /s2T ot . Gli sviluppi e le applicazioni
inferenziali di questo risultato formano l’analisi della varianza, una metodologia
che si deve in gran parte a R. A. Fisher47 .
Esempio 41 (Docenti di Statistica) L’età dei docenti di Statistica aumenta
al crescere della qualifica (Esempio 39), ma qual è il peso delle differenze di età
dovute alla qualifica sulla variabilità complessiva? La Tabella 4.18 riporta alcuni
indici di sintesi della distribuzione. Le età mediane sono considerevolmente diverse dalle età medie, a causa dell’asimmetria delle distribuzioni (Figura 4.17).
Inoltre la deviazione standard dell’età degli associati è più elevata di quella dei
ricercatori e degli ordinari. L’età media di tutti i docenti, indipendentemente
dalla qualifica, è
y T ot = (43.3 × 225 + 49.7 × 266 + 57.4 × 341)/832 ' 51.1.
La componente dentro i gruppi della varianza è
s2W = (72.1 × 225 + 98.4 × 266 + 67.5 × 341)/832 ' 78.6
e quella tra i gruppi è
s2B = (43.32 × 225 + 49.72 × 266 + 57.42 × 341)/832 − 51.12 ' 33.4.
La varianza complessiva è s2T ot = s2W + s2B ' 112.0 ed il rapporto percentuale
s2B /s2T ot è pari a 29.8%. Pertanto circa il 30% della varianza complessiva dell’età
dei docenti è attribuibile alle differenze di qualifica.
Media e varianza, e quindi anche le statistiche s2W , s2B , s2B /s2T ot , non sono
resistenti alla contaminazione dei dati campionari. È pertanto opportuno che
la scomposizione della varianza sia accompagnata dalla visualizzazione dei dati
mediante presentazioni ramo-foglie o diagrammi scatola-baffi e dal confronto tra
medie e mediane, al fine di individuare eventuali casi anomali.
47 Ronald A. Fisher (1890-1962), genetista e statistico inglese, è stato docente di genetica alle
università di Londra e Cambridge. Alcune sue opere (Statistical Methods for Research Workers (1925), Statistical Method and Scientific Inference (1956)) sono considerate dei classici
della letteratura statistica.
63
4.7. UNITÀ DIVISE IN GRUPPI
Ruota
Napoli
Roma
Venezia
Tutte
Numero di Concorsi
156
156
156
468
Mediana
45
48.5
52
49
Media
43.5
48.5
48.7
46.9
Varianza
689
693
741
713
Tabella 4.19: Statistiche riassuntive del primo numero estratto sulle ruote di
Napoli, Roma e Venezia, 2006.
Esempio 42 (Estrazioni del lotto) Sui 156 concorsi del 2006 abbiamo rilevato il primo numero uscito sulle ruote di Napoli, Roma e Venezia. Ci attendiamo tre distribuzioni uniformi sui numeri interi da 1 a 90. La Figura
4.19 riporta i diagrammi scatola-baffi dei dati standardizzati con la visualizzazione dell’intervallo di confidenza48 della mediana (incisione a “V”). Poichè
i tre intervalli hanno un’ampia zona di sovrapposizione e includono la media
(corrispondente al punteggio standard zero), non emergono indicazioni che le
mediane (e le medie) siano diverse. I tre grafici suggeriscono inoltre una distribuzione di tipo uniforme, in accordo con l’ipotesi iniziale. Le componenti dentro
i gruppi e tra i gruppi della varianza sono s2W ' 708, s2B ' 5.63, pertanto il
rapporto s2B /s2T ot ' 0.008 appare trascurabile.
Na Rm Ve
Primo Estratto Ruote di Napoli, Roma e Venezia (2006)
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Numero Estratto (Punteggi Standard)
Figura 4.19: Primo estratto sulle ruote di Napoli, Roma e Venezia (2006).
48 L’intervallo di confidenza, centrato sulla mediana campionaria, ha lo scopo di stimare la
mediana della popolazione di riferimento. Esso è la determinazione di un intervallo casuale
avente un’alta probabilità di contenere la mediana della popolazione. Qui la probabilità è pari
a 0.95.
64
MEDIA E DEVIAZIONE STANDARD
Distribuzione gaussiana
Media e deviazione standard sono particolarmente efficaci nel descrivere posizione e dispersione delle distribuzioni unimodali e simmetriche, di cui la distribuzione gaussiana è l’esempio più importante. Il suo ruolo di assoluto rilievo
in Statistica e Probabilità è dovuto al teorema centrale di convergenza, in base
al quale le variabili riconducibili a somme o medie dei dati di un campionamento
statistico ammettono, per numerosità elevate, un’approssimazione normale.
5.1
La curva gaussiana
La distribuzione gaussiana49, o normale, ha funzione di densità
1
1 x−µ 2
√
fX (x) =
exp − (
) ,
2
σ
σ 2π
in cui x, la determinazione della variabile, è un numero reale qualsiasi mentre
µ e σ, i parametri della distribuzione, sono la media e la deviazione standard
della distribuzione. Come richiesto per ogni curva di densità, l’area sottesa alla
curva è pari a 1. La dimostrazione, non elementare, è riportata di seguito.
Teorema 9 (Normalizzazione della curva gaussiana) Per ogni valore ammissibile dei parametri µ e σ
i. fX (x) > 0;
ii.
R∞
−∞
fX (x)dx = 1.
Dimostrazione.
√
2
è un
i. fX (x) > 0 perchè σ 2π è una costante positiva e exp − 21 ( x−µ
σ )
valore positivo per ogni numero reale x, comunque si assegnino i valori di
µ e σ.
49 C. F. Gauss (1777-1855) la usò nel 1809 per studiare la distribuzione degli errori di misura
nelle misure astronomiche.
65
66
DISTRIBUZIONE GAUSSIANA
ii. Indichiamo con A il valore, certamente positivo, dell’integrale della densità
gaussiana. È evidente che
Z ∞
Z ∞
1
1
1 x−µ 2
1 y−µ 2
√ exp − (
√ exp − (
) dx ·
) dy
2
σ
2 σ
−∞ σ 2π
−∞ σ 2π
Z ∞Z ∞
1
1 x−µ 2
y−µ 2
exp − (
) +(
)
dxdy
=
2
2πσ −∞ −∞
2
σ
σ
= A2 .
Usando prima i cambiamenti di variabile u = (x − µ)/σ, v = (y − µ)/σ
e passando poi alle coordinate polari u = ρ cos θ, v = ρ sen θ, l’integrale
doppio precedente è ricondotto alla seguente espressione
Z 2π Z ∞
1
1
A2 =
ρ exp − ρ2 dρdθ.
2π 0
2
0
Si verifica facilmente che
∞
Z ∞
1
1
=1
ρ exp − ρ2 dρ = − exp − ρ2
2
2
0
0
pertanto
1
A =
2π
2
Z
2π
dθ = 1
0
e quindi A = 1.
La curva gaussiana (vedi Figura 5.20) è unimodale e simmetrica con una
caratteristica forma a campana col vertice in corrispondenza della media. Il
seguente teorema ne riassume le principali proprietà.
Teorema 10 (Proprietà della curva gaussiana) Sia X una distribuzione
gaussiana di parametri µ e σ. La sua curva di densità presenta le seguenti
caratteristiche
i. è simmetrica rispetto a x = µ;
ii. è monotona crescente per x < µ, monotona decrescente per x > µ;
iii. è convessa per x < µ − σ e x > µ + σ, concava nell’intervallo µ − σ < x <
µ + σ;
iv. tende a 0 quando x → ±∞.
67
5.1. LA CURVA GAUSSIANA
0.8
Densità Gaussiane
0.4
0.0
0.2
Funzione di Densità
0.6
N(0,1)
N(−2,0.5)
N(1,1.5)
−4
−2
0
2
4
x
Figura 5.20: Curve di densità gaussiane.
Dimostrazione.
i. fX (µ − h) = fX (µ + h), per ogni h > 0.
ii. La derivata prima della funzione di densità è
d
µ−x
fX (x) = f 0 (x) = fX (x) 2 ,
dx
σ
pertanto
f 0 (x) R 0 ⇐⇒ x Q µ.
Il punto x = µ è l’unico punto di massimo della funzione e quindi vale la
disuguaglianza
1
0 < fX (x) ≤ fX (µ) = √ .
σ 2π
68
DISTRIBUZIONE GAUSSIANA
iii. La derivata seconda della funzione di densità è
d2
1
(µ − x)2
00
fX (x) = f (x) = 2 fX (x)
−1 ,
dx
σ
σ2
pertanto
f 00 (x) R 0 ⇐⇒| µ − x |R σ.
I punti di flesso, dove la tangente attraversa il grafico della funzione, sono
x1 = µ − σ e x2 = µ + σ. Per x < µ − σ e x > µ + σ il grafico è al di
sopra della tangente, per µ − σ < x < µ + σ il grafico è al di sotto della
tangente.
iv. La proprietà si dimostra facilmente perchè
lim fX (x) = 0,
x→±∞
essendo fX (x) proporzionale ad una funzione esponenziale negativa.
Il significato statistico dei parametri µ e σ, anticipato in apertura, è confermato dal seguente teorema.
Teorema 11 (Media e deviazione standard della gaussiana) In ogni distribuzione gaussiana moda, mediana e media sono uguali al valore del parametro
µ, mentre la deviazione standard è uguale al valore del parametro σ.
Dimostrazione. La moda è uguale a µ perchè x = µ è l’unico punto di
massimo della funzione di densità (Teorema 10 ii.). Mediana e media sono
entrambe uguali a µ perchè la funzione di densità è simmetrica rispetto a x = µ
(Teorema 10 i.). La varianza della distribuzione è
Z ∞
1
1 x−µ 2
(x − µ)2 √ exp − (
) dx.
2
σ
σ 2π
−∞
Mediante il cambiamento di variabile u = (x − µ)/σ, il valore del precedente
integrale risulta uguale a
Z ∞
σ2
1
B=√
u2 exp − u2 du.
2
2π −∞
Usando
il metodo d’integrazione per parti in cui u funge da fattore finito e
u exp − 12 u2 funge da fattore differenziale, si ottiene
(
∞
)
Z ∞
σ2
1 2
1 2
B=√
−u exp(− u )
+
exp − u du
2
2
2π
−∞
−∞
Z ∞
1
1
= σ2 √
exp − u2 du
2
2π −∞
= σ2
per il Teorema 9 ii.
5.2. LA FAMIGLIA GAUSSIANA
5.2
69
La famiglia gaussiana
Per indicare la distribuzione normale si usa la notazione N (µ, σ). La distribuzione normale di parametri µ = 0 e σ = 1 viene detta distribuzione normale
standard. La famiglia normale, indicata con N (µ, σ) è l’insieme avente come
elementi tutte le distribuzioni normali. Si dimostra che tale insieme è chiuso
rispetto alle trasformazioni lineari, cioè la trasformazione lineare di una distribuzione normale ha ancora una distribuzione normale, con parametri diversi,
dipendenti dalla trasformazione.50
Teorema 12 (Chiusura di N (µ, σ) rispetto alle trasformazioni lineari)
Se X ∼ N (µX , σX ) allora Y = a + bX ∼ N (µY = a + bµX , σY =| b | σX ).
Dimostrazione. Il valore della funzione di ripartizione di Y nel punto y
è l’area sottesa alla curva di densità fY (y) nella semiretta (−∞, y]. Se b >
0, l’immagine inversa di tale insieme secondo la trasformazione lineare è la
semiretta (−∞, (y − a)/b]. Se b < 0, l’immagine inversa è la semiretta [(y −
a)/b, ∞). Pertanto
FX ((y − a)/b),
se b > 0,
FY (y) =
1 − FX ((y − a)/b), se b < 0.
La funzione di densità di Y è la derivata della funzione di ripartizione che
risulta uguale a
d
1
y−a
FY (y) =
fX (
)
dy
|b|
b
1
1 y − a − bµX 2
=
exp − (
) .
| b | σX
2
| b | σX
fY (y) =
L’ultima espressione è una densità normale di parametri µY = a + bµX ,
σY =| b | σX .
Il teorema precedente mostra, in particolare, che ogni distribuzione normale è
una particolare trasformazione lineare della normale standard. Questo risultato
è cosı̀ importante da meritare una proposizione a sè stante.
Corollario 13 (Ruolo della normale standard ) Se XST ∼ N (0, 1) e X ∼
N (µX , σX ), in cui µX è un numero reale qualsiasi e σX è un numero reale
positivo, allora X = a + bXST , con a = µX e b = σX. .
Dimostrazione. Il risultato è un caso particolare del Teorema 12.
Dal punto di vista matematico è necessaria una sola distribuzione normale,
che per semplicità, è quella standard. Tutte le altre distribuzioni normali si
ottengono da essa mediante una trasformazione lineare. Questo implica che
la funzione di ripartizione, la funzione di densità e la funzione quantilica di
X ∼ N (µX , σX ) sono esprimibili in funzione delle corrispondenti quantità della
normale standard.
50 Altre importanti famiglie di distribuzioni godono di questa proprietà. Si verifica facilmente, ad esempio, che se X ∼ R(α1 , α2 ) allora Y = a + bX ∼ R(β1 , β2 ). Se b > 0,
βi = a + bαi , i = 1, 2; se b < 0, Y ∼ R(β2 , β1 ).
70
DISTRIBUZIONE GAUSSIANA
Teorema 14 (Funzione di ripartizione della normale) Nelle stesse ipotesi del Corollario 13,
i. FX (x) = FXST ((x − µX )/σX );
ii. fX (x) = (σX )−1 fXST ((x − µX )/σX );
iii. xp = µX + σX xp,ST .
Dimostrazione.
i. Come nel Corollario 13, consideriamo la trasformazione lineare X = t(X ST ) =
µX + σX XST e fissiamo un valore x di X. L’immagine inversa della semiretta (−∞, x] di X è la semiretta (−∞, (x − µX )/σX ] di XST .
Pertanto
x − µX
X ≤ x ⇐⇒ XST ≤
σX
da cui segue FX (x) = FXST ((x − µX )/σX ).
ii. La funzione di densità di X è la derivata della funzione di derivazione, quindi
d
FX (x)
dx
d
x − µX
=
FX (
)
dx ST
σX
1
x − µX
=
fXST (
).
σX
σX
fX (x) =
iii. La trasformazione X = µX + σX XST è monotona crescente perchè σX > 0.
Il risultato è dunque una conseguenza dell’equivarianza dei quantili rispetto
a questa classe di trasformazioni.
5.3
Aree sottese alla curva gaussiana
Il Teorema 14 i. prende il nome di teorema di conservazione delle aree perchè
l’area sottesa alla curva di densità di X nella semiretta (−∞, x] è uguale all’area
sottesa alla curva di densità normale standard nella semiretta (−∞, xST ], in cui
xST = (x − µX )/σX è il punteggio standard di x. Più in generale, l’area sottesa
alla curva di densità di X nell’intervallo (x1 , x2 ], con x1 < x2 , risulta pari a
FX (x2 ) − FX (x1 ) = FXST (
x2 − µ X
x1 − µ X
) − FXST (
).
σX
σX
71
5.3. AREE SOTTESE ALLA CURVA GAUSSIANA
0.8
0.0
0.2
0.4
0.6
Funzione di Ripartizione
0.6
0.4
0.0
0.2
Funzione di Densità
0.8
1.0
Normale Standard
1.0
Normale Standard
−3 −2 −1
0
1
2
3
−3 −2 −1
x
0
1
2
3
x
Figura 5.21: Funzione di densità e di ripartizione della normale standard (sono
evidenziati i quartili).
La funzione di ripartizione della normale standard (vedi Figura 5.21)
1
FXST (x) = √
2π
Z
1 2
exp − t dt
2
−∞
x
viene valutata mediante integrazione numerica approssimata e i risultati sono
ordinati in apposite tabelle. In questo caso, infatti, la formula fondamentale
del calcolo integrale51 non è utilizzabile perchè
non
esiste in forma esplicita una
funzione la cui derivata sia uguale a exp − 21 t2 . Tutti i programmi di analisi
dei dati per computer offrono funzioni per valutare questo integrale.
51 La formula fondamentale del calcolo integrale afferma che l’integrale definito di una funzione continua g(x) nell’intervallo (a, b) è uguale all’incremento che una sua qualsiasi funzione
primitiva G(x) registra fra a e b,
Z
b
g(t)dt = G(b) − G(a).
a
Una primitiva di g(x) è una funzione la cui derivata coincide con g(x),
d
G(x) = g(x).
dx
72
DISTRIBUZIONE GAUSSIANA
Esempio 43 (Aree della normale standard) È conveniente tabulare l’area
sottesa alla curva di densità normale standard in un intervallo centrato sulla media (pari a 0), al variare dell’estremo destro dell’intervallo. Indichiamo
con H(z) tale area per un fissato numero reale z non negativo. Risulta evidentemente H(0) = 0 e limz→∞ H(z) = 1, Ad esempio H(1), il valore dell’area
nell’intervallo (−1, 1), risulta approssimativamente uguale a 0.682690. Si ricava
facilmente
1 1
+ H(1) ' 0.841345,
2 2
1 1
FXST (−1) = − H(1) ' 0.158655.
2 2
FXST (1) =
Per la simmetria della distribuzione, l’area sottesa nella semiretta (1, ∞)
è uguale all”area sottesa nella semiretta (−∞, −1] e quest’ultima coincide con
FXST (−1). L’area sottesa nell’intervallo (−1/2, 1] è pari a
1 1
1 1
+ H(1) − ( − H(1/2))
2 2
2 2
1
= (H(1) + H(1/2)).
2
FXST (1) − FXST (−1/2) =
Analogamente, l’area sottesa nell’intervallo (1/2, 1] è pari a F XST (1)−FXST (1/2) =
− H(1/2)). È importante osservare che H(3) ' 0.997300, cioè l’intervallo (−3, 3) contiene più del 99% dell’area totale.
1
2 (H(1)
La tabella sottostante riporta i decili positivi della normale standard (i decili
negativi si ricavano per simmetria). Tavole più dettagliate sono riportate nei
manuali di Statistica e Probabilità.
p
xp
0.5
0
0.6
0.253347
0.7
0.524401
0.8
0.841621
0.9
1.28155
Tabella 5.20: Decili positivi della normale standard.
Esempio 44 (Aree e quantili di N (µX , σX )) Consideriamo la variabile X ∼
N (10, 5). Qual è il valore della funzione di ripartizione in x1 = 15 e x2 = 0?
Usando il teorema di conservazione delle aree,
FX (x1 ) = FXST (x1,ST ) = FXST (1) ' 0.841345,
FX (x2 ) = FXST (x2,ST ) = FXST (−2) ' 0.0227501.
Quanto valgono i quantili di X d’ordine 0.1 e 0.7? Per la proprietà di
equivarianza,
x0.1 = µX + σX x0.1,ST = µX − σX x0.9,ST ' 3.592242,
x0.7 = µX + σX x0.7,ST ' 12.622.
73
5.4. APPLICAZIONI
Intervallo
Area
µ±σ
0.68269
µ ± 2σ
0.9545
µ ± 3σ
0.9973
µ ± 4σ
0.999937
Tabella 5.21: Aree di intervalli centrati sulla media di N (µ, σ).
Vale la pena osservare le particolari caratteristiche di concentrazione della
distribuzione normale attorno alla media. Come mostra la Tabella 5.21, circa
68% dei dati si trovano ad una distanza dalla media non superiore ad 1 deviazione standard, mentre circa 95% (99%) dei dati si trovano ad una distanza non
superiore a 2 volte (3 volte) la deviazione standard. Inversamente, un dato la
cui distanza dalla media è superiore a 3 volte la deviazione standard presenta
caratteristiche di eccezionalità rispetto alla distribuzione normale perchè meno
di 1% dei dati presenta una distanza superiore.
Esempio 45 (Dati statisticamente anomali) Nel diagramma scatola-baffi
un dato statisticamente anomalo cade all’esterno dell’intervallo delimitato dalla barriera inferiore Binf = x0.25 − 1.5SIQ e dalla barriera superiore Bsup =
x0.75 + 1.5SIQ. La costante 1.5 è stata fissata da Tukey in modo che un’osservazione da una distribuzione Normale X ∼ N (µX , σX ) abbia un’elevatissima
probabilità, che indichiamo con pN ORM , di rientrare nell’intervallo. Possiamo
ora verificare che pN ORM è approssimativamente uguale a 0.993. Per il teorema
di conservazione delle aree
pN ORM = FX (Bsup ) − FX (Binf )
= FXST (Bsup,ST ) − FXST (Binf,ST ).
Usando x0.25 = µX + σX x0.25,ST , x0.75 = µX + σX x0.75,ST , si ottiene
Bsup,ST = 4x0.75,ST , Binf,ST = 4x0.25,ST , da cui segue
pN ORM = FXST (4x0.75,ST ) − FXST (4x0.25,ST )
' 0.993023.
Ovviamente, la probabilità che il dato sia esterno all’intervallo è 1− p N ORM '
0.006977, un valore trascurabile.
5.4
Applicazioni
La distribuzione gaussiana è un modello matematico fondamentale della Statistica e della Probabilità. Essa è usata per approssimare curve di densità empiriche
unimodali e simmetriche, in cui la dispersione dei dati attorno alla media segue,
almeno approssimativamente, la Tabella 5.21. In questi casi i parametri µ e
σ vengono approssimati mediante la media xn e la deviazione standard sX del
campione.
74
n = 130
35| 2 si legge 35.2◦ C
P130
xi = 4785
Pi=1
130 2
i=1 xi = 176146.2
DISTRIBUZIONE GAUSSIANA
35
36
36
37
37
38
7899
011222222333333444444
55566666666666677777777777777888888888888888999999999999
000000000011111111111111111122222223333334444
578
2
Tabella 5.22: Temperatura corporea.
Esempio 46 (Temperatura corporea) Il ramo-foglie della Tabella 5.22 riporta la temperatura corporea (◦ C) di un campione di di 130 soggetti52 . La distribuzione suggerisce un modello unimodale e simmetrico. Media e deviazione
standard sono x130 ' 36.81 ed sX ' 0.4057. Gli intervalli x130 ±ksX , k = 1, 2, 3,
comprendono rispettivamente il 69.2%, 94.6%, 99.2% dei dati, in buon accordo
con con i valori attesi nell’ipotesi di normalità. La Figura 5.22 mostra l’andamento della densità empirica e della densità gaussiana approssimante, di
espressione
1
1 x − x130 2
√ exp − (
fX (x) =
) .
2
sX
sX 2π
L’accuratezza dell’approssimazione si può apprezzare mettendo a confronto
le rispettive funzioni di ripartizione o i quantili (Figura 5.23). È interessante notare che, secondo questa indagine, le temperature statisticamente regolari vanno
da un minimo di 35.8◦ ad un massimo di 37.8◦ .
L’importanza della distribuzione gaussiana discende da un risultato di Teoria
della Probabilità, il teorema centrale di convergenza. Esso afferma che la somma
e la media standardizzate di un gran numero di osservazioni di una variabile
numerica hanno distribuzioni ben approssimate da una normale standard. Il
teorema presuppone che i dati siano ottenuti mediante campionamento casuale.
Esempio 47 (Somma dei punteggi di n lanci di un dado) Consideriamo
il seguente esperimento.
Lanciamo n volte un dado regolare e calcoliamo la
P
somma Tn = ni=1 Xi dei risultati (Xi indica il punteggio osservato nel lancio
i-esimo). Supponiamo ora di ripetere M volte (M elevato) l’esperimento, ottenendo le determinazioni tn,1 , . . . , tn,M di Tn . Qual è la distribuzione di Tn ? In
base al teorema centrale di convergenza, quando n → ∞ la funzione di ripartizione di Tn,ST converge alla funzione di ripartizione della normale standard.
52 L’esempio è ripreso da A. L. Shoemaker, What’s Normal? Temperature, Gender and
Heart Rate, Journal of Statistics Education 4, 1996.
75
5.4. APPLICAZIONI
0.8
0.6
0.4
0.0
0.2
Funzione di Densità
1.0
Densità Empirica e Curva Gaussiana
35.5
36.0
36.5
37.0
37.5
38.0
38.5
Temperatura Corporea (°C)
Figura 5.22: Temperatura corporea. Approssimazione gaussiana dell’istogramma empirico.
La Figura 5.24 confronta gli istogrammi di Tn,ST per M = 10000, n1 = 10 e
n2 = 50 con la curva normale standard. L’approssimazione è buona, anche per
i valori di n non elevati qui considerati.
76
DISTRIBUZIONE GAUSSIANA
Quantili
2
1
−1
0
Quantili Empirici
0.6
0.4
0.0
−2
0.2
Funzione di Ripartizione
0.8
3
1.0
Funzioni di Ripartizione
35.5
36.5
37.5
Temperatura Corporea (°C)
38.5
−2
−1
0
1
2
Quantili Teorici
Figura 5.23: Temperatura corporea. Approssimazione gaussiana della funzione
di ripartizione e dei quantili empirici.
77
5.4. APPLICAZIONI
0.3
0.0
0.1
0.2
Funzione di densità
0.3
0.2
0.0
0.1
Funzione di densità
0.4
Somma del Punteggio di 50 Lanci
0.4
Somma del Punteggio di 10 Lanci
−4
−2
0
2
Somma Standardizzata
4
−4
−2
0
2
4
Somma Standardizzata
Figura 5.24: Teorema centrale di convergenza. Approssimazione gaussiana della
somma dei punteggi ottenuti in n lanci di un dado.
78
DISTRIBUZIONE GAUSSIANA
Confrontare distribuzioni
L’analisi e l’interpretazione dei dati richiede spesso il confronto di una pluralità
di distribuzioni, confronto che può essere effettuato sia per mezzo di diagrammi
che per mezzo di statistiche riassuntive. Rivediamo alcuni esempi già presentati.
Come si è trasformata la struttura delle famiglie nel secondo dopoguerra? Se
limitiamo l’attenzione alla dimensione delle famiglie, il problema è riconducibile
al confronto delle distribuzioni di frequenza delle famiglie secondo il numero
di componenti (Tabella 2.2) dal quale risulta un progressivo spostamento verso
sinistra della distribuzione, cioè una progressiva riduzione della dimensione nel
corso del tempo. Gli indici di posizione riflettono questo andamento; la media,
ad esempio, passa da 3.6 componenti nel 1961 a 2.6 nel 2001. Questo indica che
la dimensione familiare è un fenomeno con una dinamica temporale precisa. Il
passo successivo è ottenere un modello statistico di questa dinamica che consenta
anche di effettuare previsioni.
Esiste una tendenza statistica nella distribuzione delle cifre decimali di π?
Il confronto dell’istogramma di un campione di cifre con un’ipotetica curva di
densità uniforme suggerisce un buon adattamento (Figura 2.5). Questo esempio
è molto diverso dal precedente perchè qui i dati campionari vengono confrontati
con un modello distributivo teorico, di tipo matematico.
C’è un legame tra età e qualifica dei docenti universitari? Il confronto mediante diagrammi scatola-baffi dell’età dei ricercatori con quella dei professori
associati e ordinari conferma la tendenza dell’età ad aumentare con la qualifica (Figura 4.17 e Tabella 4.18). La posizione relativa e la forma delle tre
distribuzioni sono diverse. La differenza di età sembra aumentare con la qualifica, in particolare se consideriamo le età mediane. Dalla scomposizione della
varianza emerge che circa il 30% della varianza totale è attribuibile alle differenze tra le medie parziali. Nell’interpretare questo risultato si deve tener
conto delle differenze tra età medie ed età mediane, dovute all’asimmetria delle
distribuzioni.
Viceversa, il confronto grafico dei risultati delle estrazioni del lotto a Napoli,
Roma e Venezia suggerisce che le differenze osservate siano attribuibili all’errore
di campionamento e che i dati provengano da una distribuzione uniforme.
Un diverso criterio per confrontare distribuzioni, basato sulla funzione di
ripartizione, viene presentato nella sezione seguente.
79
80
CONFRONTARE DISTRIBUZIONI
6.1
Ordinamento in distribuzione
I numeri reali sono un caso esemplare di insieme ordinato. Infatti siamo in
grado di confrontare qualsiasi coppia di numeri reali x, y mediante la relazione
≤ (minore o uguale)53 , verificando se x ≤ y, y ≤ x oppure x = y. Questa
relazione riflette l’ordinamento dei punti su una retta orientata: per ogni coppia
di punti A e B possiamo sempre determinare se A precede B, o B precede A,
oppure A e B coincidono.
F
M
Maratona: Confronto Femmine, Maschi
5
10
15
20
25
Tempi (scostamento da due ore, minuti)
Figura 6.25: Tempi nella maratona maschile e femminile.
Si potrebbe pensare di trasferire l’ordinamento dei numeri reali all’insieme
delle distribuzioni numeriche dato che il loro intervallo di variazione è un sottoinsieme della retta numerica. Ma una distribuzione di frequenza è in realtà
un’assegnazione di pesi (frequenze relative) sulla retta numerica, pertanto questa
estensione non è possibile. Servono ordinamenti specifici per le distribuzioni.
Esempio 48 (Maratona) Il confronto dei migliori 400 risultati di tutti i tempi
ottenuti nella maratona dai maschi e dalle femmine mostra che la distribuzione
dei maschi è nettamente spostata a sinistra rispetto a quella delle femmine ed
è molto meno dispersa (Figura 6.25). Inoltre il tempo massimo dei maschi è
minore del tempo minimo delle femmine. Possiamo pertanto affermare che la
distribuzione dei maschi “precede”, cioè è “minore” di quella delle femmine.
Si intuisce che ogni indice di posizione della distribuzione dei maschi (media,
mediana, quantili) risulterà inferiore al corrispondente indice della distribuzione
delle femmine.
Nell’esempio precedente è facile ordinare le due distribuzioni perchè esse
occupano intervalli disgiunti della retta numerica, un caso piuttosto raro. Di
solito le distribuzioni hanno un’ampia regione di sovrapposizione.
81
6.1. ORDINAMENTO IN DISTRIBUZIONE
1.0
Premi Nobel
0.6
0.4
0.0
0.2
F. Ripartizione
0.8
Fisica
Letteratura
20
30
40
50
60
70
80
90
Età
Figura 6.26: Funzioni di ripartizione delle età dei premi Nobel per la Fisica e la
Letteratura.
Esempio 49 (Premi Nobel) L’istogramma delle età dei premi Nobel per la
Fisica appare spostato a sinistra rispetto all’istogramma dei premi Nobel per
la Letteratura, tuttavia i due intervalli sono quasi completamente sovrapposti
(Tabella 2.7 e Figura 3.8). Una misura del grado di sovrapposizione scaturisce
dal confronto delle frequenze cumulate fino ad una data età. Prendiamo ad
esempio l’età x = 45. Le corrispondenti frequenze cumulate sono 28.2% e 3.9%.
Questo indica che il 28.2% dei premi Nobel per la Fisica hanno un’età inferiore o
al massimo uguale a 45 anni, contro il 3.9% dei premi Nobel per la Letteratura.
Equivalentemente, i premi Nobel con età maggiore di 45 anni sono 71.8% e
96.1%, rispettivamente. Pertanto, in corrispondenza di un’età di 45 anni, la
prima distribuzione assegna peso maggiore alla semiretta (−∞, 45] ed assegna
invece peso minore alla semiretta complementare (45, +∞). Per l’età di 50
anni, i pesi assegnati alla semiretta (−∞, 50] sono 45.2% e 10.7%, mentre i pesi
assegnati alla semiretta complementare (50, +∞) sono 54.8% e 89.3%. I risultati
53 Un ordinamento (di cui ≤ è un caso particolare) è una relazione binaria che verifica le
proprietà riflessiva, antisimmetrica e transitiva.
82
CONFRONTARE DISTRIBUZIONI
suggeriscono che la prima distribuzione assegna una frequenza sistematicamente
maggiore della seconda alla semiretta (−∞, x] ed assegna invece una frequenza
sistematicamente minore della seconda alla semiretta (x, +∞). Il grafico delle
due funzioni di ripartizione(Figura 6.26) conferma che questa relazione vale per
ogni età x, ad eccezione delle età maggiori di 85 anni.
La relazione d’ordine standard per le distribuzioni di frequenza, qui chiamata ordinamento in distribuzione e indicata con ≤D , confronta le distribuzioni in
base al loro posizionamento sulla retta reale. Essa stabilisce che una distribuzione è “minore” di un’altra se attribuisce sistematicamente più peso/frequenza
alla semiretta (−∞, x]. Poichè la frequenza relativa di (−∞, x] è il valore della funzione di ripartizione nel punto x, è chiaro che la relazione è facilmente
esprimibile attraverso tale funzione.
Definizione 15 (Ordinamento in distribuzione) Se una coppia di distribuzioni numeriche X, Y , con funzioni di ripartizione FX , FY , verifica la relazione
FX (z) ≥ FY (z)
per ogni numero reale z, allora X ≤D Y .
C’è una semplice verifica grafica dell’ordinamento in distribuzione. Se il
diagramma di FX è sistematicamente al di sopra di quello di FY allora X ≤D Y ;
se invece il diagramma di FY è sistematicamente al di sopra di quello di FX
allora Y ≤D X. Se i due diagrammi si intersecano, le due distribuzioni non
sono ordinabili. Infatti la relazione ≤D , diversamente dall’ordinamento della
retta numerica, è una relazione d’ordine parziale.
Esempio 50 (Docenti di Statistica) Come mostra la Figura 6.27, le distribuzioni delle età dei ricercatori, dei professori associati e degli ordinari sono
ordinate: XRic ≤D XAss ≤D XOrd .La distanza verticale dei grafici misura il
divario tra le corrispondenti distribuzioni ad ogni età. L’area della superficie
compresa tra i grafici fornisce una misura complessiva del divario. le diverse
tipologie distributive si rispecchiano nell’andamento dei grafici. L’asimmetria
positiva delle curve di densità di ricercatori ed associati si riflette nella “ripidità” del tratto iniziale del grafico della funzione di ripartizione. Al contrario,
la pendenza del grafico degli ordinari rimane bassa fino all’età di 50 anni e poi
aumenta molto, in accordo con l’asimmetria negativa della curva di densità.
L’ordinamento in distribuzione pone severe limitazioni alle distribuzioni. In
particolare esso implica l’ordinamento dei quantili e delle medie.
Teorema 16 (Implicazioni dell’ordinamento in distribuzione) Se X ≤D
Y , allora
xp ≤ y p
per ogni 0 < p < 1, e
µX ≤ µ Y .
83
6.1. ORDINAMENTO IN DISTRIBUZIONE
1.0
Docenti di Statistica
0.6
0.4
0.0
0.2
F. Ripartizione
0.8
Ricercatori
Associati
Ordinari
30
40
50
60
70
80
Età
Figura 6.27: Funzioni di ripartizione delle età dei docenti di Statistica, per
qualifica (2005).
Dimostrazione. Suppongo, per assurdo, yp < xp . Per definizione di
quantile xp = inf {z : FX (z) ≥ p}. Essendo per ipotesi X ≤D Y , segue
FX (yp ) ≥ FY (yp ) ≥ p,
perchè yp è quantile d’ordine p di Y . Questa disuguaglianza afferma che esiste
un valore yp < xp tale che FX (yp ) ≥ p, pertanto xp non può essere quantile
d’ordine p di X. Contraddizione.
La dimostrazione della seconda parte del teorema utilizza l’identità
µX =
Z
+∞
0
(1 − FX (z))dz −
Z
0
FX (z)dz,
−∞
valida sia per le variabili continue che per le discrete. Essa afferma che la media è
la differenza tra due aree, S (+) ed S (−) . S (+) è l’area della superficie compresa
tra la retta x = 0, la curva y = FX (z) (cioè il diagramma della funzione di
ripartizione) e la retta y = 1. S (−) è l’area della superficie compresa tra la retta
x = 0, la curva y = FX (z) e la retta y = 0. Dall’identità segue che la differenza
84
CONFRONTARE DISTRIBUZIONI
tra le medie è pari a
µY − µ X =
Z
+∞
−∞
(FX (z) − FY (z))dz.
Se X ≤D Y , FX (z) ≥ FY (z) per ogni z, pertanto µY ≥ µX .
6.2
Curve di dispersione
Lo scarto interquantilico SIQ(p) = x(1+p)/2 −x(1−p)/2 , 0 < p < 1, è la lunghezza
dell’intervallo avente come estremi i quantili d’ordine (1 − p)/2 e (1 + p)/2.
Ponendo ad esempio p = 0.5 si ottiene lo scarto interquartilico SIQ(0.5) =
x0.75 − x0.25 . Le proprietà dei quantili implicano che SIQ(p) ≥ 0 per ogni
0 < p < 1 e che, se p1 < p2 , SIQ(p1 ) < SIQ(p2 ). La curva di dispersione54 è il
grafico della funzione p → SIQ(p). Esso permette di osservare dettagliatamente
la dispersione della distribuzione nel suo intervallo di variazione e di effettuare
confronti tra distribuzioni diverse.
Esempio 51 (Maratona) La Figura 6.28 mostra le curve di dispersione dei
tempi nella maratona maschile e femminile. La curva di dispersione delle femmine è costantemente al di sopra di quella dei maschi il che indica che, a parità
di 0 < p < 1, SIQ(p) è sempre maggiore per le femmine. Si può pertanto affermare che la distribuzione delle femmine è più dispersa di quella dei maschi.
Il tratto quasi verticale all’estremità destra della curva di dispersione delle femmine è in accordo con la presenza di dati sparsi nella coda sinistra (Figura
6.25).
La curva di dispersione permette di confrontare distribuzioni sotto il profilo
della variabilità. Essa è invariante alle traslazioni ma risente delle trasformazioni
di scala.
Teorema 17 (Curva di dispersione e trasformazioni lineari) Sia SIQX (p) =
x(1+p)/2 − x(1−p)/2 la curva di dispersione della variabile X. Se Y = a + bX,
b 6= 0, allora SIQY (p) =| b | SIQX (p).
Dimostrazione. Il teorema è una conseguenza dell’equivarianza dei quantili
rispetto alle trasformazioni lineari. Infatti, se b > 0,
yp = a + bxp
mentre, se b < 0
yp = a + bx1−p .
85
6.2. CURVE DI DISPERSIONE
700
Curva di Dispersione
200
300
400
500
Maratona Maschi
0
100
Scarto Interquantilico
600
Maratona Femmine
0.0
0.1
0.2
0.3
0.4
0.5
Frequenza Intervallo Interquantilico
Figura 6.28: Curve di dispersione dei tempi nella maratona di maschi e femmine.
Esempio 52 (Docenti di Statistica) Le curve di dispersione delle età dei
docenti di Statistica mostrano che ricercatori e ordinari hanno caratteristiche
simili. Le età degli associati presentano una maggiore variabilità per 0.2 < p <
0.8. Questo risultato è già suggerito dai diagrammi scatola-baffi (Figura 4.17).
54 La curva di dispersione è stata proposta da R. Liu nel 1999 in un contesto multivariato
col nome di scale curve.
86
CONFRONTARE DISTRIBUZIONI
Curva di Dispersione
Età Ricercatori
30
Età Associati
20
10
0
Scarto Interquantilico
Età Ordinari
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza Intervallo Interquantilico
Figura 6.29: Curve di dispersione delle età dei docenti di Statistica, per qualifica
(2005).
Relazioni tra variabili
La rilevazione congiunta di più variabili su ciascuna unità estende in modo significativo la portata delle analisi statistiche. Diventa infatti possibile descrivere
un collettivo di unità secondo una pluralità di dimensioni diverse, rilevanti per
l’indagine, migliorando l’aderenza al problema. Emerge inoltre il tema nuovo
delle relazioni tra variabili, di grande importanza sia metodologica che pratica.
Scoprire che alcune variabili sono dipendenti può fornire elementi utili all’individuazione delle determinanti di un fenomeno e delle loro modalità d’interazione.
A sua volta, questo rappresenta il presupposto per migliorare l’accuratezza delle
previsioni statistiche. Supponiamo, ad esempio, che la variabile d’interesse principale sia il reddito familiare. Introdurre nello studio come variabili concomitanti il numero di percettori di reddito, la loro età, titolo di studio e qualifica
professionale può ridurre in misura significativa l’errore di previsione del reddito
familiare. Negli studi epidemiologici, in cui l’obiettivo è individuare fattori di
rischio (o di protezione) rispetto ad una patologia, si controllano nei soggetti
esposti sia parametri clinici sia variabili legate allo stile di vita nella speranza
di scoprire predittori efficaci.
I dati che scaturiscono da un’indagine multivariata sono usualmente ordinati
in una tabella, la matrice dei dati, in cui le righe corrispondono alle unità di
rilevazione, le colonne alle variabili.
Esempio 53 (Caratteristiche delle autovetture) La Tabella 7.23 riporta
le caratteristiche di alcuni modelli di autovetture, ricavate dalle certificazioni
dei costruttori. Le unità statistiche sono otto modelli di autovetture. Le variabili sono sei: due qualitative (classe e alimentazione), le altre quattro numeriche (consumo, emissioni di CO2 (grammi/km), rumore (decibel) e cilindrata (cm3 )). Ogni riga fornisce il profilo multivariato del corrispondente modello,
mentre ogni colonna elenca le determinazioni della corrispondente variabile rilevate nel campione. I dati confermano l’aumento del consumo di carburante e
delle emissioni di CO2 al crescere della cilindrata.
Un’indagine multivariata, caratterizzata dalla rilevazione congiunta di più
di una variabile su ciascuna unità, è profondamente diversa dalla rilevazione
delle stesse variabili, separatamente l’una dall’altra. Essa infatti permette di
controllare se le variabili sono associate, se cioè determinati valori di una variabile tendono ad associarsi in modo preferenziale a determinati valori di un’altra
87
88
RELAZIONI TRA VARIABILI
Modello
Toyota Aygo 1.0
Chevrolet Matiz 800
Fiat Punto 1.2 8V Bipower
Opel Corsa 1.3 CDTI Ecotec
Ford Focus VCT
Honda Civic 5D 1.4i
Mercedes E200 NGT
Volvo V70D5
Modello
Toyota Aygo 1.0
Chevrolet Matiz 800
Fiat Punto 1.2 8V Bipower
Opel Corsa 1.3 CDTI Ecotec
Ford Focus VCT
Honda Civic 5D 1.4i
Mercedes E200 NGT
Volvo V70D5
Classe
Mini
Mini
Utilitaria
Utilitaria
Media Inf.
Media Inf.
Media Sup.
Media Sup.
CO2
109
127
119
122
155
139
168
169
Alimentazione
Benzina
Benzina
Metano
Diesel
Benzina
Benzina
Metano
Diesel
Rumore
70
71.4
72
69
70
69.8
73
73
Consumo
4.6
5.2
4.3
4.5
6.4
5.9
6.1
6.4
Cilindrata
998
796
1242
1248
1596
1339
1796
2400
Tabella 7.23: Caratteristiche di alcuni modelli di autovetture
variabile. Nell’Esempio 53, basse (alte) cilindrate si associano a bassi (alti) consumi e basse (alte) emissioni; non emerge invece una relazione altrettanto chiara
tra cilindrata e rumorosità.
7.1
Distribuzioni congiunte
Come nel caso univariato, l’analisi dei dati multivariati si propone di riassumere
le caratteristiche delle variabili osservate per mezzo della loro distribuzione congiunta. L’operazione mediante la quale si costruisce la distribuzione congiunta
è ancora una classificazione delle unità di rilevazione secondo le modalità delle
variabili osservate. Le classi, e qui emerge la differenza rispetto al caso univariato, sono gli elementi del prodotto cartesiano delle modalità di ciascuna variabile.
Supponiamo di chiedere ad n soggetti se hanno letto il romanzo Gita a Tindari
di A. Camilleri (modalità: non letto, NL, e letto, L) e se hanno visto l’omonimo sceneggiato televisivo (modalità: non visto, NV, e visto, V). Le modalità
congiunte sono il prodotto cartesiano
{N L, L} × {N V, V } = {(N L, N V ), (N L, V ), (L, N V ), (L, V )} .
L’interpretazione è immediata: la classe (N L, N V ) comprende i soggetti che non
hanno letto il libro nè visto il film, la classe (N L, V ) comprende invece i soggetti
che non hanno letto il libro ma hanno visto il film, e cosı̀ via. Supponiamo
anche di classificare gli stessi soggetti secondo il genere (modalità: femmina, F,
e maschio, M) e lo stato civile (modalità: celibe/nubile, SC1, coniugato/a, SC2,
89
7.1. DISTRIBUZIONI CONGIUNTE
separato/a o divorziato/a, SC3, vedovo/a, SC4). Le modalità congiunte sono il
prodotto cartesiano
{F, M } × {SC1, SC2, SC3, SC4} =
{(F, SC1), (F, SC2), (F, SC3), (F, SC4), (M, SC1), (M, SC2), (M, SC3), (M, SC4)} .
Anche in questo caso il significato delle modalità congiunte è evidente: (F, SC1)
comprende le nubili, (M, SC1) i celibi, e cosı̀ via.
La frequenza assoluta congiunta è il numero delle unità di rilevazione appartenenti ad ogni classe, caratterizzate da una particolare combinazione delle
modalità delle variabili. Nell’esempio precedente, la frequenza congiunta della
classe (L, V ) è il numero di soggetti che hanno letto Gita a Tindari e visto il
film. La frequenza congiunta di (F, SC2) è il numero delle coniugate. Come
nel caso univariato, l’esame della distribuzione congiunta cerca di identificare le
classi più/meno rappresentate, la loro tendenziale omogeneità o sperequazione,
la presenza di associazioni.
Genere
F
M
E
866
744
Facoltà
F
L
631 617
297 194
S
145
367
Tabella 7.24: Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03.
Esempio 54 (Immatricolati a Ca’ Foscari) Abbiamo classificato gli studenti iscritti al primo anno di una laurea triennale di Ca’ Foscari nel 2002/03
secondo il genere e la facoltà. La prima variabile ha due modalità (femmina,
F, maschio, M), la seconda ne ha quattro (Economia, E, Lettere e Filosofia, F,
Lingue, L, Scienze, S) pertanto la distribuzione congiunta ha 8 = 2×4 modalità.
Se avessimo rilevato separatamente genere e facoltà sapremmo quanti sono i
maschi e quante le femmine del collettivo e sapremmo quanti sono gli iscritti
alle quattro facoltà. Non potremmo però valutare l’associazione genere/facoltà.
La Tabella 7.24 ci dà proprio questa informazione, mostrando gli effettivi delle
otto classi. Le femmine iscritte ad Economia sono 866, quelle iscritte a Scienze
sono solo 145; i maschi iscritti ad Economia sono 744, quelli iscritti a Lingue
sono solo 194, e cosı̀ via. La moda della distribuzione congiunta, cioè la classe
più numerosa, è (F, E), le studentesse di Economia, mentre la classe meno
numerosa è (F, S), le studentesse di Scienze. Le associazioni che sembrano
emergere sono: femmine e facoltà umanistiche, maschi e Scienze. Economia
riscuote successo sia presso i maschi che presso le femmine.
Poichè le modalità delle variabili sono incompatibili ed esaustive, ogni unità
di rilevazione viene contata in una e una sola modalità congiunta. Pertanto
la somma delle frequenze assolute congiunte è sempre uguale al numero delle
unità di rilevazione. Le frequenze relative congiunte, che si ottengono dalle
assolute mediante divisione per la numerosità totale, consentono una valutazione
immediata dell’importanza delle modalità.
90
RELAZIONI TRA VARIABILI
Reddito 2002, X
≤ x0.2
(x0.2 , x0.4 ]
(x0.4 , x0.6 ]
(x0.6 , x0.8 ]
> x0.8
≤ y0.2
14.12
4.02
1.14
0.46
0.28
Reddito 2004, Y
(y0.2 , y0.4 ] (y4 , y6 ] (y6 , y8 ]
4.34
0.98
0.44
9.48
4.06
1.62
4.86
9.52
4.04
1.04
4.36
9.58
0.28
1.1
4.3
> y0.8
0.12
0.84
0.46
4.54
14.04
Tabella 7.25: Famiglie italiane per classi quintiliche di reddito 2002 e 2004
(fonte: Banca d’Italia).
Esempio 55 (Bilanci familiari) Il piano di campionamento della rilevazione Banca d’Italia prevede che una parte delle famiglie resti nel campione per
più indagini consecutive (cosiddette famiglie panel) per permettere di studiare
la dinamica del reddito da un periodo all’altro utilizzando questo sottoinsieme.
La Tabella 7.25 mostra la distribuzione congiunta del reddito 2002 e del reddito
2004. Gli estremi delle classi sono i quintili del reddito nel 2002 e nel 2004.
L’interpretazione dei risultati è semplice. Vediamo qualche esempio. La cella all’incrocio della seconda riga e della seconda colonna individua le famiglie
che sia nel 2002 che nel 2004 avevano un reddito compreso fra il primo ed il
secondo quintile; la loro frequenza è pari al 9.5% del totale. Invece la cella all’incrocio della seconda riga e della terza colonna individua le famiglie che nel
2002 avevano un reddito compreso tra il primo ed il secondo quintile, mentre
nel 2004 avevano un reddito compreso tra il secondo ed il terzo quintile; la corrispondente frequenza è 4.1%. Com’è nelle aspettative, la posizione relativa delle
famiglie sulla scala reddituale è piuttosto stabile. Le celle sulla diagonale principale della tabella, comprendenti le famiglie la cui posizione è rimasta invariata,
rappresentano il 56.7% del totale. Le celle sotto la diagonale, comprendenti le
famiglie la cui posizione è peggiorata, rappresentano il 21.8% del totale. Le
celle sopra la diagonale, corrispondenti alle famiglie che hanno migliorato la
loro posizione, rappresentano il restante 21.4% delle famiglie. Le variazioni di
posizione più frequenti sono i passaggi nella classe reddituale immediatamente
inferiore o superiore (34.5% del totale). Gli altri eventi sono molto più rari.
L’esempio seguente riguarda la mobilità della popolazione residente sul territorio italiano.
Esempio 56 (Trasferimenti di residenza) L’ISTAT rileva annualmente i trasferimenti di residenza interni, da un comune all’altro, ed esterni, da e per
l’estero. Nel 200255 sono stati registrati 1 milione e 224 mila trasferimenti
di residenza tra comuni italiani. La maggioranza ha riguardato comuni della
stessa provincia (59.2%), seguiti da quelli interregionali (27.5%) e da quelli tra
province della stessa regione (13.3%). La Tabella 7.26 mostra la distribuzione
congiunta dei 336·461 trasferimenti interregionali per area territoriale di origine
55 ISTAT, I trasferimenti di residenza.
Collana Statistiche in breve, 25/2/2005.
Iscrizioni e cancellazioni anagrafiche nel 2002,
91
7.2. DISTRIBUZIONI MARGINALI
Origine
Nord-ovest
Nord-est
Centro
Sud
Isole
Totali
Nord-ovest
7.1
3.7
3.4
9.4
5.0
28.6
Destinazione
Nord-est Centro
4.6
3.7
3.4
2.5
3.1
3.8
8.7
9.2
3.6
2.7
23.4
21.9
Sud
5.4
3.4
4.6
4.0
1.0
18.4
Isole
3.3
1.6
1.5
1.1
0.2
7.7
Totali
24.2
14.6
16.4
32.3
12.5
100.0
Tabella 7.26: Trasferimenti di residenza interregionali, per area di origine e
destinazione, 2002 (fonte: ISTAT).
e di destinazione. La lettura dei risultati è immediata. Ad esempio la cella (1,
1) individua i trasferimenti interregionali tra comuni di regioni del nord-ovest.
La cella (1, 2) individua i trasferimenti interregionali da comuni del nord-ovest
a comuni del nord-est e la cella (2, 1) individua i trasferimenti interregionali
da comuni del nord-ovest a comuni del nord-est. I risultati permettono di ricostruire le direttrici principali dei flussi migratori. La moda della distribuzione
corrisponde ai movimenti da regioni del sud a regioni del nord-ovest, seguiti, in
ordine di importanza, dai movimenti dal sud verso il centro e dal sud verso il
nord-est. Le celle sulla diagonale principale individuano i movimenti tra regioni
diverse ma all’interno della stessa area. Esse comprendono il 18.5% di tutti i
trasferimenti. I totali di riga misurano le cancellazioni dalle liste anagrafiche
delle cinque aree mentre i totali di colonna misurano le nuove iscrizioni. Se per
un’area le cancellazioni superano le nuove iscrizioni, essa registra un deflusso
netto di residenti. La tabella mostra che questo si verifica per le regioni del sud
e delle isole. Circa il 45% dei trasferimenti interregionali hanno origine nel
mezzogiorno e la destinazione principale è il nord-ovest, seguito dal centro e dal
nord-est.
7.2
Distribuzioni marginali
Dalla distribuzione congiunta si ottengono facilmente le distribuzioni univariate
di ogni variabile. Per le distribuzioni bivariate esse corrispondono, rispettivamente, ai totali di riga e di colonna della tabella delle frequenze congiunte.
Consideriamo, ad esempio, la prima riga. Poichè le modalità della variabile
che indicizza le colonne sono incompatibili ed esaustive, le celle della prima
riga sono una partizione della prima modalità della variabile che indicizza le
righe. Pertanto la somma dei loro effettivi, le frequenze congiunte della prima
riga, restituisce la frequenza della prima modalità della variabile che indicizza
le righe. Le distribuzioni univariate vengono chiamate distribuzioni marginali
perchè nel caso bivariato sono riportate nel margine destro ed inferiore della
tabella delle frequenze congiunte.
La notazione usata per le distribuzioni congiunte ricalca quella delle distribuzioni univariate. Supponiamo di chiamare X, Y le variabili osservate. La fre-
92
RELAZIONI TRA VARIABILI
quenza relativa della modalità congiunta (Xh , Yk ) è indicata con fX,Y (Xh , Yk )
o anche fX,Y (x, y) se non è essenziale specificare gli indici delle modalità. La
distribuzione marginale di X è
fX (Xh ) =
K
X
fX,Y (Xh , Yk ), h = 1, . . . , H,
k=1
e la distribuzione marginale di Y è
fY (Yk ) =
H
X
fX,Y (Xh , Yk ), k = 1, . . . , K.
h=1
Ad esempio, nella Tabella 7.26, la frequenza marginale dei trasferimenti di
residenza interregionali da comuni del nord-ovest è pari a
fX (X1 ) =
5
X
fX,Y (X1 , Yk ) = 7.1 + 4.6 + 3.7 + 5.4 + 3.3 = 24.2
k=1
e la frequenza marginale dei trasferimenti interregionali verso comuni del centro
è
5
X
fY (Y3 ) =
fX,Y (Xh , Y3 ) = 3.7 + 2.5 + 3.8 + 9.2 + 2.7 = 21.9.
h=1
Esempio 57 (Obesità e sovrappeso) L’ISTAT, in un’indagine campionaria
realizzata nel 199956 , ottiene le prime informazioni dettagliate sulla diffusione
dell’obesità. La popolazione di riferimento è la popolazione italiana con 18 anni
o più. Le variabili rilevate sono il genere (maschi, femmine), l’età (classi decennali, eccetto la prima e l’ultima) e l’indice di massa corporea (IMC), definito
come rapporto tra il peso di un individuo, in chilogrammi, e il quadrato della
statura, in metri. Le modalità di IMC sono: sottopeso (IM C < 18.5), normopeso (18.5 ≤ IM C < 25), sovrappeso (25 ≤ IM C < 30), obesità (IM C > 30).
La Tabella 7.27 mostra la distribuzione congiunta delle tre variabili, avente
2 × 7 × 4 = 56 celle. Le femmine sono un po’ più numerose dei maschi, 51.9%
contro 48.1%. La percentuale di obesi è 9.2%, 4.5% maschi e 4.7% femmine.
Nell’esempio precedente abbiamo tre distribuzioni marginali bivariate (genere
ed età, genere e IM C, età e IM C) e tre distribuzioni marginali univariate
(genere, età e IM C). Ad esempio, i maschi con 75 anni o più sono il 3.3% e le
femmine sono il 5.8%. Nella classe d’età [45 − 55) gli obesi sono il 2.2%.
7.3
Distribuzioni subordinate
Nello studio delle distribuzioni statistiche si richiede talvolta di modificare l’ambito dell’indagine, restringendo l’insieme delle unità di rilevazione. La distribuzione per età della popolazione è spesso analizzata separatamente per maschi e
56 ISTAT,
Obesità e sovrappeso, Collana Statistiche in breve, 13/3/2001.
93
7.3. DISTRIBUZIONI SUBORDINATE
Età
Sottopeso
[18 − 25)
[25 − 35)
[35 − 45)
[45 − 55)
[55 − 65)
[65 − 75)
≥ 75
Totali
0.17
0.12
0.03
0.04
0.03
0.04
0.04
0.47
[18 − 25)
[25 − 35)
[35 − 45)
[45 − 55)
[55 − 65)
[65 − 75)
≥ 75
Totali
0.91
0.98
0.42
0.20
0.14
0.12
0.34
3.11
IMC
Normopeso Sovrappeso
GENERE : Maschi
4.16
0.95
5.83
3.13
4.41
4.19
2.89
3.98
2.40
3.51
1.87
2.88
1.59
1.38
23.15
20.02
GENERE : Femmine
3.70
0.40
7.01
1.12
6.44
1.88
4.52
2.47
3.28
2.77
3.09
2.62
2.73
2.05
30.77
13.31
Obesità
Totali
0.09
0.42
0.78
1.11
1.01
0.77
0.30
4.48
5.37
9.52
9.41
8.01
6.94
5.51
3.31
48.07
0.09
0.27
0.54
1.05
1.12
0.97
0.70
4.74
5.09
9.38
9.28
8.24
7.30
6.80
5.82
51.91
Tabella 7.27: Popolazione con 18 anni e più per genere, età e indice di massa
corporea (IMC), 1999 (fonte: ISTAT).
femmine. La distribuzione delle aziende di un dato settore secondo il risultato di
bilancio è talvolta ristretta alle sole aziende col bilancio in attivo. In questi casi
il fattore di normalizzazione delle frequenze è la numerosità del sottoinsieme di
unità statistiche in esame: il numero di maschi, il numero di femmine, il numero
di aziende col bilancio in attivo. Questo procedimento trova un’applicazione importante proprio nello studio delle distribuzioni congiunte in cui, insieme con
la distribuzione congiunta e le distribuzioni marginali, si considerano anche le
distribuzioni subordinate (o condizionali), cioè le distribuzioni di una variabile
limitatamente a qualche modalità di un’altra variabile.
Genere
F
M
E
38.3
46.4
Facoltà
F
L
27.9 27.3
18.5 12.1
Tabella 7.28: Immatricolati a Ca’ Foscari.
facoltà, per genere.
S
6.4
22.9
Totali
100
100
Distribuzioni subordinate della
Esempio 58 (Immatricolati a Ca’ Foscari) Maschi e femmine mostrano lo
stesso orientamento nella scelta della facoltà? A prima vista sembra sufficiente
confrontare le frequenze di maschi e femmine per ciascuna facoltà. Questo pro-
94
RELAZIONI TRA VARIABILI
cedimento, in generale, produce risultati distorti perchè i collettivi che vengono
comparati, in questo caso i maschi e le femmine, hanno numerosità diverse.
Affinchè il confronto sia corretto, le frequenze congiunte di ciascuna riga devono essere divise per la loro somma, cioè la corrispondente frequenza marginale.
Otteniamo cosı̀ la distribuzione delle facoltà, subordinatamente al genere degli
immatricolati, femmina oppure maschio. Le due distribuzioni si leggono nelle
righe della Tabella 7.28. Ad esempio, la frequenza subordinata di Lettere e
filosofia, limitatamente alle femmine, è 617/2259 ' 27.3%. Per i maschi, la
stessa percentuale è 194/1602 ' 12.1%. I due risultati sono ora comparabili
perchè la divisione per i rispettivi totali di riga ha eliminato il fattore di distorsione. Va sottolineata la differenza tra frequenza congiunta e frequenza subordinata. La percentuale delle femmine immatricolate a Lettere e filosofia è
617/3861 ' 16.0%, contro il 27.3% della frequenza subordinata. La differenza
sta tutta nel collettivo di riferimento: per la frequenza congiunta è la totalità delle unità rilevate, maschi e femmine; per la frequenza subordinata è il
sottoinsieme delle femmine. Possiamo considerare anche la distribuzione del
genere degli immatricolati, subordinatamente alla facoltà, Economia, Lettere e
Filosofia, Lingue o Scienze. Basta dividere le frequenze di ciascuna colonna
per la corrispondente somma, la frequenza marginale. Le cinque distribuzioni
si leggono nelle colonne della Tabella 7.29. Ad esempio, la frequenza subordinata delle femmine, limitatamente alla facoltà di Scienze, è 145/512 ' 28.3%.
La frequenza subordinata delle femmine, limitatamente alla facoltà di Lingue,
è invece 617/811 ' 76.1%. Nel complesso, le Tabelle 7.28 e 7.29 mostrano
una netta prevalenza delle femmine nelle facoltà umanistiche mentre a Scienze
prevalgono i maschi. La composizione degli immatricolati di Economia è molto
più equilibrata.
Genere
F
M
Totali
E
53.8
46.2
100
Facoltà
F
L
68.0 76.1
32.0 23.9
100 100
S
28.3
71.7
100
Tabella 7.29: Immatricolati a Ca’ Foscari. Distribuzioni subordinate del genere,
per facoltà.
Le distribuzioni subordinate sono distribuzioni statistiche a tutti gli effetti e
ne condividono le proprietà e le modalità di analisi. Consideriamo il caso bivariato. La generica distribuzione di Y , dato X = Xh , si indica con la notazione
Y |Xh : la variabile principale precede la barra verticale (simbolo di subordinazione), la condizione la segue. La corrispondente funzione di frequenza si indica con fY |Xh (Yk ) o con fY |Xh (y), se l’indice non è necessario. Analogamente,
la distribuzione di X, dato Y = Yk , si indica con X|Yk e la corrispondente funzione di frequenza con fX|Yk (Xh ) o fX|Yk (x). Se X ha H modalità e Y ne ha
K, possiamo determinare H distribuzioni subordinate Y |Xh e K distribuzioni
subordinate X|Yk .
95
7.3. DISTRIBUZIONI SUBORDINATE
X
Nessuno
L. Elem.
Media I.
Media S.
Laurea
Nessuno
66.3
8.4
0.8
0.3
0.0
L. Elem.
28.9
70.9
22.3
5.2
0.9
Y
Media I.
4.2
17.8
59.2
35.2
11.7
Media S.
0.5
2.9
16.5
49.0
45.8
Laurea
0.0
0.1
1.2
10.3
41.6
Marg. X
3.7
25.7
36.9
25.2
8.5
Tabella 7.30: Distribuzioni subordinate del titolo di studio del coniuge Y , per
titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia).
Il confronto delle distribuzioni subordinate Y |Xh (o X|Yk ) si basa sui criteri
presentati nel Capitolo 5 e può essere di tipo grafico o analitico. Per le variabili
qualitative sono molto usati i diagrammi a rettangoli suddivisi. Supponiamo di
dover confrontare le distribuzioni Y |Xh . Il diagramma contiene H rettangoli
uguali, ciascuno dei quali è diviso internamente in sotto-rettangoli di altezza
pari alle frequenze subordinate fY |Xh (Yk ), k = 1, . . . , K.
Esempio 59 (Bilanci familiari) Dal campione di famiglie della Banca d’Italia abbiamo ricavato la distribuzione congiunta del titolo di studio del capofamiglia (X) e del coniuge (o convivente, Y ). La Tabella 7.30 mostra le corrispondenti distribuzioni subordinate Y |Xh e la distribuzione marginale di X. Il
diagramma a rettangoli è riportato nella Figura 7.30. Il livello di educazione dei
coniugi è, di norma, simile. La moda delle distribuzioni subordinate è sempre
coincidente con la modalità subordinante, con la sola eccezione dei capofamiglia
laureati.
Quando le variabili sono numeriche, una conveniente rappresentazione grafica di una distribuzione congiunta bivariata è il diagramma di dispersione, un
grafico cartesiano in cui ad ogni unità di rilevazione corrisponde un punto le cui
coordinate sono le determinazioni assunte congiuntamente dalle due variabili.
Esempio 60 (Bilanci familiari) La distribuzione congiunta dell’età dei coniugi del campione della Banca d’Italia mostra una forte associazione tra le due
variabili. Al crescere dell’età del capofamiglia cresce anche l’età del coniuge che
però, di norma, è inferiore alla prima. Essendo le variabili numeriche, la rappresentazione più semplice dei dati è il diagramma di dispersione. La Figura
7.31 mostra che la distribuzione è concentrata attorno alla bisettrice del primo
quadrante e rimane per lo più al di sotto di essa. In questo grafico le distribuzioni subordinate Y |Xh corrispondono alle rette verticali di equazione x = Xh , e le
distribuzioni subordinate X|Yk corrispondono alle rette orizzontali di equazione
y = Yk . La Figura 7.32 riporta i diagrammi scatola-baffi delle distribuzioni
96
RELAZIONI TRA VARIABILI
100
Distribuzioni Subordinate Y|X
60
40
0
20
Frequenze Subordinate Y|X
80
Laurea
M.Sup.
M.Inf.
L.Ele.
Nessuno
Nessuno
L.Ele.
M.Inf.
M.Sup.
Laurea
Titolo di Studio del Capofamiglia
Figura 7.30: Bilanci familiari. Distribuzioni subordinate del titolo di studio del
coniuge Y , per titolo di studio del capofamiglia X, 2004 (fonte: Banca d’Italia).
subordinate dell’età del coniuge, per classi di età del capofamiglia. Gli estremi
delle classi sono i quintili della distribuzione: x(1) = 19, x0.2 = 41, x0.4 = 50,
x0.6 = 58, x0.8 = 68, x(n) = 96. È evidente il progressivo spostamento verso destra delle distribuzioni subordinate. La tipologia distributiva è unimodale
simmetrica e la dispersione è simile, con la sola eccezione dell’ultima distribuzione subordinata che è più dispersa. I numerosi dati anomali corrispondono
alle coppie con forti differenze di età.
Le frequenze subordinate si ottengono dividendo le frequenze congiunte per
la frequenza marginale della modalità subordinante. Le formule rilevanti sono
fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ), k = 1, . . . , K,
per le distribuzioni Y |Xh ;
fX|Yk (Xh ) = fX,Y (Xh , Yk )/fY (Yk ), h = 1, . . . , H,
97
7.3. DISTRIBUZIONI SUBORDINATE
60
20
40
Età del Coniuge
80
100
Età dei Coniugi
20
40
60
80
100
Età del Capofamiglia
Figura 7.31: Diagramma di dispersione delle età del capofamiglia e del coniuge,
2004 (fonte: Banca d’Italia).
per le distribuzioni X|Yk . Queste formule mostrano che, conoscendo le frequenze
subordinate e le frequenze marginali della variabile subordinante, è possibile
ricavare le frequenze congiunte:
fX,Y (Xh , Yk ) = fY |Xh (Yk ) × fX (Xh )
= fX|Yk (Xh ) × fY (Yk ).
Ad esempio, dalla Tabella 7.30, la frequenza congiunta dei coniugi laureati è
fY |X5 (Y5 ) × fX (X5 ) = 0.416 × 0.085. È ora facile verificare un’interessante
relazione tra le frequenze marginali e le frequenze subordinate.
Teorema 18 (Relazione tra frequenze marginali e subordinate) La frequenza relativa marginale della modalità Yk di Y è identicamente uguale alla media aritmetica ponderata delle frequenze subordinate fY |Xh (Yk ), con pesi uguali
alle frequenze relative marginali fX (Xh ):
fY (Yk ) =
H
X
h=1
fY |Xh (Yk )fX (Xh ).
98
RELAZIONI TRA VARIABILI
Q1
Q2
Q3
Q4
Q5
Distr. Subordinate
20
40
60
80
Età del Coniuge
Figura 7.32: Diagrammi scatola-baffi delle distribuzioni subordinate dell’età del
coniuge, per classi di età del capofamiglia, 2004 (fonte: Banca d’Italia).
Analogamente, la frequenza relativa marginale della modalità X h di X è identicamente uguale alla media aritmetica ponderata delle frequenze subordinate
fX|Yk (Xh ), con pesi uguali alle frequenze relative marginali fY (Yk ):
fX (Xh ) =
K
X
fX|Yk (Xh )fY (Yk ).
k=1
Dimostrazione. È sufficiente dimostrare la prima relazione. Il punto di
partenza è la relazione tra frequenze marginali di Y e frequenze congiunte.
Poichè
H
X
fY (Yk ) =
fX,Y (Xh , Yk ),
h=1
moltiplicando e dividendo fX,Y (Xh , Yk ) per fX (Xh ) si ottiene
fY (Yk ) =
H
X
(fX,Y (Xh , Yk )/fX (Xh ))fX (Xh )
h=1
=
H
X
h=1
fY |Xh (Yk )fX (Xh ).
7.4. DIPENDENZA IN SENSO STATISTICO
99
Nell’Esempio 54, indicando con X il genere e con Y la facoltà, la frequenza
marginale degli immatricolati a Economia è
fY (Y1 ) = fY |X1 (Y1 ) × fX (X1 ) + fY |X2 (Y1 ) × fX (X2 )
= 0.383 × 0.585 + 0.464 × 0.415 = 0.417,
risultato coincidente con quello fornito dal metodo diretto. Nell’Esempio 59, la
frequenza marginale dei coniugi laureati è ottenibile allo stesso modo
fY (Y5 ) =
5
X
h=1
fY |Xh (Y5 ) × fX (Xh )
= 0.0 × 0.037 + 0.001 × 0.257 + . . . + 0.416 × 0.085 ' 0.066,
un valore inferiore a quello dei capofamiglia laureati.
7.4
Dipendenza in senso statistico
La definizione statistica di variabili dipendenti è diversa da quella intuitiva corrente e anche da quella usata in Matematica e nelle Scienze sperimentali. Consideriamo ad esempio la funzione Y = X 2 . Fissato un valore di X, risulta
univocamente determinato il valore della variabile dipendente Y . Se X è noto,
Y non ha più alcun margine di variazione. Una nozione analoga è sottintesa da
moltissime leggi della Fisica. Ad esempio, la classica legge di Boyle-Mariotte57
afferma che, se una data massa di un gas ideale è mantenuta a temperatura costante, la pressione P a cui è sottoposto è inversamente proporzionale al
volume V occupato dal gas:
P V = costante.
Pertanto, se il volume è fissato, la pressione non ha alcun margine di variazione
e può essere prevista con precisione.
In Statistica, la situazione è diversa. Un esempio familiare scaturisce dalla
rilevazione del peso e della statura. Soggetti aventi lo stesso peso58 avranno
nondimeno stature diverse. Anche se il peso è costante, la statura mantiene
un margine di variabilità. Una situazione analoga si incontra nello studio del
reddito e della spesa delle famiglie. L’osservazione empirica mostra che in un
campione omogeneo di famiglie, a parità di reddito si presentano livelli di spesa
diversi.
In generale, avendo osservato congiuntamente una coppia di variabili X,
Y , se fissiamo la modalità Xh di X, Y varierà in accordo con la distribuzione subordinata Y |Xh . La specificità dei fenomeni indagati dalla Statistica è
esattamente questa: ad ogni modalità di X corrisponde una distribuzione di
valori di Y . Potrebbe sembrare che questo risultato escluda ogni possibilità di
57 La
legge fu formulata da R. Boyle nel 1664 e, indipendentemente, da E. Mariotte nel 1676.
ipotizzando un campione omogeneo per genere, età, stili di vita.
58 Stiamo
100
RELAZIONI TRA VARIABILI
stabilire un criterio di dipendenza. Esso ci indica invece che il criterio da usare
dev’essere fondato sulle distribuzioni subordinate. Anche se, per ogni modalità
di X, Y mantiene un margine di variabilità, le distribuzioni subordinate Y |Xh ,
h = 1, . . . , H, possono essere abbastanza diverse da permettere di riconoscere
una relazione. Nel caso del peso e della statura, al crescere del peso le distribuzioni subordinate della statura tendono a posizionarsi attorno a valori più
elevati. Nell’Esempio 54 maschi e femmine mostrano preferenze diverse nella
scelta della facoltà. Nell’Esempio 60, al crescere dell’età del capofamiglia, le
distribuzioni subordinate dell’età del coniuge, pur mantenendo un certo grado
di sovrapposizione, si spostano visibilmente su età più elevate.
La nozione di dipendenza statistica si basa sul confronto delle distribuzioni
subordinate. Ricordiamo che due distribuzioni sono uguali se hanno lo stesso
insieme di modalità e le frequenze delle modalità corrispondenti sono uguali.
Definizione 19 (Variabili indipendenti) Le variabili X, Y sono (statisticamente) indipendenti se le distribuzioni subordinate Y |Xh , h = 1, . . . , H, sono
uguali.
Il significato della precedente definizione è chiaro. Al variare della modalità
Xh di X, le distribuzioni subordinate Y |Xh non variano, il che dal punto di vista
statistico indica che non esiste alcuna relazione tra X e Y . Ovviamente, se le
distribuzioni subordinate Y |Xh sono in qualche modo diverse, le due variabili
sono dipendenti.
L’indipendenza statistica ha alcune importanti conseguenze.
In primo luogo, se le distribuzioni subordinate Y |Xh sono uguali, lo sono
anche le distribuzioni subordinate X|Yk , pertanto la realzione di indipendenza
statistica è simmetrica: se Y è indipendente da X, allora X è indipendente da
Y.
Inoltre, se X e Y sono indipendenti, le distribuzioni subordinate Y |Xh ,
uguali per ipotesi, coincidono con la distribuzione marginale di Y . Questa
proprietà segue dalla relazione tra frequenze marginali e frequenze subordinate dimostrata nel Teorema 18. Lo stesso vale per le distribuzioni subordinate
X|Yk .
Il risultato di gran lunga più interessante è il teorema di fattorizzazione.
Teorema 20 (Frequenze teoriche di indipendenza) Condizione necessaria
e sufficiente affinchè le variabili X e Y siano statisticamente indipendenti è che
le frequenze relative congiunte verifichino la seguente relazione
(Ind)
fX,Y (Xh , Yk ) = fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ),
per ogni coppia (h, k), h = 1, . . . , H, k = 1, . . . , K.
Dimostrazione. La necessità della condizione segue dalla definizione di
frequenza subordinata. Infatti, se X e Y sono indipendenti, le frequenze subordinate fY |Xh (Yk ) sono uguali a fY (Yk ) per ogni h = 1, . . . , H e k = 1, . . . , K.
Pertanto
fY |Xh (Yk ) = fX,Y (Xh , Yk )/fX (Xh ) = fY (Yk )
101
7.4. DIPENDENZA IN SENSO STATISTICO
Genere
F
M
E
942
668
Facoltà
F
L
543 475
385 336
S
299
213
Tabella 7.31: Immatricolati a Ca’ Foscari per genere e facoltà, a. a. 2002/03.
Frequenze teoriche di indipendenza.
per ogni combinazione degli indici h e k. Questo prova la necessità. Per provare
la sufficienza, basta osservare che, se fX,Y (Xh , Yk ) = fX (Xh )fY (Yk ) per ogni
h = 1, . . . , H e k = 1, . . . , K, le frequenze subordinate fY |Xh (Yk ) risultano uguali
alle frequenze marginali fY (Yk ), per ogni h = 1, . . . , H. Pertanto le distribuzioni
subordinate Y |Xh sono uguali e le variabili sono indipendenti.
Moltiplicando le frequenze relative teoriche di indipendenza per la numerosità
totale n, otteniamo l’espressione delle frequenze assolute di indipendenza:
(Ind)
nX,Y (Xh , Yk ) = nX (Xh )nY (Yk )/n,
per ogni coppia di modalità (Xh , Yk ), h = 1, . . . , H, k = 1, . . . , K. In pratica, la frequenza congiunta della cella all’incrocio della riga h con la colonna k
è uguale al prodotto delle corrispondenti frequenze assolute marginali, diviso
per la numerosità totale. Per ogni distribuzione congiunta osservata esiste una
distribuzione ombra teorica, di solito puramente ipotetica, in cui le frequenze
congiunte soddisfano questa relazione. Le due tabelle, quella osservata e quella
teorica, sono uguali se e solo se le variabili sono indipendenti. Vale la pena
osservare che la relazione di indipendenza tra le variabili è l’unico caso in cui la
distribuzione congiunta è ricavabile dalle sole distribuzioni marginali.
Esempio 61 (Immatricolati a Ca’ Foscari) Se maschi e femmine avessero
le stesse preferenze per le facoltà, le frequenze congiunte della distribuzione del
genere e della facoltà seguirebbero il modello di indipendenza (Tabella 7.31) mentre invece si notano vistose differenze. Ad esempio, la frequenza teorica di indipendenza delle femmine iscritte a Scienze è pari a 512 × 2· 259/3·861 ' 299,
molto più alta del valore osservato pari a 145. La frequenza teorica di indipendenza dei maschi iscritti a Lingue è pari a 811 × 1· 602/3·861 ' 336, più alta
del valore osservato pari a 194.
L’indipendenza statistica è un modello teorico usato come termine di confronto per le distribuzioni osservate. Raramente le distribuzioni osservate sono
esattamente conformi al modello di indipendenza. È invece utile misurare la
loro distanza dal modello di indipendenza. Quando i dati sono campionari,
queste distanze permettono di valutare se le discrepanze tra le frequenze congiunte osservate e quelle teoriche di indipendenza sono attribuibili all’errore di
campionamento, oppure rivelano una differenza reale, attribuibile al fatto che
le variabili sono dipendenti.
102
RELAZIONI TRA VARIABILI
Una distanza molto usata è la statistica chi-quadrato di Pearson
χ2 =
H X
K
X
h=1 k=1
=
H X
K
X
h=1 k=1
( frequenze osservate − teoriche)2 /frequenze teoriche
(Ind)
(Ind)
(nX,Y (Xh , Yk ) − nX,Y (Xh , Yk ))2 /nX,Y (Xh , Yk ).
Si dimostra che 0 ≤ χ2 ≤ n min {H − 1, K − 1}. Il valore 0 viene assunto se
e solo se le variabili sono indipendenti. L’estremo superiore viene raggiunto
quando nella distribuzione congiunta ogni riga ed ogni colonna ha una sola
cella con frequenza positiva. In tal caso le distribuzioni subordinate sono tutte
degeneri.
Esempio 62 (Bilanci familiari) Il titolo di studio del capofamiglia e del coniuge (o convivente) sono statisticamente dipendenti. Infatti le distribuzioni subordinate (Tabella 7.30) sono diverse, con un’evidente concentrazione sul titolo
di studio corrispondente alla modalità subordinante. La statistica chi-quadrato
è pari a 5· 156, un valore la cui interpretazione probabilistica segnala una forte
discrepanza dal valore atteso nel caso di indipendenza.
Regressione e correlazione
Le distribuzioni subordinate di una variabile Y rispetto ad una variabile X forniscono l’informazione necessaria per lo studio della relazione di Y con X. Se le
distribuzioni subordinate sono uguali, le variabili sono statisticamente indipendenti. Se le distribuzioni subordinate sono diverse, Y dipende da X. Diventa
allora importante, da un lato, quantificare il grado di dipendenza, dall’altro
interpretare la relazione. Nel caso delle variabili Y numeriche, il compito è
facilitato dallo studio della variazione di qualche indice di posizione (media o
mediana) delle distribuzioni subordinate Y |X, al variare di X. Da tali considerazioni scaturiscono le nozioni di regressione e correlazione che sono alla base
delle indagini statistiche di causalità.
8.1
Funzioni di regressione
Il termine regression fu usato da F. Galton59 per descrivere la tendenza delle
stature dei figli di padri alti a diminuire verso valori normali. Oggi i modelli
di regressione sono usati per descrivere la relazione di una variabile dipendente
rispetto a una o più variabili esplicative. Noi ci limitiamo a considerare una
coppia di variabili numeriche e indichiamo sempre con X la variabile esplicativa,
con Y la variabile dipendente.
Definizione 21 (Funzione di regressione) La funzione di regressione è l’applicazione
m : x → y|x
che ad ogni modalità della variabile esplicativa X associa la media della corrispondente distribuzione subordinata Y |X = x.
La funzione di regressione riassume le distribuzioni subordinate per mezzo delle corrispondenti medie evidenziando l’effetto della variabile esplicativa
sul posizionamento della variabile dipendente. La dispersione interna delle distribuzioni subordinate, essenziale per valutare la precisione delle medie, viene
misurata dalle deviazioni standard sY |x . Pertanto la funzione di regressione
è sempre accompagnata dalla funzione x → sY |x che ne descrive la qualità
statistica.
59 F. Galton (1822-1911), medico e scienziato inglese, è considerato il pioniere del metodo
statistico nelle indagini scientifiche.
103
104
REGRESSIONE E CORRELAZIONE
N. Percettori, X
1
2
3
4
5
6
7
N. Famiglie (%)
3840 (47.9)
3228 (40.3)
752 (9.4)
174 (2.2)
16 (0.2)
1 (0.0)
1 (0.0)
Reddito Medio, y|x
20.4
35.5
46.7
56.6
65.1
85.3
111.2
sY |x
20.3
29.5
26.1
23.1
32.8
0
0
Tabella 8.32: Reddito medio familiare (migliaia di euro) in funzione del numero
di percettori di reddito, 2004 (fonte: Banca d’Italia).
Esempio 63 (Numero di percettori di reddito e reddito familiare) Il reddito familiare è ovviamente influenzato dal numero di percettori di reddito presenti nelle famiglie. L’indagine sui bilanci familiari della Banca d’Italia consente di studiare la relazione tra le due variabili. I risultati, esposti nella Tabella
8.32, mostrano che il numero dei percettori varia da 1 a 7, con una fortissima
concentrazione sui valori 1 (47.9% delle famiglie), 2 (40.3%) e 3 (9.4%). Le
modalità estreme 6 e 7, con frequenza assoluta unitaria, sono praticamente irrilevanti. Conformemente alle aspettative, la funzione di regressione y|x mostra
che il reddito familiare cresce col numero di percettori, ma in misura meno che
proporzionale. Le deviazioni standard sY |x hanno un andamento oscillatorio,
ma rivelano comunque l’esistenza di una non trascurabile dispersione dei redditi
familiari all’interno delle distribuzioni subordinate, comparabile alla dispersione
dei redditi nella distribuzione marginale, dato che sY ' 26.9.
L’esempio precedente mostra che la funzione di regressione è una funzione
empirica le cui caratteristiche sono dettate dai dati. Allo studioso interessa rilevarne l’andamento, monotono (in particolare, lineare) crescente o decrescente,
o non monotono, nel qual caso acquistano importanza i punti estremi. La funzione di regressione è detta omoschedastica o eteroschedastica a seconda che la
dispersione interna delle distribuzioni subordinate Y |X, misurata dalle deviazioni standard sY |x , sia costante o variabile. L’applicazione più importante è la
previsione di Y . Infatti, y|x rappresenta la previsione statistica di Y , quando è
noto che X assume la determinazione x; sY |x misura il corrispondente errore di
previsione.
Quando la funzione di regressione è costante, cioè le medie delle distribuzioni
subordinate Y |X non variano al variare di X, Y è indipendente in media rispetto a X. In questo caso, da non confondere con l’indipendenza in distribuzione,
non c’è alcuna relazione funzionale di Y con X, almeno quando si usa come
indice di posizione la media. Se X e Y sono indipendenti in distribuzione, sono
necessariamente indipendenti in media perchè l’uguaglianza delle distribuzioni
subordinate implica l’uguaglianza dei corrispondenti indici di sintesi, in particolare delle medie. Viceversa, l’indipendenza in media non comporta, in generale,
l’indipendenza in distribuzione.
8.2. PROPRIETÀ DELLA FUNZIONE DI REGRESSIONE
X
-1
0
1
fY
-2
1/11
0
1/11
2/11
-1
1/11
1/11
1/11
3/11
Y
0
0
1/11
0
1/11
2
1/11
1/11
1/11
3/11
1
1/11
0
1/11
2/11
105
fX
4/11
3/11
4/11
1
Tabella 8.33: Distribuzione congiunta con variabili indipendenti in media e
dipendenti in distribuzione.
Esempio 64 (Indipendenza in media e indipendenza in distribuzione)
Nella distribuzione congiunta della Tabella 8.33 Y è indipendente in media da
X perchè µY |x = 0, x ∈ {−1, 0, 1} e X è indipendente in media da Y perchè
µX|y = 0, y ∈ {−2, −1, 0, 1, 2}. D’altra parte, le variabili sono dipendenti in distribuzione perchè, come è facile verificare, le frequenze congiunte non rispettano
il teorema di fattorizzazione.
Nell’esempio seguente la funzione di regressione ha un andamento non monotono.
Esempio 65 (Età media dei coniugi e numero di figli) Se studiamo la variazione del numero di figli conviventi in famiglia in relazione all’età media dei
coniugi, la funzione di regressione cresce rapidamente quando i coniugi sono giovani, reggiunge il valore massimo attorno ai 45 anni e poi decresce gradualmente
fin quasi ad azzerarsi. La Figura 8.33 mostra i risultati ricavati dal campione
di famiglie dell’indagine della Banca d’Italia sui bilanci familiari, che descrive
anche la composizione dei nuclei familiari. Le deviazioni standard s Y |x sono
elevate e non lontane dalla deviazione standard marginale s Y ' 1.02 fino a
x ' 65 anni, dopo di che si riducono sensibilmente. La frequenza dei valori
estremi dell’età media dei coniugi è di poche unità e questo potrebbe rendere
poco attendibili le corrispondenti stime della funzione di regressione.
8.2
Proprietà della funzione di regressione
La funzione di regressione gode di un’importante proprietà di ottimalità, che
generalizza l’ottimalità della media secondo il criterio dei minimi quadrati. In
sintesi, descrivere la relazione di Y rispetto ad X con una funzione c(X) 6= y|X
comporta un errore quadratico superiore rispetto a c(X) = y|X. Emerge inoltre
un collegamento col teorema di scomposizione della varianza. Infatti le modalità
X1 , . . . , XH della variabile esplicativa X inducono una partizione delle unità
statistiche in H gruppi e le distribuzioni di Y all’interno di tali gruppi sono
precisamente le distribuzioni subordinate Y |X1 , . . . , Y |XH . Pertanto la varianza
marginale di Y è la somma di una componente che misura la dispersione media
all’interno delle distribuzioni subordinate (s2Y,W IT H ) e di una componente che
misura la dispersione delle medie subordinate, cioè della funzione di regressione,
attorno alla media marginale di Y (s2Y,BET ).
106
REGRESSIONE E CORRELAZIONE
2.0
1.5
1.0
0.0
0.5
Numero Medio di Figli
2.5
3.0
Funzione di Regressione
*
** * **
*** ******
******* *** *****
* ** *
*
* ******
* ** ** *
*
*
*****
*
**
*
***
***
*
*
* ****
*****
*
**
**
*
*
*
**
* *** ** **
****** ******** *
**
* * ****************** *****
** **
20
40
60
80
Età Media dei Coniugi
Figura 8.33: Numero di figli in funzione dell’età media dei coniugi, 2004 (*:
funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x±sY |x ,
la retta orizzontale indica la media marginale del numero di figli; fonte: Banca
d’Italia).
Dimostriamo per prima cosa la relazione della funzione di regressione con la
media marginale della variabile dipendente.
Teorema 22 (Media della funzione di regressione) La media della funzione
di regressione è uguale alla media marginale della variabile dipendente.
Dimostrazione. La funzione di regressione m : x → y|x è una trasformazione della variabile esplicativa X che ad ogni modalità X h associa la media della distribuzione subordinata Y |Xh , h ∈ {1, . . . , H}. Pertanto, per h ∈
{1, . . . , H}, y|Xh ha la frequenza relativa di Xh , cioè fX (Xh ). Usando la
8.2. PROPRIETÀ DELLA FUNZIONE DI REGRESSIONE
107
definizione di media e di funzione di regressione otteniamo60
M (y|X) =
H
X
(y|Xh )fX (Xh )
h=1
=
H X
K
X
(
Yk fY |Xh (Yk ))fX (Xh )
h=1 k=1
=
H X
K
X
Yk fX,Y (Xh , Yk )
h=1 k=1
=
K
X
k=1
Yk fY (Yk ) ≡ y.
Si ottiene una dimostrazione alternativa del risultato precedente applicando
la proprietà associativa della media. L’espressione della varianza della funzione
di regressione è una conseguenza immediata del Teorema 22.
Corollario 23 (Varianza della funzione di regressione)
V ar(y|X) =
H
X
h=1
(y|Xh − y)2 fX (Xh ).
Il Teorema 22 indica che la funzione di regressione fluttua attorno alla media
marginale della variabile dipendente e gli scostamenti misurano l’entità e la
direzione dell’influenza esercitata dalla variabile esplicativa. Se c’è indipendenza
in media, la funzione di regressione è costante e il valore che essa assume coincide
necessariamente con la media marginale della variabile dipendente. In tal caso
V ar(y|X) è nulla.
Teorema 24 (Ottimalità della funzione di regressione) In una distribuzione congiunta {X, Y, fX,Y } la media dei quadrati degli errori di Y da una
funzione c(X) è minima quando c(X) è la funzione di regressione y|X. In
questo caso essa coincide con la media delle varianze interne delle distribuzioni
subordinate Y |X, s2Y |x .
Dimostrazione. Indichiamo con c(X) una funzione della variabile X che
associa alle distribuzioni subordinate Y |Xh i valori ch = c(Xh ), h ∈ {1, . . . , H}.
Gli errori quadratici di Y rispetto a tale funzione nella distribuzione Y |X h sono
(Y1 − ch )2 , . . . , (YK − ch )2
da ponderare con le frequenze subordinate
fY |Xh (Y1 ), . . . , fY |Xh (YK ).
60 I simboli M (·) e V ar(·) indicano l’applicazione degli operatori media e varianza ad una
variabile statistica, in questo caso la funzione di regressione.
108
REGRESSIONE E CORRELAZIONE
Pertanto l’errore quadratico medio per la distribuzione subordinata Y |X h è
K
X
k=1
(Yk − ch )2 fY |Xh (Yk ).
Per la proprietà dei minimi quadrati della media
K
X
k=1
≥
(Yk − ch )2 fY |Xh (Yk )
K
X
k=1
(Yk − y|Xh )2 fY |Xh (Yk )
= s2Y |Xh .
Poichè la disuguaglianza precedente vale per ogni h ∈ {1, . . . , H}, l’errore quadratico medio complessivo soddisfa
L2 (c(X)) =
H X
K
X
( (Yk − ch )2 fY |Xh (Yk ))fX (Xh )
h=1 k=1
≥
H
X
s2Y |Xh fX (Xh ) = L2 (y|X).
h=1
La funzione L2 (c(X)) rappresenta l’errore quadratico medio derivante dalla
previsione di Y mediante la funzione c(X) applicata alle distribuzioni subordinate Y |X. Il teorema precedente mostra che la funzione ottimale, con errore
minimo, è la funzione di regressione. Vale la pena osservare che L2 (y|X) rappresenta un confine inferiore non migliorabile dell’errore di previsione, almeno
nell’ambito del criterio dei minimi quadrati.
Teorema 25 (Scomposizione della varianza) In una distribuzione congiunta {X, Y, fX,Y } la varianza marginale di Y verifica l’identità
s2Y = s2Y,BET + s2Y,W IT H ,
in cui
s2Y,BET = V arX (y|X) =
H
X
h=1
(y|Xh − y)2 fX (Xh )
è la varianza della funzione di regressione e
s2Y,W IT H = MX (s2Y |X ) =
H
X
h=1
s2Y |Xh fX (Xh ) = L2 (y|X)
8.3. CORRELAZIONE STATISTICA
109
è la varianza media di Y all’interno delle distribuzioni subordinate Y |X h . Il
risultato vale anche, mutatis mutandis, per la varianza marginale di X.
Dimostrazione. La dimostrazione è un caso particolare del teorema di
scomposizione della varianza per dati divisi in gruppi, perchè le modalità di X
inducono una partizione delle unità statistiche.
8.3
Correlazione statistica
La scomposizione della varianza del Teorema 25 offre una semplice quantificazione del grado di dipendenza di Y rispetto a X. La componente s2Y,BET
misura la variazione delle medie subordinate di Y indotta da X ed è interpretabile come la componente della varianza di Y spiegata dalla relazione con
X. Viceversa, s2Y,W IT H è interpretabile come la componente della varianza di Y
residuale, cioè non spiegata dalla relazione con X. Una misura normalizzata del
grado di dipendenza funzionale61 di Y rispetto a X è il rapporto tra la varianza spiegata dalla funzione di regressione e la varianza marginale della variabile
dipendente
s2Y,BET
.
ηY2 |X =
s2Y
Questo indice prende il nome di rapporto di correlazione. Le sue proprietà sono
descritte dal seguente teorema.
Teorema 26 (Variazione del rapporto di correlazione) i. 0 ≤ ηY2 |X ≤ 1;
ii. ηY2 |X = 0 se e solo se Y è indipendente in media da X;
iii. ηY2 |X = 1 se e solo se la distribuzioni subordinate Y |Xh sono degeneri,
h ∈ {1, . . . , H}.
Dimostrazione.
i. La proprietà è una conseguenza immediata del Teorema 25 perchè s 2Y,BET e
s2Y sono quantità non negative e s2Y,BET è una componente di s2Y .
ii. ηY2 |X = 0 se e solo se s2Y,BET = 0. A sua volta s2Y,BET = 0 se e solo se, per
h ∈ {1, . . . , H}, le medie subordinate y|Xh sono uguali fra loro e dunque
coincidenti con la media marginale y. Questa è esattamente la condizione
di indipendenza in media di Y rispetto ad X.
iii. ηY2 |X = 1 se e solo se 1 − ηY2 |X = 0, cioè se e solo se s2Y,W IT H = 0. Questa
condizione si verifica se e solo se s2Y |Xh = 0 per ogni h ∈ {1, . . . , H}, cioè
se e solo se tutte le distribuzioni subordinate Y |Xh sono degeneri.
61 Dipendenza
funzionale o in media o di regressione.
110
REGRESSIONE E CORRELAZIONE
Quando ηY2 |X = 1, la varianza residua s2Y,W IT H è nulla. Quindi, nel caso
di massima dipendenza in media, ad ogni modalità Xh di X corrisponde una
ed una sola modalità di Y e questa corrispondenza è descritta perfettamente,
senza errore, dalla funzione di regressione y|X. Si tratta evidentemente di una
situazione estrema, virtualmente mai osservata in pratica. Gli esempi seguenti
illustrano il caso consueto, in cui 0 < ηY2 |X < 1.
60
40
20
Età Media del Coniuge
80
Funzione di Regressione
**
*
* ****
*
*** * *
***
*
****
*
*
*
***
***
*
**
***
*
*
***
**
*
*
****
*
*
*
**
**
*
*
**
***
**
* ****
*
**** *
20
40
60
80
Età del Capofamiglia
Figura 8.34: Età del coniuge in funzione dell’età del capofamiglia, 2004 (*:
funzione di regressione; i segmenti verticali rappresentano gli intervalli y|x ±
sY |x , la retta orizzontale indica l’età media marginale del coniuge; fonte: Banca
d’Italia).
Esempio 66 (Età del capofamiglia e del coniuge) La Figura 8.34 mostra
il grafico della funzione di regressione dell’età del coniuge, Y , rispetto all’età del
capofamiglia, X (confronta col diagramma di dispersione della Figura 7.31). La
relazione è lineare crescente e, come mostra la banda y|X ± s Y |X di ampiezza
pressochè costante, tendenzialmente omoschedastica. La varianza di Y è s 2Y =
190.2237 e le componenti sono s2Y,BET = 164.9909, s2Y,W IT H = 25.23274. Il
111
8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA
rapporto di correlazione è ηY2 |X ' 0.867. Il valore, molto elevato, indica che la
funzione di regressione fornisce previsioni con un margine d’errore ridotto.
Esempio 67 (Età media dei coniugi e numero di figli) Qui la variabile esplicativa, X, è l’età media dei coniugi e la variabile dipendente, Y , è il numero di
figli conviventi. I risultati sono s2Y ' 1.050, s2Y,BET ' 0.344, s2Y,W IT H ' 0.706.
Pertanto ηY2 |X ' 0.327. Il valore, piuttosto basso, riflette le considerevoli deviazioni dei dati osservati dalle previsioni fornite dalla funzione di regressione
(vedi Figura 8.33).
8.4
Distribuzione gaussiana bivariata
La distribuzione gaussiana (o normale) bivariata ha funzione di densità congiunta
1
1
p
fX,Y (x, y) =
exp − q(x, y) ,
2
2πσX σY 1 − ρ2
in cui
q(x, y) =
1
1 − ρ2
(
x − µX 2
x − µX y − µ Y
y − µY 2
) − 2ρ(
)(
)+(
)
σX
σX
σY
σY
e µX , µY , σX > 0, σY > 0, −1 < ρ < 1 sono i parametri della distribuzione. Il grafico (vedi Figura 8.35) ha la forma di una campana col vertice in
corrispondenza del punto di coordinate (µX , µY ) e dispersione dipendente congiuntamente da σX , σY . Il significato del parametro ρ verrà chiarito più avanti.
Dimostriamo preliminarmente che la densità gaussiana bivariata è non negativa
e il suo integrale è pari a 1.
Teorema 27 (Normalizzazione della densità gaussiana bivariata) i. Per
ogni coppia di numeri reali (x, y), fX,Y (x, y) > 0;
R +∞ R +∞
ii. −∞ −∞ fX,Y (x, y)dxdy = 1.
Dimostrazione.
p
i. fX,Y (x, y) > 0 perchè 2πσX σY 1 − ρ2 è una costante positiva e exp − 21 q(x, y)
è un numero reale positivo comunque si fissino i valori di x e y.
ii. La funzione q(x, y) si può scrivere in modo equivalente
x − µX 2
)
σX
1
x − µX y − µ Y
y − µY 2
2 x − µX 2
+
ρ (
) − 2ρ(
)(
)+(
)
1 − ρ2
σX
σX
σY
σY
x − µX 2
1
y − µY
x − µX 2
=(
) +
(
−ρ
)
σX
1 − ρ2
σY
σX
x − µX 2
1
σY
=(
) + 2
(y − µY − ρ
(x − µX ))2 .
2
σX
σY (1 − ρ )
σX
q(x, y) = (
112
REGRESSIONE E CORRELAZIONE
Ponendo
σY
µY (x) = µY + ρ
(x − µX ),
σX
p
σY (x) = σY 1 − ρ2 ,
l’espressione di q(x, y) diventa
q(x, y) = (
x − µX 2
y − µY (x) 2
) +(
) .
σX
σY (x)
A sua volta, fX,Y si può convenientemente riscrivere come segue
1
1 x − µX 2
1
1 y − µY (x) 2
√
√
fX,Y (x, y) =
)
)
exp − (
exp − (
2
σX
2
σY (x)
σX 2π
σY (x) 2π
= fX (x)fY |X (y).
L’integrale di fX,Y rispetto a x e a y diventa
Z
+∞
−∞
Z
+∞
fX,Y (x, y)dxdy =
−∞
=
Z
+∞
−∞
Z +∞
−∞
Z
+∞
fX (x)fY |X (y)dxdy
−∞
fX (x)(
Z
+∞
fY |X (y)dy)dx.
−∞
Per ogni fissato valore di x, fY |X è interpretabile come una densità gaussiana univariata, con media µY (x) e deviazione standard σY (x). Pertanto
R +∞
f
(y)dy = 1 per ogni x reale. Anche fX è interpretabile come una
−∞ Y |X
densità gaussiana univariata, con media µX e deviazione standard σX , e
quindi
Z +∞ Z +∞
Z +∞
Z +∞
fX,Y (x, y)dxdy =
fX (x)(
fY |X (y)dy)dx
−∞
−∞
=
Z
−∞
+∞
−∞
fX (x)(1)dx
−∞
= 1.
Questo completa la dimostrazione.
Vale la pena notare alcuni risultati impliciti nella dimostrazione del Teorema
27. Il fatto che la densità congiunta fX,Y (x, y) sia identicamente uguale al
prodotto fX (x)fY |X (y), prova che la distribuzione marginale X è gaussiana
N (µX , σX ) e che le distribuzioni subordinate Y |X = x sono tutte gaussiane
N (µY (x), σY (x)). Riconosciamo in µY (x) ≡ µY |X e σY (x) ≡ σY |X le medie e
le deviazioni standard, rispettivamente, delle distribuzioni subordinate. Quindi,
per la distribuzione normale bivariata, la funzione di regressione µY (x) è lineare,
8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA
113
crescente o decrescente a seconda che 0 < ρ < 1 o −1 < ρ < 0, e omoschedastica,
σY (x) non dipendendo da x. È facile verificare che la densità congiunta fX,Y è
anche esprimibile come
fX,Y (x, y) = fY (y)fX|Y (x),
con
1 y − µY 2
fY (y) =
) ,
exp − (
2
σY
σY 2π
1
1 x − µX (y) 2
√ exp − (
fX|Y (x) =
) ,
2
σX (y)
σX (y) 2π
1
√
e
σX
(y − µY ),
µX (y) = µX + ρ
σY
p
σX (y) = σX 1 − ρ2 .
Questo mostra che la distribuzione marginale Y è gaussiana N (µY , σY ) e le
distribuzioni subordinate X|Y = y sono gaussiane N (µX (y), σX (y)). Le caratteristiche della funzione di regressione µX (y) ≡ µX|y sono identiche a quelle di
delle distribuzioni subordinate Y |X = x. Riassumiamo
i risultati precedenti
µX
nel seguente teorema. Indichiamo con µ il vettore
e con Σ la matrice
µY
2
σX
ρσX σY
.
ρσX σY
σY2
Teorema 28 (Distribuzioni marginali e subordinate della normale bivariata)
Nella distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ) le distribuzioni marginali
e subordinate hanno le seguenti caratteristiche
i. X ∼ N (µX , σX ), Y ∼ N (µY , σY );
ii. per x ∈ R e −1 < ρ < 1, Y |X = x ∼ N (µY |x , σY |x ),
iii. per y ∈ R e −1 < ρ < 1, X|Y = y ∼ N (µX|y , σX|y ).
La Figura 8.35 mostra i grafici della densità normale bivariata con componenti marginali standardizzate e parametro ρ rispettivamente uguale a 0.75 e
−0.3. Le curve di livello costante62 delle normale bivariata sono ellissi col centro
nel punto (µX , µY )T ed eccentricità dipendente dal parametro ρ (vedi Figura
8.36). Poichè la distribuzione subordinata Y |X = x è normale,
per ogni fissato
p
2
x la frequenza subordinata dell’intervallo µY |x ± 3σY 1 − ρ supera il 99%.
Questo mostra che la parte preponderante dei dati della distribuzione
congiunp
ta di (X, Y ) è compresa nella banda di semiampiezza 3σY 1 − ρ2 attorno alla
retta µY |x descritta dalla funzione di regressione. L’ampiezza della banda, a
62 Ottenute
intersecando la superficie gaussiana con piani paralleli al piano coordinato xy.
114
REGRESSIONE E CORRELAZIONE
Densità Normale Bivariata (rho = 0.75 )
Densità Normale Bivariata (rho = −0.3 )
0.15
0.20
ità
Dens
0.10
3
0.10
0.05
3
0.05
2
2
1
0
−2
−1
−3
−1
−1
X
0
−2
Y
−3
1
0
1
−1
X
−2
Y
ità
Dens
0.15
0
1
2
−2
2
3
−3
3
−3
Figura 8.35: Funzioni di densità gaussiane.
parità di valore di σY , dipende solo dal parametro ρ e diminuisce quando ρ
tende a ±1. Questo indica che le previsioni mediante la funzione di regressione
sono tanto più precise quanto più ρ, in valore assoluto, è prossimo a 1. Equivalentemente, ρ misura la concentrazione dei dati attorno alla retta di regressione
che aumenta quando | ρ |→ 1. È facile verificare che per la normale bivariata il
rapporto di correlazione risulta essere
ηY2 |X = 1 −
MX (σY2 |X )
σY2
=1−
2
MY (σX|Y
)
2
σX
= ρ2 .
Per le sue proprietà il parametro ρ viene chiamato coefficiente di correlazione lineare. Nel teorema seguente mostriamo che esso è uguale alla media
del prodotto delle componenti marginali standardizzate XST , YST della normale
bivariata.
Teorema 29 (Espressione del coefficiente di correlazione lineare) Per ogni
distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ),
ρ = MX,Y (XST YST ),
in cui XST = (X − µX )/σX , YST = (Y − µY )/σY .
Dimostrazione. Dobbiamo provare che risulta
Z +∞
Z +∞
x − µX
y − µY
fX (x)(
fY |X (y)dy)dx = ρ.
σ
σY
X
−∞
−∞
Operando il cambiamento di variabile u = (x − µX )/σX , v = (y − µY )/σY ,
115
8.4. DISTRIBUZIONE GAUSSIANA BIVARIATA
2
1
0
Y
0
*
−2
−3
−3
−2
−1
*
−1
Y
1
2
3
Curve di Livello Densità Normale (rho = −0.3 )
3
Curve di Livello Densità Normale (rho = 0.75 )
−3
−2
−1
0
1
2
3
−3
−2
X
−1
0
1
2
3
X
Figura 8.36: Curve di livello della densità gaussiana, con centroide e funzione
di regressione.
l’integrale assume la seguente espressione
Z +∞
Z +∞
ufU (u)(
vfV |U (v)dv)du,
−∞
−∞
p
in cui U ∼ N (0, 1), V |U = u ∼ N (ρu, 1 − ρ2 ). L’integrale più interno è per
definizione la media della distribuzione subordinata V |U = u, cioè ρu, pertanto
l’integrale doppio diventa
Z +∞
ρ
u2 fU (u)du = V ar(U ) = ρ,
−∞
perchè U è una variabile standardizzata.
È evidente da quanto precede che, se ρ = 0, X e Y sono indipendenti in
media perchè
σY
µY |x = µY + ρ
(x − µX ) ≡ µY
σX
per ogni x e
σX
µX|y = µX + ρ
(y − µY ) ≡ µX
σY
per ogni y. Per le distribuzioni normali, questa condizione è necessaria e
sufficiente per l’indipendenza in distribuzione.
Teorema 30 (Indipendenza in distribuzione per le distribuzioni normali)
Le componenti marginali di una distribuzione normale bivariata (X, Y ) ∼ N (µ, Σ)
sono indipendenti in distribuzione se e solo se ρ = 0.
116
REGRESSIONE E CORRELAZIONE
Dimostrazione. Se ρ = 0, fX,Y (x, y) = fX (x)fY (y), pertanto X, Y sono
indipendenti in distribuzione per il teorema di fattorizzazione. D’altra parte,
se X, Y sono indipendenti in distribuzione, la densità congiunta è uguale al
prodotto delle densità marginali, quindi
1
1 x − µX 2
y − µY 2
fX,Y (x, y) =
exp − ((
) +(
) )
2πσX σY
2
σX
σY
da cui segue necessariamente ρ = 0.
Il risultato precedente si deve considerare eccezionale e caratteristico delle
distribuzioni normali. L’Esempio 64 ci ha infatti mostrato che, in generale,
l’indipendenza in media non implica l’indipendenza in distribuzione.
Correlazione lineare
Come mostrano gli esempi del Capitolo 8, le relazioni lineari sono tutt’altro
che la regola nelle analisi statistiche di dipendenza. Nondimeno, esse occupano una posizione centrale nella metodologia. Il motivo è da attribuire alla
predominanza della distribuzione gaussiana come modello distributivo per dati
numerici e il Teorema 28 mostra che per tale distribuzione la funzione di regressione è effettivamente lineare. Le deviazioni delle distribuzioni empiriche
da questo modello possono essere talvolta corrette mediante trasformazioni dei
dati di base63 . Frequentemente, l’ipotesi di linearità non ha un fondamento
nella teoria, rappresenta piuttosto l’ipotesi più semplice da mettere alla prova
dei dati ed eventualmente correggere in fasi successive.
La Statistica offre strumenti efficaci per trattare le relazioni lineari. La
covarianza e il coefficiente di correlazione lineare (già incontrato nel Capitolo
8) forniscono una diagnosi precisa circa l’esistenza di relazioni lineari. Se l’esito
è positivo, un’approssimazione lineare della funzione di regressione con buone
proprietà statistiche è la retta dei minimi quadrati.
9.1
Covarianza
L’ordinaria misura statistica del grado di interdipendenza lineare di due variabili
numeriche X, Y è coefficiente di correlazione lineare, definito come la media del
prodotto delle variabili standardizzate XST , YST
rX,Y = MX,Y (XST YST ).
Usando la definizione di variabile standardizzata e le proprietà delle trasformazioni lineari, si ottiene l’espressione equivalente
rX,Y = MX,Y (
X − xn Y − y n
)
sX
sY
1
MX,Y ((X − xn )(Y − y n ))
sX sY
sX,Y
,
=
sX sY
=
63 Un
esempio è la trasformazione logaritmica applicata a dati reddituali.
117
118
CORRELAZIONE LINEARE
N. Componenti
1
2
3
4
5
6
7
8
9
Totali
0
1885
2040
164
49
12
0
0
0
0
4150
N. Figli Conviventi
1
2
3
4
5
0
0
0
0
0
382
0
0
0
0
1384 127
0
0
0
79
1331 25
0
0
32
60
316 4
0
6
11
15
63 2
2
2
0
1
8
0
3
3
1
0
0
1
0
1
8
1885 1535 359 69 10
6
0
0
0
0
0
0
1
1
1
2
7
0
0
0
0
0
0
0
0
2
2
Totali
1885
2422
1675
1484
424
97
14
8
3
8012
Tabella 9.34: Bilanci familiari.
Distribuzione congiunta del numero di
componenti delle famiglie e del numero di figli, 2004 (fonte: Banca d’Italia).
in cui sX,Y = MX,Y ((X − xn )(Y − yn )) è la covarianza della distribuzione
congiunta (X, Y ). Quando i dati bivariati sono n coppie di valori (xi , yi ), i =
1, . . . , n, la formula di calcolo della covarianza è
sX,Y = n−1
= (n
n
X
(xi − xn )(yi − y n )
i=1
n
X
−1
i=1
xi y i ) − x n y n .
Esempio 68 (Caratteristiche delle autovetture) Nell’Esempio 53 abbiamo
osservato che al crescere della cilindrata delle autovetture aumentano sia i consumi di carburante che le emissioni di CO2 . Indichiamo con X, Y , Z, rispettivamente, la cilindrata, il consumo di carburante e le emissioni di CO 2 . Dalla
Tabella 7.23 si ricava
n
X
i=1
xi = 11415,
n
X
x2i = 18055441,
i=1
n
X
n
X
i=1
yi = 43.40,
n
X
yi2 = 240.88,
i=1
xi yi = 64116.7.
i=1
Pertanto
sX,Y = 64116.7/8 − (11415/8)(43.40/8) ' 273.791
rX,Y = sX,Y /(sX sY ) ' 0.707.
Lo stesso procedimento fornisce rX,Z ' 0.860 e rY,Z ' 0.914.
119
9.1. COVARIANZA
Se i dati bivariati sono ordinati in una distribuzione di frequenze, si deve
usare la versione ponderata
sX,Y =
H X
K
X
h=1 k=1
=(
(Xh − xn )(Yk − y n )fhk
H X
K
X
h=1 k=1
Xh Yk fhk ) − xn y n .
Esempio 69 (Dimensione delle famiglie e numero di figli) La Tabella 9.34
mostra la distribuzione congiunta del numero di componenti delle famiglie (X)
e del numero di figli conviventi (Y ), ricavata dai dati della Banca d’Italia sui bilanci familiari (rilevazione 2004). La definizione delle variabili implica x i > yi
per ogni famiglia. Le distribuzioni marginali sono asimmetriche positivamente
con una forte concentrazione sulle modalità più basse. La moda del numero di
componenti è pari a 2, quella del numero di figli è pari a 0. La moda della
distribuzione congiunta è X = 2 ∩ Y = 0. Altre celle con frequenze elevate sono
X = 1 ∩ Y = 0, X = 3 ∩ Y = 1, X = 4 ∩ Y = 2. In generale, per y ≥ 0 la distribuzione congiunta è fortemente concentrata sulle modalità y + 1 ≤ x ≤ y + 3.
Le statistiche riassuntive sono
n
X
i=1
·
xi = 20 581,
n
X
x2i
·
= 65 925,
i=1
n
X
n
X
i=1
·
yi = 6 384,
n
X
yi2 = 12· 780,
i=1
xi yi = 25· 268,
i=1
da cui segue, in particolare, sX,Y ' 1.107 e rX,Y = sX,Y /(sX sY ) ' 0.885.
Diversamente dalle medie xn , yn e dalle deviazioni standard sX , sY , che
dipendono dalle distribuzioni marginali, la covarianza dipende dalla distribuzione congiunta bivariata. Essa è definita come la media del prodotto degli
scostamenti delle due variabili dalle rispettive medie ed è identicamente uguale
alla media del prodotto delle due variabili, diminuita del prodotto delle medie. Il
coefficiente di correlazione lineare, uguale alla covarianza divisa per il prodotto
delle deviazioni standard, è una versione normalizzata della covarianza. L’informazione essenziale sul legame lineare tra le variabili è tuttavia fornito dalla
covarianza.
Un’interpretazione della covarianza è offerta dalla disposizione dei dati bivariati nel diagramma di dispersione. Il grafico è diviso in quattro quadranti
dalle rette perpendicolari x = xn , y = y n passanti per il centroide, il punto di
coordinate (xn , y n ). Il quadrante in alto a destra è il luogo dei punti (x, y) con
x > xn e y > y n , mentre nel quadrante in basso a sinistra x < xn e y < y n .
In queste due regioni le variabili X, Y sono concordanti, intendendo con questo
che assumono entrambe determinazioni superiori o inferiori alla media. I dati
bivariati appartenenti a queste due regioni danno un contributo positivo alla
120
Squadra
CORRELAZIONE LINEARE
Reti
Segnate
Reti
Subite
Inter
Roma
Juventus
Fiorentina
Milan
Sampdoria
Udinese
Napoli
Atalanta
Genoa
69
72
72
55
66
56
48
50
52
44
26
37
37
39
38
46
53
53
56
52
Chievo
Bologna
Lecce
Albinoleffe
Brescia
Pisa
Rimini
Ascoli
Mantova
Frosinone
Bari
77
58
70
67
59
61
68
64
56
63
50
43
29
29
48
40
44
46
49
49
67
55
Punteggio
Squadra
Serie A
Palermo
Lazio
Siena
Cagliari
Torino
Reggina
Catania
Empoli
Parma
Livorno
Serie B
85
Triestina
84
Grosseto
83
Messina
78
Piacenza
72
Modena
71
Treviso
69
Vicenza
62
Avellino
60
Ravenna
56
Spezia
55
Cesena
85
82
72
66
64
60
57
50
48
48
Reti
Segnate
Reti
Subite
Punteggio
47
47
40
40
36
37
33
29
42
35
57
51
45
56
49
56
45
52
62
60
47
46
44
42
40
40
37
36
34
30
55
47
38
43
57
41
43
42
48
45
37
67
54
62
59
65
52
60
64
75
66
66
51
49
49
47
46
45
45
36
35
33
32
Tabella 9.35: Reti segnate e subite e punteggio finale nella stagione 2007-08 del
campionato di calcio di serie A e B.
covarianza. Viceversa, i dati bivariati appartenenti agli altri due quadranti danno un contributo negativo, perchè lı̀ le variabili sono discordanti, essendo una
inferiore, l’altra superiore alla media. La covarianza assume valori positivi o negativi a seconda che prevalga il contributo del primo e terzo quadrante o degli
altri due. Valori prossimi a zero indicano equlibrio nel contributo delle quattro
regioni. Nel caso limite in cui la covarianza è uguale a zero, le variabili sono
linearmente indipendenti perchè non c’è una concentrazione preferenziale dei
dati attorno ad una retta.
Esempio 70 (Campionato di calcio) La Tabella 9.35 riporta il numero di
reti segnate (X) e subite (Y ) e il punteggio nella classifica finale delle squadre
di calcio di serie A e B. I dati si riferiscono al campionato 2007-08. Ovviamente,
è positiva la correlazione lineare del punteggio finale con le reti segnate mentre
è negativa quella con le reti subite. La Figura 9.37 mostra i corrispondenti
diagrammi di dispersione delle squadre di serie B, con i quadranti determinati
dal centroide. Nel caso delle reti segnate i dati sono quasi tutti nel primo e terzo
quadrante, indizio di un valore positivo elevato del coefficiente di correlazione
121
9.2. COMBINAZIONI LINEARI
70
60
Punteggio
60
*
40
30
30
40
50
*
50
Punteggio
70
80
Campionato di Calcio Serie B
80
Campionato di Calcio Serie B
40
50
60
70
Reti Segnate
30
40
50
60
70
Reti Subite
Figura 9.37: Campionato di calcio di serie B 2007-08. Diagramma di dispersione
del numero di reti segnate (subite) e del punteggio finale (*: centroide).
lineare. I valori sono sX,Z ' 154.8, rX,Z ' 0.842. Risultato opposto nel caso
delle reti subite; si ricava sY,Z ' −176.4, rY,Z ' −0.879.
9.2
Combinazioni lineari
Le combinazioni lineari sono particolari trasformazioni di distribuzioni di p > 1
variabili numeriche che generalizzano le familiari nozioni di somma, differenza
e media. Si consideri, ad esempio, la spesa mensile di un campione di famiglie
ripartita in p capitoli (abbigliamento, alimentazione, casa, trasporti, ecc.). La
spesa mensile totale ST OT è la somma delle spese imputate ai singoli capitoli,
cioè
ST OT = S1 + . . . + Sj + . . . + Sp ,
in cui Sj è la spesa del capitolo j-esimo, j = 1, . . . , p. La trasformazione che
viene operata sui dati perde il dettaglio della composizione della spesa familiare
mantenendone solo il valore complessivo. Un altro esempio è il calcolo del
saldo naturale annuo V (t) della popolazione residente nei comuni, definito come
differenza tra i tassi di natalità N (t) e di mortalità M (t). Esso è definito dalla
trasformazione
V (t) = N (t) − M (t)
che riassume la distribuzione bivariata (N (t), M (t)) mediante il saldo, positivo
o negativo, dei due contributi. È ancora una combinazione lineare il voto medio
degli esami. Se indichiamo con Vj il voto dell’esame j-esimo, j = 1, . . . , p, il
122
CORRELAZIONE LINEARE
voto medio VM è
VM = (V1 + . . . + Vj + . . . + Vp )/p.
Non si deve confondere questa operazione, che definisce una nuova variabile,
VM , sintesi delle variabili V1 , . . . , Vp , col calcolo del voto medio campionario
che descrive la posizione delle singole variabili, siano esse i voti di partenza
V1 , . . . , V p o V M .
Gli esempi presentati sono casi particolari di una classe di trasformazioni, le
combinazioni lineari, la cui espressione generale è
Y = a 1 X1 + . . . + a j Xj + . . . + a p Xp
=
p
X
a j Xj .
j=1
Qui Xj , j = 1, . . . , p, sono p variabili numeriche la cui distribuzione congiunta
è descritta dalla funzione di frequenza o di densità congiunta, a seconda che le
variabili siano discrete o continue; aj , j = 1, . . . , p, sono i coefficienti numerici
che definiscono la specifica combinazione e Y è il risultato della trasformazione.
Nel caso della somma di due variabili Y = X1 + X2 , a1 = a2 = 1; nel caso
della differenza Y = X1 − X2 , a1 = 1 e a2 = −1; nel caso della media Y =
(X1 + X2 )/2, a1 = a2 = 1/2. Lo studio delle combinazioni lineari è agevolato
da un importante teorema che ne descrive la media e la varianza. Il teorema
viene enunciato per combinazioni lineari di p = 2 variabili.
Teorema 31 (Media e varianza delle combinazioni lineari) Si consideri
una coppia di variabili numeriche X1 , X2 con funzione di frequenza o di densità
congiunta fX1 ,X2 e si indichi con Y = a1 X1 + a2 X2 una loro combinazione
lineare.
i. Se le medie di X1 e X2 sono x1 e x2 , la media y di Y è la combinazione
lineare di x1 e x2
y = a 1 x1 + a 2 x 2 .
ii. Se le varianze di X1 e X2 sono s21 ed s22 e la covarianza è s12 , la varianza
s2Y di Y è
s2Y = a21 s21 + a22 s22 + 2a1 a2 s12 .
Dimostrazione.
i. Supponiamo, senza perdita di generalità che i dati siano un campione di n
osservazioni congiunte di X1 , X2
(x11 , x12 ), . . . , (xi1 , xi2 ), . . . , (xn1 , xn2 ).
123
9.2. COMBINAZIONI LINEARI
In tal caso il dato i-esimo di Y è yi = a1 xi1 + a2 xi2 , i = 1, . . . , n. Usando
la definizione di media
y = n−1
n
X
yi = n−1
i=1
= a1 (n−1
n
X
(a1 xi1 + a2 xi2 )
i=1
n
X
xi1 ) + a2 (n−1
i=1
n
X
xi2 )
i=1
= a 1 x 1 + a 2 x2 .
ii. Usando la definizione di varianza
s2Y = n−1
n
X
i=1
= a21 (n−1
(yi − y)2 = n−1
n
X
i=1
+ 2a1 a2 (n−1
= a21 s21 +
n
X
i=1
(a1 (xi1 − x1 ) + a2 (xi2 − x2 ))2
(xi1 − x1 )2 ) + a22 (n−1
n
X
i=1
a22 s22 +
n
X
i=1
(xi2 − x2 )2 )
(xi1 − x1 )(xi2 − x2 ))
2a1 a2 s12 .
Il teorema precedente fornisce come casi particolari media e varianza della
somma, della differenza e della media.
Corollario 32 (Media e varianza di somma, differenza e media) Nelle stesse
ipotesi del Teorema 31
i.
M (X1 + X2 ) = M (X1 ) + M (X2 ),
V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) + 2Cov(X1 , X2 ).
ii.
M (X1 − X2 ) = M (X1 ) − M (X2 );
V ar(X1 − X2 ) = V ar(X1 ) + V ar(X2 ) − 2Cov(X1 , X2 ).
iii.
M ((X1 + X2 )/2) = (M (X1 ) + M (X2 ))/2;
V ar((X1 + X2 )/2) = V ar(X1 )/4 + V ar(X2 )/4 + Cov(X1 , X2 )/2.
124
CORRELAZIONE LINEARE
Esempio 71 (Campionato di calcio) Riprendiamo ancora dalla Tabella 9.35
il numero di reti segnate (X) e subite (Y ) dalle 22 squadre del campionato
di
Pn
calcio
di
serie
B
nella
stagione
2007-08.
Dalle
statistiche
di
sintesi
x
=
i
i=1
Pn
Pn
Pn
Pn
2
2
y
=
1189,
x
=
66977,
y
=
67495,
x
y
=
62495
si
i
i
i
i=1
i=1 i
i=1 i
i=1
ricava x = y =' 54.05, sX ' 11.11, sY ' 12.13 e sX,Y ' −80.23. Pertanto il
coefficiente di correlazione lineare rX,Y è approssimativamente uguale a −0.60.
La differenza tra le reti segnate e subite Z = X − Y è un indicatore riassuntivo
della bravura di una squadra. Nel nostro esempio il Corollario 32 fornisce
z = x − y = 0,
s2Z
= s2X + s2Y − 2sX,Y = 431,
sZ ' 20.76.
La distribuzione di Z si ricava facilmente dai dati della Tabella 9.35 (vedi il
ramo-foglia della Tabella 9.36.)
n = 22
2|
si legge 29
P9
n
xi = 0
Pi=1
n
2
i=1 xi = 9482
-2
-1
-0
0
1
2
3
4
97421
7621
8754
7
5799
29
4
1
Tabella 9.36: Ramo-foglia della differenza reti nella stagione 2007/08 del
campionato di calcio di serie B.
9.3
Proprietà della covarianza
Alcune proprietà della covarianza, come la simmetria
sX,Y = MX,Y ((X − xn )(Y − y n ))
= MY,X ((Y − y n )(X − xn ))
= sY,X
e la relazione con la varianza
sX,X = s2X , sY,Y = s2Y ,
sono conseguenze immediate della definizione. Esse ci autorizzano a disporre
varianze e covarianze della distribuzione bivariata di (X, Y ) in una matrice
125
9.3. PROPRIETÀ DELLA COVARIANZA
quadrata simmetrica, detta matrice di varianze e covarianze (o di covarianza)
2
sX.X sX,Y
sX
sX,Y
S=
≡
sY,X sY,Y
sX,Y
s2Y
i cui elementi diagonali sono le varianze delle distribuzioni marginali. Dividendo gli elementi di questa matrice per le deviazioni standard delle distribuzioni
marginali si ottiene la matrice di correlazione
1
rX,Y
R=
rY,X
1
i cui elementi diagonali sono pari a 1.
Il teorema seguente descrive come reagisce la covarianza alle trasformazioni
lineari64 .
Teorema 33 (Covarianza delle trasformazioni lineari) Nelle stesse ipotesi del Teorema 31, se U = a1 + b1 X e V = a2 + b2 Y
sU,V = b1 b2 sX,Y ,
rU,V = segno(b1 )segno(b2 )rX,Y .
Dimostrazione. Usando la definizione di covarianza
sU,V = n−1
= n−1
n
X
i=1
n
X
i=1
(ui − un )(vi − v n )
(a1 + b1 xi − a1 − b1 xn )(a2 + b2 yi − a2 − b2 y n )
= b1 b2 n−1
n
X
i=1
(xi − xn )(yi − y n ) = b1 b2 sX,Y .
La dimostrazione della seconda parte del teorema è immediata perchè s U =|
b1 | sX , sV =| b2 | sY e bi =| bi | segno(bi ), i = 1, 2.
Mentre la covarianza dipende sia dal valore assoluto che dal segno dei coefficienti di scala b1 e b2 delle trasformazioni lineari, il coefficiente di correlazione
dipende solo dal segno. Se b1 e b2 sono concordi, rXe ,Ye = rX,Y , altrimenti
rX,
e Y
e = −rX,Y .
La proprietà più importante della covarianza riguarda il suo valore massimo.
Per ogni distribuzione bivariata (X, Y ), il quadrato della covarianza non può
superare il prodotto delle varianze delle distribuzioni marginali. Il risultato
64 Per
ogni numero reale x, la funzione segno(x) è

 −1,
segno(x) =
0,

1,
definita come segue
x < 0,
x = 0,
x > 0.
126
CORRELAZIONE LINEARE
è una conseguenza della disuguaglianza di Cauchy-Schwarz65. Nel seguente
teorema ne diamo una dimostrazione basata sulle proprietà delle combinazioni
lineari.
Teorema 34 (Valore massimo della covarianza) Per ogni distribuzione bivariata (X, Y ) con momenti secondi finiti
s2X,Y ≤ s2X s2Y .
Dimostrazione. La varianza della combinazione lineare Z = a1 X + a2 Y
s2Z = a21 s2X + a22 s2Y + 2a1 a2 sX,Y
è una funzione non negativa dei coefficienti a1 e a2 , cioè s2Z = g(a1 , a2 ) ≥ 0
per ogni valore assegnato ai due coefficienti. Se poniamo, ad esempio, a2 = 1,
otteniamo
g(a1 , 1) ≡ g1 (a1 )
= s2X a21 + 2sX,Y a1 + s2Y ≥ 0
per ogni valore di a1 . La precedente espressione è interpretabile come un polinomio di secondo grado nella variabile a1 , con coefficienti s2X , 2sX,Y e s2Y . Poichè
il polinomio non è mai negativo e il coefficiente del termine di secondo grado s2X
è positivo, il discriminante
s2X,Y − s2X s2Y
dev’essere nullo o negativo.
Come conseguenza immediata del teorema precedente, il coefficiente di correlazione lineare varia nell’intervallo chiuso [−1, 1].
Corollario 35 (Variazione del coefficiente di correlazione lineare)
−1 ≤ rX,Y ≤ 1
Dimostrazione. La proprietà s2X,Y ≤ s2X s2Y equivale a | sX,Y |≤ sX sY .
Dividendo membro a membro questa disuguaglianza per sX sY otteniamo
| rX,Y |=
| sX,Y |
sX sY
≤
= 1.
sX sY
sX sY
Si può dimostrare che l’estremo superiore della covarianza viene raggiunto
se e solo se Y = a + bX, in cui a è un numero reale qualsiasi e il segno di b
coincide col segno della covarianza.
65 Per
ogni coppia di vettori x = (x1 , . . . , xn )T , y = (y1 , . . . , yn )T
(
n
X
i=1
xi y i ) 2 ≤ (
n
X
i=1
x2i )(
n
X
i=1
yi2 ).
127
9.4. RETTA DEI MINIMI QUADRATI
9.4
Retta dei minimi quadrati
Consideriamo una distribuzione congiunta (X, Y ) in cui X svolge il ruolo di
variabile esplicativa per Y . Come abbiamo visto nel Capitolo 8, la funzione
di regressione y|x descrive l’andamento delle medie delle distribuzioni subordinate Y |X = x al variare di x permettendo di esplorare le caratteristiche della
relazione che lega Y a X. Per sua natura, la funzione di regressione è una
funzione empirica definita soltanto per i valori di X osservati nello specifico
campione mentre sarebbe desiderabile disporre di una funzione definita su tutto
l’intervallo di variazione di X. Questo consentirebbe, ad esempio, di prevedere
il valore di Y associato a modalità di X non osservate nel campione. Il problema viene risolto approssimando la funzione di regressione mediante opportune
funzioni analitiche, la più importante delle quali è la polinomiale di grado q ≥ 0
ybq (x; a0 , a1 , . . . , aq ) = a0 + a1 x + a2 x2 + . . . + aq xq .
I coefficienti a0 , a1 , . . . , aq sono determinati in modo da ottimizzare l’accostamento della polinomiale ai dati. Come per la funzione di regressione, il criterio
più usato è quello dei minimi quadrati. Per la generica coppia (xi , yi ), il valore
teorico di Y , basato sulla polinomiale, è
ybi ≡ ybq (xi ; a0 , a1 , . . . , aq ) = a0 + a1 xi + a2 x2i + . . . + aq xqi
e l’errore (o residuo) rispetto al valore osservato yi è
ei = yi − ybi = yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ).
L’errore quadratico medio corrispondente ad una particolare scelta di q e a 0 , a1 , . . . , aq
è
L2 (a0 , a1 , . . . , aq ) = n−1
n
X
e2i
i=1
= n−1
n
X
i=1
(yi − (a0 + a1 xi + a2 x2i + . . . + aq xqi ))2 .
Nel caso di una distribuzione di frequenze (X, Y, fX,Y ), gli errori devono essere
ponderati con le frequenze congiunte e l’espressione di L2 è
L2 (a0 , a1 , . . . , aq ) =
H X
K
X
h=1 k=1
(Yk − (a0 + a1 Xh + a2 Xh2 + . . . + aq Xhq ))2 fhk .
I valori ottimali dei coefficienti, indicati con a∗0 , a∗1 , . . . , a∗q , sono quelli che minimizzano la funzione L2 :
(a∗0 , a∗1 , . . . , a∗q ) = arg
min
a0 ,a1 ,...,aq
L2 (a0 , a1 , . . . , aq ).
La retta dei minimi quadrati è la polinomiale d’ordine q = 1 e costituisce
l’approssimazione lineare ottimale (secondo il criterio dei minimi quadrati) della
128
CORRELAZIONE LINEARE
funzione di regressione. I suoi coefficienti sono univocamente determinati dal
vettore delle medie e dalla matrice di varianze e covarianze della distribuzione
congiunta.
Teorema 36 (Coefficienti della retta dei minimi quadrati) Una distribuzione bivariata (X, Y, fX,Y ) con V ar(X) > 0 ammette un’unica approssimazione
lineare ottimale della funzione di regressione. I suoi coefficienti sono
a∗0 = y − a∗1 x,
sX,Y
sY
.
a∗1 = 2 = rX,Y
sX
sX
P
Dimostrazione. La funzione L2 (a0 , a1 ) = n−1 ni=1 (yi − a0 − a1 xi )2 è una
funzione derivabile di a0 e a1 e le sue derivate parziali rispetto ad a0 e a1 sono
n
X
∂
L2 (a0 , a1 ) = −2n−1
(yi − a0 − a1 xi ),
∂a0
i=1
n
X
∂
L2 (a0 , a1 ) = −2n−1
(yi − a0 − a1 xi )xi .
∂a1
i=1
I valori ottimali dei coefficienti sono le soluzioni del sistema formato dalle
precedenti espressioni, uguagliate a zero:
Pn
n−1P i=1 (yi − a0 − a1 xi ) = 0,
(A1)
n
−1
n
i=1 (yi − a0 − a1 xi )xi = 0.
Isolando a0 nella prima equazione si ricava
a0 = y − a1 x.
Sostituendo tale espressione nella seconda equazione otteniamo
n−1
n
X
i=1
cioè
a1 n−1
((yi − y) − a1 (xi − x))xi = 0,
n
X
i=1
(xi − x)xi = n−1
n
X
i=1
(yi − y)xi .
P
P
È facile verificare che n−1 ni=1 (xi − x)xi = s2X e n−1 ni=1 (yi − y)xi = sX,Y .
Pertanto, essendo per ipotesi s2X > 0,
a1 =
sX,Y
sY
= rX,Y
.
s2X
sX
Per completare la dimostrazione si deve provare che la matrice hessiana delle
derivate seconde di L2 (a0 , a1 ), valutate nella soluzione del sistema (A1), è
129
9.4. RETTA DEI MINIMI QUADRATI
definita positiva. Poichè
∂2
∂
L2 (a0 , a1 ) =
∂a20
∂a0
∂
∂2
L2 (a0 , a1 ) =
∂a21
∂a1
2
(
−2n
(
−1
−2n−1
2
n
X
i=1
n
X
i=1
(yi − a0 − a1 xi )
)
(yi − a0 − a1 xi )xi
∂
∂
∂
L2 (a0 , a1 ) =
L2 (a0 , a1 ) =
∂a0 ∂a1
∂a1 ∂a0
∂a1
(
−2n
= 2x,
−1
= 2,
)
= 2n−1
n
X
x2i ,
i=1
n
X
i=1
(yi − a0 − a1 xi )
)
la matrice hessiana è
H(a0 , a1 ) ≡ H = 2
1
Pxn
x n−1 i=1 x2i
.
Essa è definita positiva perchè h11 = 2 > 0 e det H = 2(n−1
2s2X > 0.
Pn
i=1
x2i − x2 ) =
La retta dei minimi quadrati passa per il centroide (x, y) della distribuzione
e per i punti di coordinate(x ± sX , y ± rX,Y sY ). Questa proprietà è utile per
visualizzarne l’andamento sul diagramma di dispersione.
Esempio 72 (Caratteristiche delle autovetture) Dai dati della Tabella 7.23
ricaviamo la retta dei minimi quadrati delle emissioni di CO2 (Y ) in funzione
della cilindrata (X). Le statistiche riassuntive sono
n
X
i=1
n
X
xi = 11·415,
n
X
x2i = 18· 055·441,
i=1
n
X
yi
= 1· 108,
i=1
n
X
yi2 = 157·186,
i=1
xi yi = 1· 650·757,
i=1
da cui si ricava x = 1· 426.875, sX ' 470.062, y = 138.5, sY ' 21.587, sX,Y '
8· 722.438, rX,Y ' 0.860. Pertanto i coefficienti della retta sono
a∗1 =
sX,Y
' 0.0394756,
s2X
a∗0 = y − a∗1 x ' 82.1733.
Per la Fiat Punto 1.2 8V Bipower x = 1242 e y = 119. In base all’approssimazione lineare il valore previsto delle emissioni di CO2 è
yb(1242) ' 131.202
con un errore rispetto al valore osservato pari a
y − yb(1242) = 119 − 131.202 ' −12.202.
130
CORRELAZIONE LINEARE
L’interpretazione di quest’ultimo risultato viene approfondita nella sezione seguente.
Per il momento ci limitiamo ad osservare che la retta dei minimi quadrati permette di ottenere previsioni per ogni valore dell’intervallo di variazione di X 66 ,
anche diverso dai dati osservati. Ad esempio, il valore previsto delle emissioni
di CO2 per una cilindrata x = 1000 è yb(1000) ' 121.649.
9.5
Proprietà della retta dei minimi quadrati
L’interpretazione della retta dei minimi quadrati è simile alla funzione di regressione, col vantaggio di essere una funzione continua, definita su tutto l’intervallo
di variazione della variabile esplicativa. Come abbiamo visto nell’Esempio 72,
per una fissata coppia di valori (x0 , y0 ), yb(x0 ) = a∗0 + a∗1 x0 ' y|x0 rappresenta
l’approssimazione lineare della media della distribuzione subordinata Y |X = x0 ,
mentre e0 = y0 − yb(x0 ) misura la deviazione del dato osservato da tale approssimazione. La qualità statistica della retta dei minimi quadrati dipende dalle
proprietà di questi errori. Nel Teorema 38 ricaviamo media e deviazione standard degli errori della retta dei minimi quadrati. Prima però presentiamo un
lemma preliminare riguardante i valori teorici.
Lemma 37 (Proprietà dei valori teorici) Sotto le ipotesi del Teorema 36
i. M (Yb ) = y;
2
ii. V ar(Yb ) = rX,Y
s2Y ;
2
iii. Cov(Y, Yb ) = V ar(Yb ) = rX,Y
s2Y .
Dimostrazione. I primi due risultati sono immediati perchè Yb = a∗0 +
= y + a∗1 (X − x) è una trasformazione lineare di X, pertanto
a∗1 X
M (Yb ) = M (y + a∗1 (X − x)
= y + a∗1 M (X − x) = y,
V ar(Yb ) = V ar(y + a∗ (X − x))
1
2
= (a∗1 )2 V ar(X) = rX,Y
s2Y .
Il terzo risultato è una conseguenza della definizione di covarianza:
Cov(Y, Yb ) = M ((Y − y)(Yb − y)) = M (a∗1 (X − x)(Y − y))
2
= a∗1 sX,Y = rX,Y
s2Y .
Teorema 38 (Proprietà dei residui) Sotto le ipotesi del Teorema 36
66 Previsioni corrispondenti a valori esterni all’intervallo di variazione della variabile esplicativa sono ammissibili in linea di principio ma la loro accuratezza dipende dalla linearità della
funzione di regressione sull’intera retta reale, ipotesi difficilmente verificabile in pratica.
9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI
131
i. M (e) = 0;
2
ii. V ar(e) = (1 − rX,Y
)s2Y .
Dimostrazione. Osserviamo che e = Y − Yb è la differenza delle variabili
Y e Yb e quindi la dimostrazione segue dalle proprietà delle combinazioni lineari
(Corollario 32). Si ottiene
M (e) = M (Y − Yb ) = M (Y ) − M (Yb )
=0
e
V ar(e) = V ar(Y ) + V ar(Yb ) − 2Cov(Y, Yb )
2
2
= s2Y + rX,Y
s2Y − 2rX,Y
s2Y
2
= (1 − rX,Y
)s2Y .
La retta dei minimi quadrati definisce una scomposizione della varianza di Y
simile alla funzione di regressione.
Teorema 39 (Scomposizione della varianza) Sotto le ipotesi del Teorema
36
V ar(Y ) = V ar(Yb ) + V ar(e).
Dimostrazione. Partiamo dall’identità
(Y − y)2 = (Y − Yb )2 + (Yb − y)2 + 2(Y − Yb )(Yb − y),
in cui Y − Yb = e. Usando la definizione di varianza,
V ar(Y ) = M (Y − y)2
= M (Y − Yb )2 + M (Yb − y)2 + 2M ((Y − Yb )(Yb − y))
= V ar(e) + V ar(Yb ) + 2Cov(e, Yb ).
Si può inoltre dimostrare che Cov(e, Yb ) = 0. In base al sistema (A1) del
Teorema 36
Pn
n−1P i=1 (yi − a∗0 − a∗1 xi ) = 0,
n
n−1 i=1 (yi − a∗0 − a∗1 xi )xi = 0.
Poichè yi − a∗0 − a∗1 xi = yi − ybi = ei , la prima equazione equivale a M (e) = 0
e la seconda equivale a M (eX) = Cov(e, X) = 0. Moltiplicando ambo i membri
della prima equazione per a∗0 ,e quelli della seconda per a∗1 e sommando membro
a membro i risultati otteniamo l’equazione
n
−1
n
X
i=1
(yi − a∗0 − a∗1 xi )(a∗0 + a∗1 xi ) = 0
132
CORRELAZIONE LINEARE
cioè
M (eYb ) = Cov(e, Yb ) = 0.
I Teoremi 38 e 39 completano il quadro interpretativo della retta dei mib
nimi quadrati.
q Gli errori e = Y − Y hanno media nulla e deviazione stan2
dard se = 1 − rX,Y
sY . Sotto l’ipotesi di linearità della funzione di regressione, la previsione del valore di Y corrispondente a X = x è il valore teorico
yb(x) = a∗0 + a∗1 x ' y|x. Se le distribuzioni subordinate sono omoschedastiche,
l’errore della previsione può essere valutato mediante se , la deviazione standard
comune delle distribuzioni subordinate (Y − Yb )|x. Nel caso univariato, l’intervallo y ± sY contiene le osservazioni di Y centrali, ad una distanza dalla media
non superiore alla deviazione standard sY . In modo analogo, al variare di x,
l’intervallo yb(x)±se definisce una banda centrata sulla retta dei minimi quadrati
contenente i dati y ad una distanza dalla previsione non superiore alla deviazione standard se . I risultati della Sezione 8.4 indicano che, se la distribuzione
congiunta delle variabili è normale, circa il 68% degli errori rientra nell’intervallo
(−se , se ) e meno dello 0.5% è esterno all’intervallo (−3se , 3se )
2
La deviazione standard degli errori se è una funzione decrescente di rX,Y
, il
2
quadrato del coefficiente di correlazione lineare. Poichè 0 ≤ rX,Y ≤ 1, 0 ≤ se ≤
sY e si verifica facilmente che
2
se = 0 ⇔ rX,Y
= 1 ⇔ rX,Y = ±1 (massima dipendenza lineare),
se = sY ⇔ rX,Y = 0 (indipendenza lineare).
In base al teorema di scomposizione della varianza,
s2Y = V ar(Yb ) + V ar(e)
2
2
= rX,Y
s2Y + (1 − rX,Y
)s2Y ,
2
pertanto V ar(Yb )/s2Y = rX,Y
è interpretabile come la frazione della varianza
di Y spiegata dalla retta dei minimi quadrati, cioè in definitiva dalla relazione
2
lineare con X, mentre V ar(e)/s2Y = 1 − rX,Y
è interpretabile come la frazione
non spiegata, attribuibile a fattori esogeni. In questa particolare accezione, il
quadrato del coefficiente di correlazione lineare prende il nome di coefficiente di
determinazione lineare e viene indicato col simbolo R 2 . Esso ha un significato
analogo al coefficiente ηY2 |X del Capitolo 8 e risulta sempre
n
o
2
R2 ≤ min ηY2 |X , ηX|Y
perchè R2 misura l’accostamento ai dati della funzione lineare ottimale, mentre
2
misurano l’accostamento ai dati delle funzioni di regressione, che
ηY2 |X e ηX|Y
possono essere lineari o non lineari.
9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI
133
150
140
130
*
110
120
Emissioni di CO2
160
170
Retta dei Minimi Quadrati
1000
1500
2000
Cilindrata
Figura 9.38: Cilindrata ed emissioni di CO2 . (*: centroide; retta dei minimi
quadrati ŷ(x) in grassetto; rette ŷ(x) ± se tratteggiate).
Esempio 73 (Caratteristiche delle autovetture) La Figura 9.38 mostra il
diagramma di dispersione della cilindrata e delle emissioni di CO 2 del campione di automobili della Tabella 7.23, insieme col centroide, la retta dei minimi
quadrati e la banda di dispersione yb(x) ± se . I segmenti verticali misurano
gli errori (in valore assoluto) delle previsioni yb(xi ) rispetto ai valori osservati yi , i = 1, ..., n. La Tabella 9.37 riporta la scomposizione della varianza.
2
Dall’Esempio 72 risulta s2Y = 466 e rX,Y ' 0.860, pertanto rX,Y
' 0.739,
2
2
2
2
2
2
sYb = rX,Y sY ' 344.32 e se = sY − sYb ' 121.68. Il valore di R2 indica che
circa il 74% della varianza delle emissioni di CO2 è spiegata dal modello di
regressione lineare basato sulla cilindrata. La deviazione standard s e ' 11.031
è usata per valutare l’entità degli errori e individuare casi anomali. L’errore
e ' −12.202 della Fiat Punto, in valore assoluto, è di poco superiore a s e ed
appare dunque in linea con le ipotesi del modello.
134
CORRELAZIONE LINEARE
Variabilità
dovuta a
Regressione
Residua
Totale
Varianza
%
s2Yb ' 344.32
s2e ' 121.68
s2Y = 466
R2 ' 74%
1 − R2 ' 26%
100%
Tabella 9.37: Scomposizione della varianza per la regressione lineare delle
emissioni di CO2 sulla cilindrata dell’Esempio 73.
La retta dei minimi quadrati è largamente usata nell’analisi di dati numerici
bivariati, anche per la semplicit del modello. A ben vedere, un’unica statistica
– il coefficiente di correlazione lineare rX,Y – ne determina le caratteristiche.
Infatti rX,Y misura l’intensità del legame lineare tra le variabili esplicativa e
dipendente. Ma esso appare anche nella formula del coefficiente angolare della
retta dei minimi quadrati a∗1 = rX,Y sY /sX 67 e il suo quadrato, l’indice R2 , è
usato per valutare l’accostamento del modello ai dati campionari. Non bisogna
però dimenticare che le stime ottenute col metodo dei minimi quadrati possono
essere facilmente distorte da dati anomali. Nelle applicazioni è dunque opportuna una verifica accurata, basata sulle proprietà dei residui, come quella proposta
nell’esempio seguente.
Esempio 74 (Campionato di calcio) La differenza reti di una squadra è considerata un indicatore del risultato del campionato. Dai dati della Tabella 9.35,
le statistiche riassuntive della differenza reti (X) e del punteggio finale(Y ) per
le 22 squadre di serie B sono
n
X
i=1
xi = 0,
n
X
x2i = 9482,
i=1
n
X
n
X
i=1
yi = 1243,
n
X
yi2 = 76257,
i=1
xi yi = 7286.
i=1
Pertanto rX,Y ' 0.964 e i coefficienti della retta dei minimi quadrati sono
a∗0 = 56.5, a∗1 ' 0.768403.
Poichè R2 ' 0.93, il grado di accostamento del modello ai dati è molto buono:
oltre il 90% della varianza del punteggio finale è spiegata dalla differenza reti.
Dalla Figura 9.39 la copertura della banda yb(x) ± se non varia visibilmente
nell’intervallo di variazione di X, confermando l’ipotesi di omoschedasticit delle
distribuzioni subordinate Y |x. Un’analisi grafica dettagliata degli errori dei dati
rispetto al modello lineare è presentata nella Figura 9.40. A sinistra appare il
diagramma di dispersione dei valori teorici yb(xi ) e degli errori standardizzati
(yi − yb(xi )/se , i = 1, ..., n. In accordo col Teorema 39, valori teorici ed errori
67 Se
le variabili sono standardizzate, sY = sX = 1 e a∗1 = rX,Y .
135
9.5. PROPRIETÀ DELLA RETTA DEI MINIMI QUADRATI
60
50
*
30
40
Punteggio Finale
70
80
Retta dei Minimi Quadrati
−30
−20
−10
0
10
20
30
40
Differenza Reti
Figura 9.39: Campionato di calcio di serie B. Diagramma di dispersione della
differenza reti e del punteggio finale(*: centroide; retta dei minimi quadrati ŷ(x)
in grassetto; rette ŷ(x) ± se tratteggiate).
sono linearmente indipendenti. Inoltre, non emergono relazioni non lineari nè
raggruppamenti delle unità. Il grafico di destra 68 serve a controllare se la
distribuzione degli errori sia approssimabile con una distribuzione gaussiana. Le
ordinate dei punti sono le statistiche ordinate degli errori standardizzati mentre
le ascisse sono i corrispondenti valori della normale standard. Se l’ipotesi di
normalità è verificata, i punti tendono a disporsi sulla bisettrice del primo e
terzo quadrante, o in prossimità di essa. Nel nostro esempio non si rilevano
deviazioni di rilievo da tale ipotesi.
68 Noto
come Q-Q plot
136
CORRELAZIONE LINEARE
2
1
0
−3
−3
−2
−1
Residui Standardizzati
1
−1
0
*
−2
Residui Standardizzati
2
3
Analisi dei Residui
3
Analisi dei Residui
40
50
60
70
Punteggio Finale (Valore Teorico)
80
90
−3
−2
−1
0
1
2
Quantili Teorici Normale Standard
Figura 9.40: Campionato di calcio di serie B. Diagramma di dispersione dei
valori teorici e dei residui standardizzati (a sinistra); Q-Q plot dei residui
standardizzati (a destra).
3
Fly UP