...

Lezioni 4-7 maggio - Dipartimento di Scienze Sociali ed Economiche

by user

on
Category: Documents
29

views

Report

Comments

Transcript

Lezioni 4-7 maggio - Dipartimento di Scienze Sociali ed Economiche
statistica
analisi bidimensionale #2
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
29 aprile 2015
Generalità
Obiettivo
Nella sezione precedente abbiamo esaminato i principali metodi per
l’analisi di fenomeni complessi, la cui osservazione in un collettivo
comporta la considerazione congiunta di più caratteri qualitativi,
limitandoci all’analisi bidimensionale
Estendiamo adesso l’analisi al caso di variabili statistiche doppie c.d.
miste, cioè composte da una mutabile statistica definita su scala
nominale/ordinale e da una variabile definita su scala quantitativa
Ovviamente, nel caso di variabili statistiche doppie miste è possibile,
come in precedenza, analizzare la distribuzione congiunta delle
frequenze (assolute e relative) allo scopo di accertare l’eventuale
presenza di connessione tra le due variabili statistiche componenti la
variabile statistica doppia
Generalità
Obiettivo
Del resto, il fatto che una delle due variabili componenti sia definita su
uno spazio numerico apre la strada a nuove interessanti possibilità di
indagine: infatti, se al mutamento di stato della variabile qualitativa si
verifica una variazione nei valori della variabile quantitativa (effetto
segnalato dalla «polarizzazione» delle osservazioni in precise regioni
dell’insieme ℝ), allora significa che le due variabili statistiche non
soltanto sono connesse, ma vi è un «qualcosa in più» che lega tra loro le
due variabili: in breve, è lo stesso concetto di connessione che va
riformulato
La proprietà che caratterizza una coppia di variabili statistiche, di cui una
qualitativa ed una quantitativa, componenti una variabile statistica
doppia mista è indicata come dipendenza in media
La dipendenza in media
Una prima intuizione
Esempio 1. Ipotizziamo di essere interessati ad accertare se il reddito medio delle
famiglie italiane è influenzato dalla ripartizione geografica. A tale scopo, rileviamo
il reddito medio in un collettivo di 𝑛 = 500 famiglie residenti nelle tre ripartizioni
geografiche del territorio nazionale. Il risultato della rilevazione è contenuto nel
seguente prospetto:
Tabella 1. Prospetto di rilevazione del reddito medio annuo in un collettivo di
500 famiglie. Classi di reddito in migliaia di euro
Reddito annuale (000 euro)
Ripartizione
geografica
Totale
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Nord
Centro
Sud e isole
15
3
32
23
23
44
59
32
49
132
29
19
21
13
6
250
100
150
Totale
50
90
140
180
40
500
La dipendenza in media
Una prima intuizione
Con riferimento alla precedente tabella, potremmo procedere con
l’analisi della connessione e calcolare quindi gli indici 𝜙 2 e 𝑉, tuttavia
le due variabili non sono equivalenti su un piano logico, in quanto
siamo interessati a verificare se al passaggio dall’una all’altra ripartizione
geografica, varia il reddito medio annuo familiare, mentre la relazione
inversa non ha giustificazione logica o, semplicemente, non è
interessante
Quindi, in presenza di variabili statistiche doppie miste, lo studio delle
relazioni tra le variabili componenti è asimmetrico, in quanto mira ad
accertare la risposta della variabile quantitativa ai cambiamenti di stato
della variabile qualitativa (variazione del reddito medio al mutare della
ripartizione geografica), o la risposta della variabile qualitativa ad una
variazione della variabile quantitativa (attenuazione dei sintomi per una
determinata patologia a seguito di un aumento nel dosaggio di un
farmaco), ma di solito non mira a verificare la relazione inversa
La dipendenza in media
Una prima intuizione
Con riferimento ai dati riportati nella Tabella 1, per accertare se al
passaggio dall’una all’altra ripartizione il reddito medio varia, possiamo
calcolare le medie delle quattro distribuzioni univariate del reddito ─
quelle che caratterizzano le tre ripartizioni geografiche e quella riferita
all’intero territorio nazionale
Se al passaggio dall’una all’altra ripartizione del territorio nazionale il
reddito medio non varia e assume un valore prossimo o al limite uguale a
quello medio nazionale, ciò indica assenza di legame tra ripartizione
geografica e reddito. Poiché per accertare tale proprietà abbiamo fatto
riferimento a medie (più precisamente, medie condizionate, come vedremo
tra poco), indicheremo tale situazione come assenza di dipendenza in
media, o meglio di indipendenza in media
Traduciamo la precedente intuizione nei termini che seguono:
La dipendenza in media
Una prima intuizione
Calcoliamo il reddito medio nella ripartizione dell’Italia settentrionale,
il che equivale a «lavorare» sui dati della prima riga del quadro centrale
della Tabella 1 e applicare la metodologia standard per il calcolo di una
media aritmetica. Impostiamo il prospetto di calcolo:
Tabella 2. Distribuzione del reddito in Italia
settentrionale
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
15
23
59
132
21
0,060
0,092
0,236
0,528
0,084
0,300
1,380
5,900
18,480
3,780
250
1,000
29,840
La dipendenza in media
Una prima intuizione
Procediamo adesso a determinare il reddito medio con riferimento
all’Italia centrale (seconda riga del quadro centrale della Tabella 1),
seguendo la stessa procedura. Otteniamo:
Tabella 3. Distribuzione del reddito in Italia centrale
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
3
23
32
29
13
0,030
0,230
0,320
0,290
0,130
0,150
3,450
8,000
10,150
5,850
100
1,000
27,600
La dipendenza in media
Una prima intuizione
Analogamente, calcoliamo il reddito medio che caratterizza l’Italia
meridionale e insulare (terza riga del quadro centrale della Tabella 1),
impostando il seguente prospetto di calcolo:
Tabella 4. Distribuzione del reddito in Italia
meridionale e insulare
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
32
44
49
19
6
0,213
0,293
0,327
0,127
0,040
1,067
4,400
8,167
4,433
1,800
150
1,000
19,867
La dipendenza in media
Una prima intuizione
Infine, determiniamo il reddito medio sull’intero territorio nazionale
(riga dei totali della Tabella 1), seguendo la stessa impostazione:
Tabella 5. Distribuzione del reddito in Italia
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
50
90
140
180
40
0,100
0,180
0,280
0,360
0,080
0,500
2,700
7,000
12,600
3,600
500
1,000
26,400
Poiché la media aritmetica del reddito in questo caso è stata calcolata
utilizzando la distribuzione marginale delle frequenze, la indicheremo come
media marginale
La dipendenza in media
Una prima intuizione
Raccogliamo i risultati precedenti in un prospetto di sintesi e
rappresentiamoli graficamente:
Media marginale
Ripartizione
geografica
Nord
Centro
Sud e isole
29,840
27,600
19,867
Italia
26,400
Dall’esame della spezzata di
regressione, appare evidente che
passando da «nord» a «sud» il
reddito medio diminuisce
Medie
condizionate
Spezzata di regressione
La dipendenza in media
Una prima intuizione
Con riferimento al grafico precedente, appare chiaro che deve esistere
una qualche relazione di dipendenza in media tra «ripartizione
geografica» e «reddito»
Se viceversa tale situazione non si fosse verificata e ci fossimo trovati in
un caso di indipendenza in media, avremmo riscontrato che le medie
del reddito nelle tre ripartizioni geografiche sarebbero risultate tutte
uguali fra loro e uguali alla media marginale del reddito
Notare che nella procedura che abbiamo adottato per il calcolo del
reddito medio a livello di ripartizione geografica, le frequenze relative
sono state ottenute rapportando le frequenze assolute congiunte ai
rispettivi totali riga: in sostanza, abbiamo calcolato le medie utilizzando
le frequenze relative condizionate, per cui il reddito medio a livello di
ripartizione è a tutti gli effetti una media condizionata
La dipendenza in media
Definizione
Formalizziamo le operazioni di calcolo appena svolte. Consideriamo la
generica tabella di contingenza:
𝑿\𝒀
1
…
𝑥1
11
…
…
𝑥𝑖
…
…
𝑖1
…
…
ℎ
1
…
1ℎ
…
…
…
…
…
𝑖
…
…
…
…
𝑖ℎ
…
𝑥𝑘
𝑘1
…
𝑘
…
𝑘ℎ
𝑇𝑜𝑡𝑎𝑙𝑒
.1
…
.
…
.ℎ
𝑇𝑜𝑡𝑎𝑙𝑒
1.
…
𝑖.
…
𝑘.
𝑛
La dipendenza in media
Definizione
Richiamando le convenzioni adottate nella precedente sezione, nella
tabella di contingenza le 𝑘 modalità della variabile 𝑿 sono riportate in
fiancata, mentre le ℎ modalità della 𝒀 sono riportate in testata
Se restringiamo la nostra attenzione alle singole righe della tabella di
contingenza (è il caso considerato nell’esempio), ciò equivale ad
introdurre la nozione di variabile statistica condizionata; se
consideriamo la 𝑖 −esima modalità del carattere 𝑿 come «evento
condizionante» e ci concentriamo sulla distribuzione di 𝒀 in tale
partizione, indichiamo con 𝑌 𝑋 = 𝑥𝑖 la variabile 𝒀 condizionata alla
modalità 𝑥𝑖 di 𝑿
La dipendenza in media
Definizione
Indicando con la notazione 𝑌 𝑋= 𝑖 le frequenze relative condizionate
associate alla variabile 𝑌 𝑋 = 𝑥𝑖 , queste possono essere calcolate
rapportando le frequenze (assolute o relative) congiunte collocate sull’
𝑖 −esima riga della tabella di contingenza ai rispettivi totali riga. Con
riferimento alla 𝑗 −esima modalità della 𝒀, la relativa frequenza
condizionata, in simboli, sarà data da
𝑖
=
𝑖
𝑖.
Notare che la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 è a tutti gli effetti una
variabile statistica univariata, quindi possiamo determinarne l’intero set
di parametri di posizione, di variabilità e di forma
La dipendenza in media
Media condizionata e media marginale
In generale, la media condizionata è definita dalla relazione
ℎ
𝑌 𝑋= 𝑖
=
𝑖
=1
mentre la media marginale (che nell’esempio è rappresentata dal
reddito medio sull’intero territorio nazionale) è definita come
ℎ
𝑌
=
=1
.
La dipendenza in media
Media condizionata e media marginale
Se si verificasse un caso di indipendenza in media di 𝒀 da 𝑿, allora al
variare di 𝑥𝑖 le medie condizionate 𝑌 𝑋= 𝑖 risulterebbero tutte uguali
fra loro e pari al valore della media marginale. In simboli:
𝑌 𝑋= 1
=
= …=
𝑌 𝑋= 2
𝑌 𝑋= 𝑘
≡
𝑌
Dimostriamo tale equivalenza. Abbiamo già visto che in caso di assenza
di connessione le distribuzioni condizionate sono tutte uguali tra loro e
uguali alla distribuzione marginale. Nel problema in esame, questo
equivale a dire che
𝑖
=
.
La dipendenza in media
Media condizionata e media marginale
Con riferimento alla generica media condizionata
che
ℎ
𝑌 𝑋= 𝑖
=
=1
𝑌 𝑋= 𝑖
avremo quindi
ℎ
𝑖
=
=1
.
=
𝑌
Da un punto di vista grafico, nel caso di indipendenza in media la
spezzata di regressione risulterebbe parallela all’asse delle ascisse e
coinciderebbe con la media marginale
Viceversa, quanto più vi è dipendenza in media, tanto più le medie
condizionate differiranno fra loro e differiranno dalla media marginale.
Da un punto di vista grafico, la spezzata di regressione assumerà valori
ben distinti, maggiori o minori della media marginale
La dipendenza in media
Distribuzione della media condizionata
Un’interessante proprietà delle medie condizionate è che la loro media
aritmetica è pari alla media marginale. Dimostriamolo con riferimento
all’esempio precedente, calcolando la media aritmetica delle medie
condizionate tramite il seguente prospetto di calcolo:
Tabella 6. Prospetto di calcolo della media aritmetica
delle medie condizionate
Ripartizione
geografica
𝑌 𝑋=
Nord
Centro
Sud e isole
29,840
27,600
19,867
Totale
𝑖
𝑖.
𝑖.
𝑌 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
14,920
5,520
5,960
500
1,000
26,400
𝑖.
La dipendenza in media
Distribuzione della media condizionata
Formalmente, scriveremo che
𝑘
𝑖=1
𝑌 𝑋= 𝑖
𝑖.
=
𝑌
Questo risultato è importante, in quanto in precedenza abbiamo
osservato che all’aumentare del legame di dipendenza in media, le
medie condizionate tenderanno a differenziarsi sempre più fra loro e
rispetto alla media marginale
Ma se la media aritmetica delle medie condizionate è la media
marginale, ciò equivale a dire che all’aumentare del legame di
dipendenza in media, la dispersione delle medie condizionate attorno
alla loro media tende ad aumentare, dispersione che è possibile
misurare calcolando la varianza delle medie condizionate
La dipendenza in media
Distribuzione della media condizionata
Con riferimento al nostro esempio, possiamo calcolare la varianza delle
medie condizionate organizzando il seguente prospetto di calcolo:
Tabella 7. Prospetto di calcolo della varianza delle medie condizionate
Ripartizione
geografica
𝑌 𝑋=
Nord
Centro
Sud e isole
29,840
27,600
19,867
2
𝑖.
𝑖
Totale
𝑖.
𝑌 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
445,2128
152,3520
118,4053
500
1,000
715,970
𝑖.
La varianza delle medie condizionate sarà data da
𝜎𝜇2𝑌 𝑋
𝑘
=
𝑖=1
2
𝑌 𝑋= 𝑖
𝑖.
−
2
𝑌
= 715,97 − 26,42 = 19,01
La dipendenza in media
Varianza condizionata
Sviluppiamo ulteriormente il ragionamento, introducendo il concetto di
varianza condizionata
Calcoliamo le varianze condizionate in quanto, come si è sottolineato in
precedenza, essendo la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 a tutti gli
effetti una variabile statistica univariata, possiamo determinarne tutti i
parametri di posizione, di variabilità e di forma
Abbiamo già determinato le medie delle 3 distribuzioni condizionate.
Procediamo adesso a calcolarne le varianze, allo scopo di evidenziare le
differenze con cui, nelle tre ripartizioni geografiche considerate, i redditi
si disperdono attorno alle rispettive medie condizionate
La dipendenza in media
Varianza condizionata
Con riferimento alla distribuzione del reddito in Italia settentrionale,
impostiamo il prospetto per il calcolo della varianza condizionate:
Tabella 8. Varianza della distribuzione del reddito in
Italia settentrionale
Reddito
annuale
(000 euro)
2
𝑋 = 𝑥1
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
15
23
59
132
21
0,060
0,092
0,236
0,528
0,084
1,50
20,70
147,50
646,80
170,10
250
1,000
986,60
La varianza della prima distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 1
ℎ
=
=1
𝑋 = 𝑥1
.
−
2
𝑌 𝑋= 1
= 986,6 − 29,842 = 96,174
La dipendenza in media
Varianza condizionata
Procediamo a determinare la varianza condizionata della distribuzione del
reddito in Italia centrale, seguendo la stessa procedura:
Tabella 9. Varianza della distribuzione del reddito in
Italia centrale
Reddito
annuale
(000 euro)
2
𝑋 = 𝑥2
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
3
23
32
29
13
0,030
0,230
0,320
0,290
0,130
0,75
51,75
200,00
355,25
263,25
100
1,000
871,00
La varianza della seconda distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 2
ℎ
=
=1
𝑋 = 𝑥2
.
−
2
𝑌 𝑋= 2
= 871,0 − 27,62 = 109,240
La dipendenza in media
Varianza condizionata
Analogamente, calcoliamo la varianza condizionata della distribuzione del
reddito in Italia meridionale e insulare:
Tabella 10. Varianza della distribuzione del reddito in
Italia meridionale e insulare
Reddito
annuale
(000 euro)
2
𝑋=𝑥
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
32
44
49
19
6
0,213
0,293
0,327
0,127
0,040
5,33
66,00
204,17
155,17
81,00
150
1,000
511,67
La varianza della terza distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 3
ℎ
=
𝑋=𝑥
=1
.
−
2
𝑌 𝑋= 3
= 511,67 − 19,8672 = 116,982
La dipendenza in media
Distribuzione della varianza condizionata
Poiché le varianze condizionate, nel passaggio dall’una all’altra modalità
della 𝑿, hanno valori differenti, sintetizziamone la distribuzione attraverso il
calcolo della loro media aritmetica:
Tabella 11. Prospetto di calcolo della media aritmetica
delle varianze condizionate
𝜎𝑌2 𝑋=
Ripartizione
geografica
Nord
Centro
Sud e isole
𝑖.
𝑖
96,174
109,240
116,982
Totale
𝑖.
𝜎𝑌2 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
48,087
21,848
35,095
500
1,000
105,030
La media aritmetica delle varianze condizionate è ottenuta come
𝑘
𝜎𝑌2 𝑋
=
𝑖=1
𝜎𝑌2 𝑋=
𝑖
𝑖.
= 105,03
𝑖.
La dipendenza in media
Variabilità «between» e variabilità «within»
Infine, per ragioni che saranno immediatamente evidenti, ci interessa anche
la varianza della variabile statistica 𝒀, di cui riportiamo il prospetto di
calcolo:
Tabella 12. Prospetto di calcolo per la varianza del
reddito
Reddito
annuale
(000 euro)
2
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
50
90
140
180
40
0,100
0,180
0,280
0,360
0,080
2,50
40,50
175,00
441,00
162,00
500
1,000
821,00
La varianza di 𝒀 è data dalla
seguente relazione:
2
𝜎𝑌2
ℎ
=
=1
2
.
−
2
𝑌
= 821 − 26,42 = 124,04
La dipendenza in media
Variabilità «between» e variabilità «within»
Perché ci siamo complicati la vita calcolando i parametri distributivi delle
medie e delle varianze condizionate?
Per un motivo molto semplice: abbiamo appena calcolato la varianza
marginale della variabile 𝒀, verificando che è pari a 𝜎𝑌2 = 124,04
Tale valore misura la dispersione del reddito a livello nazionale, a
prescindere dalla conoscenza di come il reddito si distribuisce nelle
ripartizioni geografiche in cui si articola il territorio italiano
La dipendenza in media
Variabilità «between» e variabilità «within»
Adesso, sommiamo la varianza delle medie condizionate 𝜎𝜇2𝑌 𝑋 e la
media delle varianze condizionate 𝜎2 ottenute in precedenza:
𝑌𝑋
𝜎𝜇2𝑌 𝑋 +
𝜎𝑌2 𝑋
= 19,01 + 105,03 = 124,04 ≡ 𝜎𝑌2
Quindi la varianza della variabile 𝒀, note le sue relazioni con una seconda
variabile 𝑿 (che può essere qualitativa o quantitativa), può essere
decomposta in due componenti, di cui una misura la variabilità «fra»
distribuzioni condizionate (between groups), mentre l’altra misura la
variabilità media «entro» le distribuzioni condizionate (within groups)
La dipendenza in media
Variabilità «between» e variabilità «within»
Questa informazione è di estremo interesse. Infatti, se osservassimo la
distribuzione del reddito nazionale nel complesso, quindi senza
considerare le differenze tra ripartizioni territoriali, il calcolo della misura
di dispersione ci fornirebbe una informazione «descrittiva» senza
ulteriori connotazioni
Nota la distribuzione del reddito tra ripartizioni territoriali, viceversa,
siamo in grado di risalire alle «cause» della dispersione osservata a livello
nazionale: un reddito medio che differisce tra ripartizioni territoriali
(misurato dalla dispersione delle medie condizionate attorno al valore
medio del reddito rilevato a livello nazionale: varianza between) e una
diversa distribuzione del reddito all’interno delle singole ripartizioni
territoriali (di cui consideriamo un valore medio: varianza within)
La dipendenza in media
Proprietà della media condizionata. Riepilogo
Generalizziamo i risultati ottenuti enunciando le due proprietà della media
condizionata, che abbiamo già dimostrato con un procedimento induttivo
1. Proprietà della media iterata. Data una variabile statistica doppia 𝑿, 𝒀 , il
valore medio delle medie condizionate 𝑌 𝑋 è uguale al valore medio della
variabile 𝒀. In simboli:
𝑘
𝑌
=
𝑖=1
𝑌 𝑋= 𝑖
𝑖.
2. Proprietà di decomposizione della varianza. La varianza della variabile 𝑌 è
pari alla somma della varianza delle medie condizionate (varianza between)
e della media delle varianze condizionate (o varianza within). In simboli:
𝜎𝑌2 = 𝜎𝜇2𝑌 𝑋 +
𝜎𝑌2 𝑋
La dipendenza in media
La misura di dipendenza in media 𝜼𝟐
La seconda proprietà della media condizionata ci fornisce anche un’indicazione
per costruire una misura di dipendenza in media. Infatti, poiché all’aumentare
della dipendenza in media aumenta la variabilità «fra» distribuzioni condizionate,
una misura di dipendenza in media è data dal rapporto
𝜂𝑌2 𝑋 =
𝜎𝜇2𝑌 𝑋
𝜎𝑌2
in cui al numeratore figura la varianza delle medie condizionate (o varianza
between), mentre al denominatore figura la varianza totale della 𝒀. La misura
𝜂𝑌2 𝑋 è indicata come rapporto di correlazione di Pearson
Come di consueto, analizziamo i casi limite, cioè gli estremi dell’intervallo di
definizione di 𝜂𝑌2 𝑋
La dipendenza in media
La misura di dipendenza in media 𝜼𝟐
• 𝜂𝑌2 𝑋 = 0 se e solo se è nullo il numeratore del rapporto, cioè se 𝜎𝜇2𝑌 𝑋 = 0,
circostanza che si verifica, come sappiamo, in caso di indipendenza in media,
cioè di assenza di legame tra 𝑿 e 𝒀
• 𝜂𝑌2 𝑋 = 1 se e solo se 𝜎𝜇2𝑌 𝑋 = 𝜎𝑌2 , cioè quando il numeratore e il denominatore
del rapporto sono uguali, circostanza che si verifica se la seconda componente in
cui può essere decomposta la varianza è nulla e quindi 𝜎2 = 0. In questo caso
𝑌𝑋
l’unica «causa» di dispersione è la variabilità «fra» distribuzioni condizionate,
mentre in media non vi è dispersione «entro» le distribuzioni. Un esempio si ha
quando ad ogni modalità della 𝑿 corrisponde un solo valore di 𝒀, per cui le
varianza condizionate sono tutte nulle e quindi è nulla anche la loro media
• In tutti i casi intermedi si avrà che 0 < 𝜂𝑌2 𝑋 < 1. Si tratta di un’intera gamma di
situazioni in cui il legame tra 𝑿 e 𝒀 contribuirà in maniera crescente a spiegare la
variabilità del carattere 𝒀
La dipendenza in media
La misura di dipendenza in media 𝜼𝟐
Con riferimento al precedente esempio, essendo 𝜎𝑌2 = 124,04 e 𝜎𝜇2𝑌 𝑋 = 19,01
la misura di dipendenza in media sarà data da
𝜂𝑌2 𝑋 =
19,01
≅ 0,153
124,04
Ne deduciamo che il legame di dipendenza in media di 𝒀 da 𝑿 è alquanto debole,
in quanto la principale causa di variabilità della 𝒀 deriva dalla distribuzione del
reddito all’interno delle singole ripartizioni territoriali ( 𝜎2 = 105,03), mentre
𝑌𝑋
l’influsso esercitato sulla reddito dalla diversa appartenenza territoriale spiega
appena il 15,3% della variabilità complessiva
La dipendenza in media
La misura di dipendenza in media 𝜼𝟐
Esempio 2.
Variabili statistiche doppie quantitative
Generalità
L’ultimo tema che affrontiamo è l’analisi bidimensionale di variabili statistiche
doppie quantitative, cioè tali che 𝑿, 𝒀 ∈ ℝ2
Analogamente a quanto osservato in precedenza, anche nel caso di variabili
statistiche doppie quantitative possiamo analizzare la distribuzione congiunta
delle frequenze (assolute e relative) per accertare l’eventuale presenza di
connessione, così come studiare la dipendenza in media
Tuttavia, a differenza di quanto visto per le variabili miste, nel caso di una
variabile statistica doppia quantitativa lo studio della dipendenza in media
non è asimmetrico, in quanto non soltanto possiamo accertare l’eventuale
presenza di dipendenza in media di 𝒀 da 𝑿, ma verificare tale proprietà anche
sulla relazione inversa
Variabili statistiche doppie quantitative
Generalità
Naturalmente, si applicano le usuali avvertenze di carattere logico: sarà la
natura del problema analizzato a fornirci indicazioni su cosa studiare in una
distribuzione doppia e su quale metodologia adottare
Ad esempio, se rileviamo reddito mensile e spese per consumi in un collettivo
di 𝑛 famiglie, ha senso studiare la relazione che lega il reddito mensile
disponibile (variabile indipendente, in questo caso) al consumo mensile
(inteso come variabile dipendente), mentre non ha senso logico studiare la
relazione inversa (poiché con riferimento alle singole unità osservata, il livello
di consumo non ha effetti immediati e diretti sul livello del reddito), quindi
tale analisi, pur essendo possibile da un punto di vista strettamente
matematico, non è motivata su un piano logico
Variabili statistiche doppie quantitative
Generalità
Sempre rimanendo in tema di reddito e consumo, individuato il «verso» della
relazione e quindi chiarito qual è la variabile indipendente (il reddito) e quale
la variabile dipendente (il consumo), rimane da risolvere il problema della
scelta di un’idonea metodologia di analisi
A questo punto si apre una fase piuttosto delicata, poiché il rischio di adottare
metodologie di analisi inappropriate è elevato. La premessa fondamentale è
che sebbene il mondo reale non segua logiche lineari, ragionare in termini di
linearità spesso semplifica l’analisi senza rivelarsi di per sé un’inaccettabile
approssimazione. Fatto sta che se una teoria (economica, in questo caso)
consolidata e universalmente accettata afferma che tra reddito e consumo il
legame è lineare, sceglieremo tecniche adatte a verificare l’esistenza di legami
lineari (ad esempio, l’analisi di correlazione, come vedremo tra poco), fatta
salva la possibilità di percorrere strade alternative se l’analisi di correlazione ci
portasse ad escludere l’esistenza di legami lineari
Variabili statistiche doppie quantitative
Generalità
Le principali tecniche di analisi bidimensionale applicabili nel caso di variabili
statistiche doppie quantitative sono:
• L’analisi di concordanza o correlazione, il cui obiettivo è accertare
l’intensità e il verso del legame lineare eventualmente esistente tra due
variabili statistiche quantitative (componenti o meno una variabile
statistica doppia)
• L’analisi di regressione, che è un modello di dipendenza condizionata, il
cui obiettivo è individuare la specificazione funzionale della relazione tra
un set di covariate (o variabili indipendenti) ed una variabile risposta (o
variabile dipendente); naturalmente, ci occuperemo in maniera
approfondita solo del caso più semplice, rappresentato da una variabile
risposta che varia in funzione di una variabile indipendente
Analisi della concordanza
Generalità
Ipotizziamo di analizzare due variabili statistiche 𝑿 e 𝒀, definite su scala
quantitativa discreta o continua, allo scopo di accertare se tra le due variabili
sussista un legame approssimativamente lineare
Il problema può essere impostato nei termini seguenti:
• se al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente varia nello
stesso senso, allora deve esistere una qualche relazione lineare diretta tra
𝑿 e 𝒀 e diremo che tra 𝑿 e 𝒀 vi è concordanza;
• se viceversa al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente
varia in senso opposto (cioè se al crescere di 𝑿, 𝒀 in media diminuisce),
allora il legame lineare è di tipo inverso e diremo che tra 𝑿 e 𝒀 vi è
discordanza;
• se infine al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente
rimane costante, ne deduciamo che vi è assenza di legame lineare e quindi
diremo che 𝑿 e 𝒀 vi è indifferenza
Analisi della concordanza
Generalità
Formalmente, date due variabili statistiche 𝑿 e 𝒀, definiamo concordanza la
proprietà per la quale a ciascun valore della prima variabile corrisponda con
una certa «regolarità» (e quindi in media) uno e un solo valore dell’altra
variabile
L’analisi della concordanza non va
confusa con l’analisi di connessione.
Infatti, può accadere che tra due
variabili vi sia dipendenza funzionale
matematica (cioè connessione
massima), mentre la concordanza è
nulla
Ad esempio, nel caso della funzione
= 𝑥 2 , all’aumentare di la 𝑥
assume valori costanti in modulo e in
media pari a 0, quindi tra 𝑥 e vi è
indifferenza
Analisi della concordanza
Generalità
Inoltre non dobbiamo mai confondere i due concetti di indipendenza e di
indifferenza, poiché
• quando tra due variabili 𝑿 e 𝒀 vi è indipendenza (intesa come assenza di
qualsiasi legame di connessione), allora vi è anche indifferenza (intesa
come assenza di legame lineare), ma non è vero il contrario
• infatti, se tra due variabili 𝑿 e 𝒀 vi è indifferenza, non possiamo escludere
che esistano relazioni di natura non lineare o addirittura ipotesi di
connessione massima non lineare
Analisi della concordanza
Una prima intuizione
Esempio 3. La seguente tabella a doppia entrata mette in relazione
l’andamento di due generiche variabili statistiche discrete, riportandone la
distribuzione delle frequenze relative congiunte:
Tabella 13. Rappresentazione di una generica
variabile statistica doppia discreta
𝑥𝑖 \
1
2
3
4
5
𝑖.
1
2
3
4
5
0,23
0,07
-
0,02
0,21
0,07
-
0,18
0,02
-
0,05
0,07
-
0,01
0,07
0,25
0,28
0,30
0,10
0,07
.
0,30
0,30
0,20
0,12
0,08
1,00
𝑖
Analisi della concordanza
Una prima intuizione
Possiamo rappresentare l’andamento della distribuzione delle frequenze
relative congiunte attraverso un diagramma «a bolle», una particolare
variante del diagramma scatter plot in cui i valori delle frequenze relative
congiunte sono proporzionali alle aree delle circonferenze che individuano i
singoli punti-determinazione 𝑥𝑖 ,
Analisi della concordanza
Una prima intuizione
In base ai dati della Tabella 12, possiamo studiare la dipendenza in media di
da 𝑥, osservando come varia la media condizionata
al variare di 𝑥 nel suo
insieme di definizione. Per svolgere tale analisi, dobbiamo determinare le
distribuzioni condizionate di 𝑌 𝑋 = 𝑥𝑖 . Rapportando ogni elemento del
quadro centrale al rispettivo totale riga otteniamo:
Tabella 14. Distribuzioni condizionate della variabile statistica y
𝑥𝑖 \ 𝑥 = 𝑥𝑖
1
2
3
4
5
𝑖.
1
2
3
4
5
0,92
0,25
-
0,08
0,75
0,23
-
0,60
0,20
-
0,17
0,70
-
0,10
1,00
1,00
1,00
1,00
1,00
1,00
.
0,30
0,30
0,20
0,12
0,08
1,00
Analisi della concordanza
Una prima intuizione
Ricavate le distribuzioni condizionate 𝑖 , è immediato verificare che per ogni
distribuzione condizionata vale la relazione 𝑖 ≠ . e quindi vi è dipendenza
in media di 𝒀 da 𝑿. Dimostriamo l’esistenza di dipendenza in media
calcolando le medie condizionate
. Con riferimento alla variabile
condizionata 𝑌 𝑋 = 1, la corrispondente media condizionata è pari a
Tabella 15.1 Prospetto di calcolo
della media di Y|X = 1
= 𝑥1
1
2
3
4
5
𝑖
𝑥
0,92
0,08
0,00
0,00
0,00
0,92
0,16
0,00
0,00
0,00
1,00
1,08
𝑖
Analisi della concordanza
Una prima intuizione
Ripetiamo il procedimento rispetto alle variabili 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 2, 3, le cui
medie condizionate sono date rispettivamente da
Tabella 15.2 Prospetto di calcolo
della media di Y|X = 2
= 𝑥2
1
2
3
4
5
𝑖
𝑥
0,25
0,75
0,00
0,00
0,00
0,25
1,50
0,00
0,00
0,00
1,00
1,75
Tabella 15.3 Prospetto di calcolo
della media di Y|X = 3
𝑖
=𝑥
1
2
3
4
5
𝑖
𝑥
0,00
0,23
0,60
0,17
0,00
0,00
0,47
1,80
0,67
0,00
1,00
2,93
𝑖
Analisi della concordanza
Una prima intuizione
In ultimo, con riferimento alle variabili condizionate 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 4, 5, le
rispettive medie condizionate sono date rispettivamente da
Tabella 15.4 Prospetto di calcolo
della media di Y|X = 4
=𝑥
1
2
3
4
5
𝑖
𝑥
0,00
0,00
0,20
0,70
0,10
0,00
0,00
0,60
2,80
0,50
1,00
3,90
Tabella 15.5 Prospetto di calcolo
della media di Y|X = 5
𝑖
=𝑥
1
2
3
4
5
𝑖
𝑥
0,00
0,00
0,00
0,00
1,00
0,00
0,00
0,00
0,00
5,00
1,00
5,00
𝑖
Analisi della concordanza
Una prima intuizione
Riassumiamo i precedenti risultati in un nuovo prospetto e calcoliamo la
media delle medie condizionate, ricordando che in generale vale l’uguaglianza
𝑘
=
𝑖=1
Nel complesso, poiché i valori delle
medie condizionate
aumentano
all’aumentare di 𝑥, la variabile statistica
𝒀 è dipendente in media da 𝑿
𝑖
𝑖.
Tabella 15.6 Prospetto di calcolo
della media di Y
𝑖.
1,08
1,75
2,93
3,90
5,00
𝑖.
0,25
0,28
0,30
0,10
0,07
0,27
0,49
0,88
0,39
0,35
1,00
2,38
Analisi della concordanza
Una prima intuizione
Nel caso di una variabile statistica doppia quantitativa, a differenza di quanto
osservato nel caso di variabili miste, possiamo analizzare anche la relazione
inversa, cioè la dipendenza in media della variabile 𝑿 dalla variabile 𝒀. In
questo senso, l’analisi della concordanza è simmetrica. Otteniamo le
distribuzioni condizionate della variabile 𝑋 𝑌 = rapportando ciascuna
frequenza relativa congiunta al rispettivo totale colonna:
Tabella 16. Distribuzioni condizionate della variabile statistica x
𝑥𝑖 \
1
2
3
4
5
𝑖.
1
2
3
4
5
0,77
0,23
-
0,07
0,70
0,23
-
0,90
0,10
-
0,42
0,58
-
0,13
0,88
0,25
0,28
0,30
0,10
0,07
.
1,00
1,00
1,00
1,00
1,00
1,00
𝑖
Analisi della concordanza
Una prima intuizione
Ricavate le distribuzioni condizionate 𝑖 , anche in questo caso per ogni
distribuzione condizionata vale la relazione 𝑖 ≠ 𝑖. , quindi vi è dipendenza
in media di 𝑿 da 𝒀. Dimostriamo l’esistenza di dipendenza in media
calcolando le medie condizionate
. Con riferimento alla variabile
condizionata 𝑋 𝑌 = 1, la corrispondente media condizionata è pari a
Tabella 17.1 Prospetto di calcolo
della media di X|Y = 1
𝑥
=
1
2
3
4
5
1
𝑖
𝑥
𝑖
0,77
0,23
0,00
0,00
0,00
0,77
0,47
0,00
0,00
0,00
1,00
1,23
Analisi della concordanza
Una prima intuizione
Replichiamo il procedimento per le variabili 𝑋 𝑌 =
condizionate sono date rispettivamente da
Tabella 17.2 Prospetto di calcolo
della media di X|Y = 2
𝑥
=
1
2
3
4
5
2
𝑖
𝑥
𝑖
0,07
0,70
0,23
0,00
0,00
0,07
1,40
0,70
0,00
0,00
1,00
2,17
; 𝑗 = 2, 3, le cui medie
Tabella 17.3 Prospetto di calcolo
della media di X|Y = 3
𝑥
=
1
2
3
4
5
𝑖
𝑥
𝑖
0,00
0,00
0,90
0,10
0,00
0,00
0,00
2,70
0,40
0,00
1,00
3,10
Analisi della concordanza
Una prima intuizione
Infine, determiniamo le medie delle variabili condizionate 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 4, 5,
date rispettivamente da
Tabella 17.4 Prospetto di calcolo
della media di X|Y = 4
𝑥
=
1
2
3
4
5
𝑖
𝑥
𝑖
0,00
0,00
0,42
0,58
0,00
0,00
0,00
1,25
2,33
0,00
1,00
3,58
Tabella 17.5 Prospetto di calcolo
della media di X|Y = 5
𝑥
=
1
2
3
4
5
𝑖
𝑥
𝑖
0,00
0,00
0,00
0,13
0,88
0,00
0,00
0,00
0,50
4,38
1,00
4,88
Analisi della concordanza
Una prima intuizione
Come abbiamo già fatto in precedenza, riassumiamo i risultati ottenuti in un
nuovo prospetto e calcoliamo la media delle medie condizionate, ricordando
che in generale vale l’uguaglianza
ℎ
=
=1
Il risultato è in accordo con quello
ottenuto rispetto alle medie condizionate
: infatti, anche in questo caso i valori
delle medie condizionate
aumentano
all’aumentare di , quindi la variabile
statistica 𝑿 è dipendente in media da 𝒀
Notare che in entrambi i casi, la relazione
tra le due variabili è di tipo crescente,
quindi è appropriato parlare di simmetria
anche con riferimento ai risultati
𝑗
.
Tabella 17.6 Prospetto di calcolo
della media di X
.
1,23
2,17
3,10
3,58
4,88
.
0,30
0,30
0,20
0,12
0,08
0,37
0,65
0,62
0,43
0,39
1,00
2,46
Analisi della concordanza
La covarianza
Ma è sensato procedere in questa maniera? Non sarebbe più facile valutare il
segno della relazione tra le due variabili statistiche doppie senza passare dal
calcolo della distribuzione delle medie condizionate?
La valutazione del segno e dell’intensità della relazione tra due variabili
statistiche quantitative può essere svolta solo nel caso di legami lineari,
introducendo il concetto di covarianza
Definiamo covarianza la misura del grado in cui due variabili statistiche 𝑿 e
𝒀, entrambe definite su ℝ, sono legate linearmente, intendendo per legame
lineare la tendenza della 𝑿, nel caso di concordanza, ad assumere valori
elevati in corrispondenza a valori elevati della 𝒀, o viceversa valori prossimi
all’estremo inferiore del suo insieme di definizione in corrispondenza a valori
elevati della 𝒀, in caso di discordanza
Analisi della concordanza
La covarianza
La misura di covarianza deve risultare indipendente dal sistema di riferimento
cartesiano (o detto in altri termini deve risultare invariante rispetto a
traslazioni). Tale proprietà può essere ottenuta traslando gli assi dall’origine
0, 0 alla nuova origine
,
Dal punto di vista analitico, la traslazione dell’origine verso il baricentro della
variabile statistica doppia comporta l’introduzione delle variabili scarto
𝑠 = 𝑥−
e𝑠 =
−
Poiché abbiamo calcolato in precedenza che
= 2,46 e
= 2,38, è
agevole costruire una tabella a doppia entrata in cui figurino non le variabili
statistiche 𝑿 e 𝒀, ma le relative variabili scarto 𝑠 e 𝑠
Analisi della concordanza
La covarianza
La tabella a doppia entrata assumerà la seguente struttura:
Tabella 18. Rappresentazione di una generica
variabile statistica scarto doppia discreta
𝑠 \𝑠
-1,38
-0,38
0,62
1,62
2,62
𝑖.
-1,46
-0,46
0,54
1,54
2,54
0,23
0,07
-
0,02
0,21
0,07
-
0,18
0,02
-
0,05
0,07
-
0,01
0,07
0,25
0,28
0,30
0,10
0,07
.
0,30
0,30
0,20
0,12
0,08
1,00
Analisi della concordanza
La covarianza
Da un punto di vista grafico, la precedente distribuzione può essere
rappresentata graficamente tramite il seguente diagramma «a bolle»:
II
I
III
IV
Analisi della concordanza
La covarianza
Moltiplicando tra loro le nuove coordinate, otteniamo i prodotti
𝑠
𝑠 = 𝑥−
−
Il segno di tali prodotti è positivo in corrispondenza del primo e del terzo
quadrante, negativo nel secondo e nel quarto quadrante
Quindi se vi è una prevalenza di prodotti di segno positivo, la somma di tutti i
prodotti assumerà segno positivo; viceversa, in caso di prevalenza di prodotti
di segno negativo, la somma dei prodotti assumerà segno negativo
Indichiamo la somma ponderata dei prodotti delle variabili scarto come
covarianza:
𝑘
𝜎
ℎ
=
𝑖=1
=1
𝑥𝑖 −
−
𝑖
Analisi della concordanza
La covarianza
La covarianza quindi è una misura definita sull’insieme dei numeri reali ℝ. In
particolare, facendo riferimento anche al precedente diagramma, avremo che
• 𝜎 > 0 se vi è una prevalenza di valori delle variabili scarto nel primo e
nel terzo quadrante, per cui i prodotti con segno positivo eccedono i
prodotti con segno negativo e quindi la somma dei prodotti, nel
complesso, ha segno positivo (concordanza)
• 𝜎 < 0 se al contrario vi è una prevalenza di valori delle variabili scarto
nel secondo e nel quarto quadrante, per cui i prodotto con segno negativo
eccedono quelli con segno positivo, determinando nel complesso un
valore negativo della somma dei prodotti tra variabili scarto (discordanza)
• 𝜎 = 0 se le coppie-determinazione si distribuiscono omogeneamente tra
quadranti e quindi la somma algebrica fra prodotti con segno positivo e
quelli con segno negativo è nel complesso nulla (indifferenza)
Analisi della concordanza
La covarianza
Con riferimento alla distribuzione riportata nella Tabella 18, calcoliamo la
covarianza come somma ponderata di prodotti tra variabili scarto,
strutturando il seguente prospetto di calcolo:
Tabella 19. Prospetto di calcolo della covarianza come
somma ponderata di prodotti tra variabili scarto
−
𝑠 \𝑠
-1,46
-0,46
0,54
1,54
2,54
𝑥𝑖 −
𝑥𝑖 −
−
𝑖
-1,38
-0,38
0,62
1,62
2,62
0,4634
0,0444
-
0,0111
0,0367
0,0144
-
0,0603
0,0191
-
0,0437
0,1746
-
0,0403
0,4658
Analisi della concordanza
La covarianza
Gli elementi che figurano nel quadro centrale del precedente prospetto sono
calcolati in base alla relazione
𝑥𝑖 −
−
𝑖
Quindi, con riferimento al primo elemento in alta a sinistra, ricordando che la
frequenza relativa congiunta corrispondente è 11 = 0,23 (cfr. Tabella 18), il valore
del prodotto ponderato sarà pari a
−1,46 × −1,38 × 0,23 = 0,4634
Procedendo in maniera analoga per tutti gli altri prodotti, si ricavano i risultati
raccolti nel quadro centrale della Tabella 19
Analisi della concordanza
La covarianza
Infine, se sommiamo tutti gli elementi ottenuti con la procedura appena descritta
otteniamo la covarianza:
𝑘
𝜎
ℎ
=
𝑖=1
=1
𝑥𝑖 −
−
𝑖
= 0,4634 + 0,0111 + 0,0444 + … + 0,4658 = 1,3452
Poiché la covarianza è pari a 𝜎 = 1,3452 > 0, il legame tra le variabili statistiche
𝑿 e 𝒀 è un legame di concordanza, nel senso che all’aumentare della 𝑿 la 𝒀
mediamente aumenta e viceversa
Naturalmente, non possiamo dire nulla di più circa l’intensità del legame di tipo
lineare eventualmente presente tra le due variabili, in quanto non disponiamo di
un valore teorico massimo rispetto al quale confrontare il valore di covarianza
appena calcolato
Analisi della concordanza
La covarianza
Nel caso in cui le due variabili statistiche siano caratterizzate entrambe da una
distribuzione unitaria di frequenze assolute, allora 𝑘 = ℎ = 𝑛 e la precedente
espressione può essere riformulata come
𝑘
𝜎
ℎ
=
𝑛
𝑖=1
𝑛
=1
=
𝑖=1
1
=
𝑛
𝑛
=1
𝑖=
𝑥𝑖 −
−
𝑥𝑖 −
𝑥𝑖 −
−
𝑖
𝑖
1
𝑛
−
Ad ogni modo, con questa formulazione in termini di somma di prodotti fra
variabili scarto, il calcolo della covarianza può risultare eccessivamente
laborioso, ma può essere notevolmente semplificato osservando che
Analisi della concordanza
La covarianza
𝑘
𝜎
ℎ
=
𝑖=1
𝑘
=1
ℎ
=
𝑖=1
𝑘
=1
ℎ
𝑖=1
𝑘
=1
ℎ
𝑖=1
=1
=
=
𝑘
ℎ
𝑖=1
𝑘
=1
ℎ
𝑖=1
=1
=
=
𝑥𝑖 −
𝑥𝑖
−
− 𝑥𝑖
𝑖
−
+
𝑘
𝑥𝑖
𝑖
ℎ
−
𝑖=1
=1
𝑘
𝑥𝑖
𝑖
𝑖
−
𝑖=1
𝑘
𝑥𝑖
𝑖
=1
=𝑓𝑖.
𝑥𝑖
𝑖
−
𝑥𝑖
𝑖
−
−
−
𝑖=1
ℎ
𝑥𝑖
+
ℎ
ℎ
𝑖
𝑘
−
=1
𝑖=1
=𝑓.𝑗
ℎ
𝑖=1
=1
𝑘
+
𝑖
=1
𝑘
𝑖
𝑖
ℎ
+
𝑖=1
=1
=1
𝑖
Analisi della concordanza
La covarianza in caso di indipendenza
Quindi la covarianza può essere scomposta nella differenza tra la
somma ponderata dei prodotti tra le 𝑘 modalità assunte dalla variabile
𝑿 e le ℎ modalità della 𝒀 e il prodotto fra la media della 𝑿 e quella
della 𝒀:
𝑘
𝜎
ℎ
=
𝑖=1
=1
𝑥𝑖
𝑖
−
Notare che la scomposizione della covarianza è analoga a quella
applicata, nel caso di variabili statistiche univariate, alla varianza; infatti,
come si ricorderà,
𝜎2
𝑘
=
𝑥𝑖2 𝑖 −
𝑖=1
2
Analisi della concordanza
La covarianza
Calcoliamo la covarianza applicando il metodo dei momenti appena descritto.
Organizziamo il seguente prospetto di calcolo:
Tabella 20. Prospetto di calcolo della covarianza con
il metodo dei momenti
𝑥𝑖 \
𝑖
1
2
3
4
5
𝑥𝑖
𝑥𝑖
1
0,2300
0,1400
-
𝑖
2
0,0400
0,8400
0,4200
-
3
1,6200
0,2400
-
4
0,6000
1,1200
-
5
0,2000
1,7500
Analisi della concordanza
La covarianza
In questo caso, calcoliamo gli elementi che figurano nel quadro centrale del
precedente prospetto tramite la relazione
𝑥𝑖
𝑖
Ad esempio, con riferimento al primo elemento in alta a sinistra, il valore del
prodotto ponderato sarà pari a
1 × 1 × 0,23 = 0,2300
Procedendo in maniera analoga per tutti gli altri prodotti, si ricavano i risultati
raccolti nel quadro centrale della Tabella 20
Analisi della concordanza
La covarianza
Il valore della covarianza, con il metodo dei momenti, è ottenuto sommando tutti
gli elementi ottenuti con la procedura appena descritta e sottraendo a tale
quantità il prodotto tra le medie aritmetiche
Poiché risulta 𝑘𝑖=1 ℎ=1 𝑥𝑖 𝑖 = 7,2, ricordando che
e
= 2,38 (cfr. Tabella 15.6), otteniamo
𝑘
𝜎
ℎ
=
𝑖=1
= 2,46 (cfr. Tabella 17.6)
=1
𝑥𝑖
𝑖
−
= 7,2 − 2,46 × 2,38 = 7,2 − 5,8548 = 1,3452
Analisi della concordanza
La covarianza in caso di indipendenza
In ultimo, verifichiamo qual è il valore della covarianza nel caso di
indipendenza (da non confondere con indifferenza). Prima di procedere
alla formalizzazione, osserviamo che 𝑿 e 𝒀 sono indipendenti, ciò
implica assenza di qualsiasi legame, sia di tipo lineare, sia non lineare,
quindi anche in questo caso deve risultare che 𝜎 = 0
Infatti, in caso di indipendenza, la frequenza relativa congiunta può
essere espressa in termini di prodotto tra i corrispondenti valori delle
frequenze relative marginali delle variabili 𝑿 e 𝒀 e quindi 𝑖 = 𝑖. .
Analisi della concordanza
La covarianza in caso di indipendenza
In caso di indipendenza, quindi, avremo che
𝑘
𝜎
ℎ
=
𝑖=1
𝑘
=1
𝑖=1
𝑘
𝑖=1
−
𝑖
𝑥𝑖 −
−
𝑖. .
ℎ
=
=
𝑥𝑖 −
=1
ℎ
𝑥𝑖 −
=0
𝑖.
−
=1
.
=0
=0
Notare che se due variabili statistiche sono indipendenti, allora 𝜎 = 0,
mentre se 𝜎 = 0, allora non necessariamente le due variabili statistiche
sono indipendenti, ma sono certamente indifferenti o incorrelate
Analisi della concordanza
Proprietà della covarianza
La covarianza è un operatore lineare (come la media aritmetica); ne derivano
alcune interessanti proprietà:
• Simmetria. La covarianza tra 𝑿 e 𝒀 è uguale alla covarianza tra 𝒀 e 𝑿. In
simboli:
𝜎 =𝜎
La proprietà di simmetria deriva dalla corrispondenza biunivoca esistente tra
le due variabili statistiche nell’ipotesi di legame lineare
• Covarianza di una traslazione. Dato un numero 𝑎 ∈ ℝ, ipotizziamo di traslare
𝑿 in misura pari ad 𝑎 e poniamo quindi 𝒁 = 𝑿 + 𝑎. La traslazione della
variabile 𝑿 non altera il valore della covarianza tra 𝑿 e 𝒀. Formalmente:
𝒁 = 𝑿 + 𝑎 ⟹ 𝜎𝑧 = 𝜎
Analisi della concordanza
Proprietà della covarianza
Dimostrazione. Ricordando che una traslazione è una trasformazione
lineare, risulterà 𝑧 =
+ 𝑎. Avremo quindi che
𝜎𝑧
1
=
𝑛
1
=
𝑛
1
=
𝑛
1
=
𝑛
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑧𝑖 −
𝑧
𝑖
−
𝑥𝑖 + 𝑎 −
+𝑎
𝑥𝑖 + 𝑎 −
𝑥𝑖 −
−𝑎
𝑖
−
𝑖
𝑖
−
=𝜎
−
Analisi della concordanza
Proprietà della covarianza
• Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ, ipotizziamo di traslare 𝑿 in misura
pari ad 𝑎 e 𝒀 in misura pari ad 𝑏; poniamo quindi 𝒁 = 𝑿 + 𝑎 e 𝑾 = 𝒀 + 𝑏.
La traslazione di 𝑿 e 𝒀 non altera il valore della covarianza. Formalmente:
𝒁 = 𝑿 + 𝑎, 𝑾 = 𝒀 + 𝑏 ⟹ 𝜎𝑧𝑤 = 𝜎
La dimostrazione è assolutamente analoga alla precedente e la omettiamo
per agilità di trattazione
Analisi della concordanza
Proprietà della covarianza
• Covarianza di una trasformazione di scala. Date due variabili statistiche 𝑿 e
𝒀 e un numero 𝑏 ∈ ℝ, ipotizziamo di moltiplicare 𝑿 per la quantità 𝑏 e
poniamo quindi 𝒁 = 𝑏𝑿. La trasformazione di scala della variabile 𝑿
determina una variazione della covarianza tra 𝑿 e 𝒀 in misura pari a 𝑏. Si
avrà quindi che
𝒁 = 𝑏𝑿 ⟹ 𝜎𝑧 = 𝑏𝜎
Analisi della concordanza
Proprietà della covarianza
Dimostrazione. Poiché la trasformazione di scala appartiene alla classe
delle trasformazioni lineari, risulterà 𝑧 = 𝑏 . Avremo quindi che
𝜎𝑧
𝑛
1
=
𝑛
1
=
𝑛
=𝑏
𝑖=1
𝑛
1
𝑛
𝑖=1
𝑛
𝑧𝑖 −
𝑧
𝑖
−
𝑏𝑥𝑖 − 𝑏
𝑖
−
𝑥𝑖 −
𝑖
−
𝑖=1
= 𝑏𝜎
Analisi della concordanza
Proprietà della covarianza
• Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ, ipotizziamo di trasformare la scala di
𝑿 in misura pari ad 𝑎 e la scala di 𝒀 in misura pari ad 𝑏; si avrà quindi che
𝒁 = 𝑎𝑿 e 𝑾 = 𝑏𝒀. La trasformazione di scala di 𝑿 e 𝒀 determina una
variazione della covarianza tra 𝑿 e 𝒀 in misura pari a 𝑎𝑏. Formalmente:
𝒁 = 𝑎𝑿, 𝑾 = 𝑏𝒀 ⟹ 𝜎𝑧𝑤 = 𝑎𝑏𝜎
Analisi della concordanza
Applicazioni
Esempio 4. Ipotizziamo che la AJAX abbia rilevato il reddito familiare annuo 𝑿 e la spesa
annua per acquisto di beni di prima necessità 𝒀 in un collettivo di 𝑛 = 200 clienti
registrati sul sito web aziendale e che abbia presentato i risultati della rilevazione nel
seguente prospetto:
Tabella 21. Prospetto di rilevazione del reddito medio annuo e della spesa annua
per acquisto di generi di prima necessità. Dati in migliaia di euro
𝑋\
[0, 10)
[10, 20)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
30
15
5
-
5
35
6
4
-
.
50
50
[20, 30)
-
[30, 40)
5
25
12
3
12
22
6
45
40
[40, 50]
-
𝑖.
2
2
11
35
55
50
40
20
15
200
Analizziamo il legame tra reddito e consumo nel collettivo attraverso il calcolo della
covarianza
Analisi della concordanza
Applicazioni
In primo luogo, dopo avere calcolato i valori centrali degli intervalli di modalità
delle due variabili 𝑿 e 𝒀, determiniamo la distribuzione delle frequenze relative
congiunte, rapportando ciascuna frequenza assoluta del quadro centrale del
precedente prospetto alla numerosità del collettivo. Otteniamo la seguente
tabella a doppia entrata:
Tabella 22. Distribuzione delle frequenze relative congiunte
𝑋\
5
15
25
35
45
𝑖.
5
15
25
35
45
0,150
0,075
0,025
-
0,025
0,175
0,030
0,020
-
0,025
0,125
0,060
0,015
0,060
0,110
0,030
0,010
0,010
0,055
0,175
0,275
0,250
0,200
0,100
.
0,250
0,250
0,225
0,200
0,075
1,000
Analisi della concordanza
Applicazioni
La variabile statistica doppia 𝑋, 𝑌 può essere rappresentata tramite il
seguente diagramma a bolle:
L’ispezione grafica evidenzia un legame diretto tra il reddito e il consumo,
anche se le coppie-determinazione mostrano una certa dispersione, quindi ci
dobbiamo attendere che la covarianza assuma valore positivo
Analisi della concordanza
Applicazioni
Calcoliamo la covarianza con il metodo dei momenti. Con tale metodo la
covarianza è definita dalla seguente relazione:
𝑘
𝜎
ℎ
=
𝑖=1
Dobbiamo calcolare
le medie
e ,
applicando la
procedura standard
𝑥𝑖
5
15
25
35
45
𝑖.
=1
𝑥𝑖
𝑥𝑖
𝑖
−
𝑖.
0,175
0,275
0,250
0,200
0,100
0,875
4,125
6,250
7,000
4,500
1,000
22,750
5
15
25
35
45
.
.
0,250
0,250
0,225
0,200
0,075
1,250
3,750
5,625
7,000
3,375
1,000
21,000
Analisi della concordanza
Applicazioni
Quindi approntiamo il seguente prospetto di calcolo:
Tabella 23. Prospetto di calcolo
𝑋\
5
15
25
35
45
5
3,75
5,63
3,13
-
15
1,88
39,38
11,25
10,50
-
25
9,38
78,13
52,50
16,88
35
52,50
134,75
47,25
45
11,25
15,75
111,38
Ad esempio, con riferimento al primo elemento in alto a sinistra del quadro
centrale, ricordando che la corrispondente frequenza relativa congiunta è pari a
11 = 0,15, avremo che
5 × 5 × 0,15 = 3,75
Procediamo in maniera analoga per gli altri elementi e completiamo il prospetto
Analisi della concordanza
Applicazioni
Otteniamo il valore della covarianza sommando le quantità riportate nel quadro
centrale della precedente tabella a doppia entrata e sottraendo alla somma il
prodotto tra le medie aritmetiche
Poiché risulta 𝑘𝑖=1 ℎ=1 𝑥𝑖
complesso abbiamo che
𝑖
= 605,25 e
𝑘
𝜎
ℎ
=
𝑖=1
= 22,75 × 21 = 477,75, nel
=1
𝑥𝑖
𝑖
−
= 605,25 − 477,75 = 127,50
Poiché 𝜎
= 127,50 > 0, tra 𝑿 e 𝒀 esiste una relazione di concordanza
La correlazione
La disuguaglianza di Cauchy-Schwarz
La domanda che ci poniamo adesso è: possiamo considerare la covarianza
una misura «ideale» di concordanza o correlazione? La risposta, ovviamente,
è negativa:
• essendo una misura definita su ℝ, la covarianza fornisce una indicazione di
massima sulla presenza/assenza e sul segno dell’associazione lineare tra le
due variabili 𝑿 e 𝒀, ma nulla dice circa l’intensità, la «forza» di tale
associazione
• inoltre abbiamo appena dimostrato che la covarianza è sensibile a
trasformazioni di scala
In questi casi, di solito procediamo a «normalizzare» la misura (ad esempio
rapportandola al suo valore teorico massimo), al fine di derivarne un indice
che assuma valori in un intervallo di estremi definiti (di solito tra 0 e 1). Nel
caso della covarianza, la normalizzazione si basa sulla c.d. disuguaglianza di
Cauchy-Schwarz
La correlazione
La disuguaglianza di Cauchy-Schwarz
La disuguaglianza di Cauchy-Schwarz è una proprietà generale dello spazio
che trova applicazione in algebra lineare, in topologia e in molti altri settori
della matematica
In generale la disuguaglianza di Cauchy-Schwarz fissa un limite superiore al
valore di un prodotto vettoriale:
2
𝑛
𝑥𝑖
𝑖=1
𝑖
𝑛
≤
𝑥𝑖2
𝑖=1
𝑛
𝑖=1
2
𝑖
in cui il segno di uguaglianza vale soltanto nel caso in cui tra 𝑿 e 𝒀 esiste una
relazione di proporzionalità del tipo 𝑐𝑥 + = 0
La correlazione
La disuguaglianza di Cauchy-Schwarz
Dal momento che la disuguaglianza di Cauchy-Schwarz ha validità generale,
possiamo renderla più significativa per i nostri fini applicandola a variabili
scarto. Introducendo 𝑥𝑖 −
e 𝑖−
, possiamo riformulare la
disuguaglianza nei termini seguenti:
2
𝑛
𝑖=1
𝑥𝑖 −
𝑖 −
𝑛
≤
𝑖=1
𝑥𝑖 −
2
𝑛
𝑖=1
𝑖 −
2
È agevole mostrare che tale disuguaglianza equivale a
𝜎 2 ≤ 𝜎 2𝜎 2
In sintesi, date due variabili statistiche 𝑿 e 𝒀, tramite la disuguaglianza di
Cauchy-Schwarz abbiamo dimostrato che la covarianza al quadrato è inferiore
o al limite uguale al prodotto tra le rispettive varianze, con il segno di
uguaglianza che vale solo nel caso in cui 𝑿 e 𝒀 sono proporzionali tra loro
La correlazione
Il coefficiente di correlazione lineare di Bravais-Pearson
Naturalmente tale risultato può essere ulteriormente elaborato. Risolvendo la
disuguaglianza
𝜎 2 ≤ 𝜎 2𝜎 2
otteniamo la seguente disuguaglianza bilaterale:
−𝜎 𝜎 ≤ 𝜎
≤ +𝜎 𝜎
Se dividiamo i tre termini della disuguaglianza bilaterale per la quantità 𝜎 𝜎 ,
avremo quindi
𝜎 𝜎
𝜎
𝜎 𝜎
−
≤
≤+
𝜎 𝜎
𝜎 𝜎
𝜎 𝜎
La correlazione
Il coefficiente di correlazione lineare di Bravais-Pearson
da cui segue che
𝜎
−1 ≤
≤ +1
𝜎 𝜎
Il rapporto
𝜌
=
𝜎
𝜎 𝜎
è denominato coefficiente di correlazione lineare di Bravais-Pearson ed è
utilizzato per valutare l’intensità del legame lineare tra due variabili statistiche
𝑿e𝒀
La correlazione
Il coefficiente di correlazione lineare di Bravais-Pearson
Il coefficiente di correlazione lineare di Bravais-Pearson, analogamente alla
covarianza, di cui rappresenta una trasformazione lineare, è una misura di
concordanza e quindi misura il modo in cui le variabili 𝑿 e 𝒀 si muovono
insieme, ma a differenza della covarianza diventa un indice di dipendenza
quando tra le due variabili esiste un legame di tipo lineare
Come la concordanza, la correlazione è una proprietà simmetrica, quindi
nell’analisi di correlazione non è importante stabilire quale delle due variabili
sia la variabile dipendente: infatti, può accadere che 𝑿 e 𝒀 presentino
un’elevata correlazione anche in assenza di una relazione di dipendenza,
dovuta ad esempio all’influenza di una terza variabile, non esplicitamente
compresa nel modello analizzato
La correlazione
Il coefficiente di correlazione lineare di Bravais-Pearson
Abbiamo appena dimostrato che −1 ≤ 𝜌
coefficiente di correlazione lineare?
≤ +1. Come va interpretato il
• 𝜌 = 0 se e solo se 𝜎 = 0, cioè quando tra 𝑿 e 𝒀 vi è una relazione di
indifferenza
• 𝜌 = 1 quando tra 𝑿 e 𝒀 esiste una relazione lineare crescente del tipo
= 𝛼 + 𝛽𝑥. Naturalmente, essendo la correlazione una relazione
simmetrica, tale interpretazione vale anche per la relazione speculare
𝑥 = 𝛼 ′ + 𝛽′
• 𝜌 = −1 quando tra 𝑿 e 𝒀 esiste una relazione lineare inversa del tipo
= 𝛼 − 𝛽𝑥 o, analogamente al caso precedente, per la relazione speculare
𝑥 = 𝛼 ′ − 𝛽′
• In tutti i casi intermedi, l’associazione tra 𝑿 e 𝒀 sarà più o meno prossima
ad una relazione lineare, con valori di 𝜌 che tenderanno ad uno dei due
estremi dell’intervallo all’aumentare della forza del legame lineare
La correlazione
Il coefficiente di correlazione lineare di Bravais-Pearson
Da un punto di vista grafico, con riferimento ad uno scatter plot, si può
presentare un’ampia gamma di situazioni:
La correlazione
Proprietà del coefficiente di correlazione lineare
Derivano dalle proprietà della covarianza, che abbiamo commentato in
precedenza. In particolare:
• Simmetria. Il coefficiente di correlazione lineare tra 𝑿 e 𝒀 è uguale al
coefficiente tra 𝒀 e 𝑿. In simboli:
𝜌
=𝜌
• Correlazione di una traslazione. Dato un numero 𝑎 ∈ ℝ e una traslazione
𝒁 = 𝑿 + 𝑎, la traslazione della variabile 𝑿 non altera il valore del
coefficiente di correlazione lineare tra 𝑿 e 𝒀. Formalmente:
𝒁 = 𝑿 + 𝑎 ⟹ 𝜌𝑧 = 𝜌
La correlazione
Proprietà del coefficiente di correlazione lineare
Dimostrazione. Come abbiamo dimostrato in precedenza, la varianza e la
covarianza sono invarianti rispetto a traslazioni, quindi risulterà che 𝜎𝑧2 = 𝜎 2
e 𝜎𝑧 = 𝜎 . È quindi immediato mostrare che
𝜎𝑧
𝜎
𝑍 = 𝑋 + 𝑎 ⟹ 𝜌𝑧 =
=
=𝜌
𝜎𝑧 𝜎
𝜎 𝜎
• Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ e le traslazioni 𝒁 = 𝑿 + 𝑎 e
𝑾 = 𝒀 + 𝑏, tali traslazioni non alterano il valore del coefficiente di
correlazione lineare:
𝒁 = 𝑿 + 𝑎, 𝑾 = 𝒀 + 𝑏 ⟹ 𝜌𝑧𝑤 = 𝜌
La dimostrazione è analoga alla precedente e la omettiamo per agilità di
trattazione
La correlazione
Proprietà del coefficiente di correlazione lineare
• Correlazione di una trasformazione di scala. Dato un numero 𝑏 ∈ ℝ e una
trasformazione di scala 𝒁 = 𝑏𝑿, il coefficiente di correlazione lineare, a
differenza della covarianza, è invariante rispetto a trasformazioni di scala,
quindi
𝒁 = 𝑏𝑿 ⟹ 𝜌𝑧 = 𝜌
Dimostrazione. In caso di trasformazione di scala, si ha che 𝜎𝑧2 = 𝑏2 𝜎 2 e
𝜎𝑧 = 𝑏𝜎 , per cui è agevole mostrare che
𝑍 = 𝑏𝑋 ⟹ 𝜌𝑧
𝜎𝑧
𝑏𝜎
𝜎
=
=
=
=𝜌
𝜎𝑧 𝜎
𝑏𝜎 𝜎
𝜎 𝜎
La correlazione
Proprietà del coefficiente di correlazione lineare
• Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ e due trasformazioni di scala 𝒁 = 𝑎𝑿
e 𝑾 = 𝑏𝒀, il coefficiente di correlazione lineare è invariante rispetto a
trasformazioni di scala di 𝑿 e 𝒀. Formalmente:
𝒁 = 𝑎𝑿, 𝑾 = 𝑏𝒀 ⟹ 𝜌𝑧𝑤 = 𝜌
La correlazione
Applicazioni
Esempio 5. Con riferimento alla tabella a doppia entrata dell’Esempio 3, il
nostro obiettivo è calcolare il coefficiente di correlazione lineare di BravaisPearson. I dati di base sono i seguenti:
Tabella 24. Rappresentazione di una generica
variabile statistica doppia discreta
𝑥𝑖 \
1
2
3
4
5
𝑖.
1
2
3
4
5
0,23
0,07
-
0,02
0,21
0,07
-
0,18
0,02
-
0,05
0,07
-
0,01
0,07
0,25
0,28
0,30
0,10
0,07
.
0,30
0,30
0,20
0,12
0,08
1,00
𝑖
La correlazione
Applicazioni
Ricordando che
= 2,46,
= 2,38 e 𝜎 = 1,3452, poiché in generale il
coefficiente di correlazione è definito come
𝜌
Calcoliamo le
varianze 𝜎 2 e 𝜎 2 ,
necessarie per
ottenere gli scarti
quadratici medi che
figurano nella
formula,
applicando la
procedura standard
𝑥𝑖2
1
4
9
16
25
2
𝑖.
=
𝜎
𝜎 𝜎
𝑥𝑖2
𝑖.
0,30
0,60
0,60
0,48
0,40
0,30
2,40
5,40
7,68
10,00
2,38
25,78
2
𝑖
1
4
9
16
25
2
.
2
𝑖 .
0,30
0,30
0,20
0,12
0,08
0,30
1,20
1,80
1,92
2,00
1,00
7,22
La correlazione
Applicazioni
Con riferimento ai dati della precedente tabella, calcoliamo le varianze 𝜎 2 e
𝜎 2:
𝜎2
𝑘
=
𝑥𝑖2
𝑖=1
𝑖.
−
2
= 25,78 − 2,462 = 25,78 − 6,0516
= 19,7284
Analogamente
𝜎2
ℎ
=
𝑖=1
2
𝑖 .
−
2
= 7,22 − 2,382 = 7,22 − 5,6644 = 1,5556
Avremo quindi che 𝜎 = 19,7284 ≅ 4,4417 e 𝜎 =
1,5556 ≅ 1,2472
La correlazione
Applicazioni
In ultimo, procediamo a determinare il valore del coefficiente di correlazione
di Bravais-Pearson:
𝜌
𝜎
1,3452
=
=
= 0,3777
𝜎 𝜎
4,4417 × 1,2472
Quindi fra le due variabili 𝑿 e 𝒀 vi è una relazione lineare di debole entità
La correlazione
Applicazioni
Esempio 6. Con riferimento alla tabella a doppia entrata dell’Esempio 4,
calcoliamo il coefficiente di correlazione lineare di Bravais-Pearson. I dati di
base sono i seguenti:
Tabella 25. Distribuzione delle frequenze relative congiunte del reddito medio
annuo (X) e della spesa annua per acquisto di generi di prima necessità (Y)
in un collettivo di n=200 clienti della AJAX. Dati in migliaia di euro
𝑋\
5
15
25
35
45
𝑖.
5
15
25
35
45
0,150
0,075
0,025
-
0,025
0,175
0,030
0,020
-
0,025
0,125
0,060
0,015
0,060
0,110
0,030
0,010
0,010
0,055
0,175
0,275
0,250
0,200
0,100
.
0,250
0,250
0,225
0,200
0,075
1,000
La correlazione
Applicazioni
Poiché sappiamo dall’esempio 4 che
= 22,75,
= 21,00 e 𝜎 = 127,50,
approntiamo i prospetti per il calcolo delle varianze 𝜎 2 e 𝜎 2 e i relativi scarti
quadratici medi 𝜎 e 𝜎 :
𝑥𝑖2
25
225
625
1225
2025
2
𝑖.
𝑥𝑖2
𝑖.
0,18
0,28
0,25
0,20
0,10
4,38
61,88
156,25
245,00
202,50
1,00
670,00
2
𝑖
25
225
625
1225
2025
2
.
2
𝑖 .
0,25
0,25
0,23
0,20
0,08
6,25
56,25
140,63
245,00
151,88
1,00
600,00
La correlazione
Applicazioni
Con riferimento ai dati della precedente tabella, calcoliamo le varianze 𝜎 2 e
𝜎 2:
𝜎2
𝑘
=
𝑥𝑖2
𝑖=1
𝑖.
−
2
= 670 − 22,752 = 670 − 517,5625
= 152,4375
Analogamente
𝜎2
ℎ
=
𝑖=1
2
𝑖 .
−
2
= 600 − 212 = 600 − 441 = 159
Avremo quindi che 𝜎 =
152,4375 ≅ 12,3466 e 𝜎 = 159 ≅ 12,6095
La correlazione
Applicazioni
Calcoliamo infine il valore del coefficiente di correlazione di Bravais-Pearson:
𝜌
=
𝜎
127,50
=
= 0,819
𝜎 𝜎
12, 3466 × 12,6095
Quindi fra le due variabili 𝑿 e 𝒀 vi è una rilevante associazione lineare
La correlazione
Regressione lineare e correlazione
Data una variabile statistica doppia 𝑋, 𝑌 , un primo tipo di sintesi della
distribuzione può essere effettuato sostituendo alle due variabili le rispettive
medie aritmetiche
,
, il che equivale ad una riduzione da uno spazio
bidimensionale 𝑋, 𝑌 ∈ ℝ2 ad uno spazio zero-dimensionale costituito
dall’unico punto
,
Tale tipo di riduzione dimensionale non è l’unico possibile: possiamo passare
da uno spazio bidimensionale ad uno spazio unidimensionale tramite la
riduzione
𝑋, 𝑌 ⟹
𝑋,
𝑋
che, dal punto di vista operativo, comporta la sostituzione di ciascuna coppiadeterminazione 𝑥𝑖 , 𝑖 con la coppia 𝑥𝑖 , 𝑥𝑖 , che è la realizzazione di una
variabile statistica sostanzialmente univariata
La correlazione
Regressione lineare e correlazione
Un particolare tipo di riduzione dimensionale è quello lineare:
𝑋, 𝑌 ⟹
𝑋, 𝛼 + 𝛽𝑋
in cui sostituiamo ai valori osservati della variabile 𝑌 quelli teorici ricavati dalla
relazione 𝑌 = 𝛼 + 𝛽𝑋. Tale operazione, tuttavia, comporta sempre una
perdita informativa più o meno estesa, pari per ogni coppia-determinazione
𝑥𝑖 , 𝑖 a
𝑒𝑖 =
𝑖
−
𝑖
=
𝑖
− 𝛼 − 𝛽𝑥𝑖
Come sappiamo, esistono molti modi per misurare la perdita informativa; ad
esempio si può fare riferimento ad una misura in valore assoluto del tipo
𝑒𝑖 =
𝑖
−
𝑖
=
𝑖
− 𝛼 − 𝛽𝑥𝑖
ma sappiamo anche che trattare con misure in modulo comporta problemi di
derivazione, per cui preferiamo fare riferimento all’errore quadratico
𝑒𝑖2 =
𝑖
−
𝑖
2
=
𝑖
− 𝛼 − 𝛽𝑥𝑖
2
La correlazione
Regressione lineare e correlazione
La perdita informativa globale, cioè il costo associato alla sostituzione delle
osservazioni 𝑖 con il loro valore «teorico» 𝑖 (espresso come funzione lineare
delle osservazioni 𝑥𝑖 ), è definita dalla seguente relazione:
𝑛
𝑒𝑖2
𝑖=1
𝑛
=
𝑖=1
𝑖
− 𝛼 − 𝛽𝑥𝑖
2
Il nostro obiettivo è quello di minimizzare la perdita informativa globale
imponendo alcune condizioni al problema di minimo e scegliendo
opportunamente i parametri 𝛼 e 𝛽
La correlazione
Regressione lineare e correlazione
Intuitivamente, le condizioni che dobbiamo imporre nell’impostare il
problema di minimo potrebbero essere le seguenti:
• Scegliere 𝛼 e 𝛽 in modo da garantire che la perdita informativa globale sia
nel complesso nulla
• Scegliere 𝛼 e 𝛽 in modo da rendere minima la variabilità dell’errore di
rappresentazione
Imponiamo la prima condizione:
𝑛
𝑖=1
𝑛
𝑒𝑖 =
𝑖=1
𝑖
− 𝛼 − 𝛽𝑥𝑖 = 0
La correlazione
Regressione lineare e correlazione
Verifichiamo per quale valore di 𝛼 è soddisfatta la prima condizione:
𝑛
𝑖=1
𝑛
𝑒𝑖 =
𝑖=1
𝑛
=
𝑖=1
𝑖
𝑛
𝑖
𝑛
−
𝑖=1
𝑛
𝑖=1
=𝜇𝑦
𝑖
𝑖=1
−𝛽
𝑥𝑖
1
𝑖 −𝛽
𝑛
𝑖=1
𝑛
𝑥𝑖
𝑖=1
=𝜇𝑥
e quindi la prima condizione è soddisfatta quando
𝛼=
𝑛
𝛼−𝛽
𝑛
𝑛𝛼 =
1
𝛼=
𝑛
− 𝛼 − 𝛽𝑥𝑖 = 0
−𝛽
𝑥𝑖 = 0
𝑖=1
La correlazione
Regressione lineare e correlazione
Imponiamo la seconda condizione:
𝑛
𝑚𝑖𝑛
𝑖=1
𝑒𝑖2
𝑛
= 𝑚𝑖𝑛
𝑖=1
𝑖
− 𝛼 − 𝛽𝑥𝑖
2
Tenendo conto della prima condizione, tale relazione può essere riformulata nei
termini seguenti:
𝑛
𝑚𝑖𝑛
𝑖=1
𝑛
𝑚𝑖𝑛
𝑖=1
𝑖 −
𝑖 −
−𝛽
− 𝛽𝑥𝑖
− 𝛽 𝑥𝑖 −
2
2
Poiché sostituendo il valore di soluzione per 𝛼 all’interno della precedente
relazione fa sì che nell’espressione figura soltanto l’incognita 𝛽, tale espressione
assume valore minimo nel punto in cui si annulla la derivata prima rispetto a 𝛽
La correlazione
Regressione lineare e correlazione
Ricordando che in generale
𝑛
1
𝜎 =
𝑛
2
𝑥𝑖2 −
2
𝑖=1
nel nostro caso la varianza dell’errore di rappresentazione è pari a
𝜎𝑒2
Nel caso in cui 𝛼 =
essere scritta come
−𝛽
𝑛
1
=
𝑛
⟹
𝜎𝑒2
𝑒
𝑒𝑖2 −
𝑖=1
2
𝑒
= 0 e quindi la precedente relazione può
1
=
𝑛
𝑛
𝑒𝑖2
𝑖=1
La correlazione
Regressione lineare e correlazione
Minimizzare 𝜎𝑒2 implica quindi la minimizzazione della quantità
𝑛
𝑒𝑖2
𝑖=1
𝑛
=
𝑖=1
𝑖−
2
− 𝛽 𝑥𝑖 −
Sviluppiamo il secondo termine della relazione:
𝑛
𝑛
𝑖=1
𝑖
−
=𝑛𝜎𝑦2
2
+
𝛽2
𝑥𝑖 −
2
𝑛
− 2𝛽
𝑖=1
=𝑛𝜎𝑥2
Dividendo i tre addendi per 𝑛 avremo quindi che
𝜎𝑒2 = 𝜎 2 + 𝛽 2 𝜎 2 − 2𝛽𝜎
𝑖=1
𝑥𝑖 −
=𝑛𝜎𝑥𝑦
𝑖
−
La correlazione
Regressione lineare e correlazione
Impostiamo il problema di minimo:
min 𝜎𝑒2 = min 𝜎 2 + 𝛽 2 𝜎 2 − 2𝛽𝜎
𝛽
𝛽
Tale espressione assume valore minimo nel punto in cui si annulla la derivata
prima rispetto a 𝛽 e quindi
𝑑𝜎𝑒2
= 2𝛽𝜎 2 − 2𝜎
𝑑𝛽
la cui soluzione è pari a
𝛽=
𝜎
𝜎2
=0
La correlazione
Regressione lineare e correlazione
In ultimo, ricordando che il valore di soluzione di 𝛼 in corrispondenza del
quale la perdita informativa globale associata all’adozione di un modello
lineare è 𝛼 =
− 𝛽 , possiamo sostituire al suo interno l’espressione
appena ricavata per 𝛽, ottenendo:
𝛼=
𝜎
− 2
𝜎
Riassumendo il ragionamento che abbiamo seguito fin adesso, il nostro
obiettivo è stato quello di sintetizzare le principali caratteristiche della
variabile statistica doppia 𝑋, 𝑌 , non «condensando» semplicemente le
informazioni in un punto di coordinate
,
, ma evidenziandone gli
eventuali legami lineari tramite il modello teorico
= 𝛼 + 𝛽𝑥
La correlazione
Regressione lineare e correlazione
Il precedente modello lineare è definito retta di regressione. Poiché la
sostituzione dei valori osservati della variabile 𝒀 con quelli «teorici» che
giacciono sulla retta di regressione comporta una perdita informativa,
abbiamo individuato due condizioni che i parametri caratteristici della retta di
regressione devono soddisfare per minimizzare la perdita informativa stessa
Impostato il problema di minimo, abbiamo individuato i valori di soluzione del
problema di minimizzazione per 𝛼 e 𝛽:
𝛼=
𝜎
𝛽= 2
𝜎
𝜎
− 2
𝜎
Quindi, disponendo di una tabella a doppia entrata con la distribuzione di una
variabile statistica doppia 𝑋, 𝑌 , calcolate le medie aritmetiche
e , la
varianza 𝜎 2 e la covarianza 𝜎 , è agevole ricavare i parametri della retta di
regressione = 𝛼 + 𝛽𝑥
La correlazione
Regressione lineare e correlazione
La retta di regressione
= 𝛼 + 𝛽𝑥 avrà forma esplicita
=
=
=
− 𝛽 + 𝛽𝑥
+𝛽 𝑥−
𝜎
+ 2 𝑥−
𝜎
e alla luce delle riflessioni svolte in precedenza va interpretata come quel
particolare strumento di sintesi delle osservazioni che ha lo scopo di
rappresentare la 𝑌 in funzione della relazione lineare con una variabile
statistica 𝑋
La correlazione
Applicazioni
Esempio 7. Con riferimento ai dati dell’esercizio 6, è possibile non soltanto
misurare la correlazione tra reddito (la variabile 𝑿) e spesa per consumi (la
variabile 𝒀), attraverso il calcolo del coefficiente di correlazione lineare, che è
un’operazione tipicamente descrittiva, ma è possibile anche modellizzare il
comportamento del consumo in funzione del reddito nel collettivo osservato,
in termini di una funzione lineare del tipo = 𝛼 + 𝛽𝑥
Qual è l’interesse associato a questa procedura? In primo luogo, nota una
relazione lineare, la AJAX può intuire a quanto potrebbe ammontare la spesa
futura per l’acquisto di beni di prima necessità da parte di un nuovo cliente,
disponendo esclusivamente di informazioni circa il suo reddito annuale
Inoltre, come vedremo prossimamente, è possibile, sotto certe condizioni,
riportare questa informazione, rilevata su uno specifico collettivo, all’intera
popolazione (ad esempio, le famiglie italiane), senza necessariamente
intervistare l’intero universo
La correlazione
Applicazioni
Con questa (lunga) premessa, calcoliamo i parametri della retta di regressione
Poiché sappiamo dagli Esempi 4 e 6 che
= 22,75,
= 21,00,
= 22,75,
𝜎 2 = 152,4375 e 𝜎 = 127,50, i parametri della retta di regressione
saranno dati da:
𝜎
127,50
𝛽= 2 =
≅ 0,8364
152,4375
𝜎
𝛼=
− 𝛽 = 21 − 0,8364 × 22,75
= 21 − 19,03 = 1,97
Quindi la retta di regressione è
= 1,97 + 0,8364𝑥
La correlazione
Applicazioni
Come interpretiamo questi risultati? Ricordando che i dati sono espressi in
migliaia di euro, interpretiamo i risultati alla luce di una teoria di riferimento.
Nel nostro caso, la teoria economica ci dice che all’aumentare del reddito,
aumenta il consumo e tale congettura è confermata dall’osservazione: tra
reddito e consumo vi è una relazione crescente che, nel collettivo osservato, è
ben rappresentata dall’equazione
= 1,97 + 0,8364𝑥
Un valore di 𝛼 pari a 1,97 ci dice che, anche in assenza di reddito (e cioè per
𝑥 = 0), un cliente della AJAX spenderà mediamente 1.970 euro (i dati sono
espressi in migliaia di euro ed 𝛼 è espressa nella stessa unità di misura di 𝑿 e
𝒀, quindi 1,97 × 1.000 = 1.970 euro)
Inoltre, all’aumentare del reddito di 1.000 euro, la spesa per consumi si
incrementa in media di 836,40 euro (𝛽, a differenza di 𝛼, è un numero puro;
0,8364 × 1.000 = 836,40 euro): i restanti 163,60 euro, evidentemente,
alimentano i risparmi
La correlazione
Proprietà della retta di regressione
La retta di regressione, come dimostrato in precedenza, ha espressione
=
+
𝜎
𝑥−
𝜎2
Il «cappello» sta ad indicare che i valori ricavati in funzione lineare della 𝑥
non sono quelli osservati, ma quelli teorici che osserveremmo se tra e 𝑥
esistesse una relazione di dipendenza funzionale matematica
La retta di regressione gode di alcune interessanti proprietà
1. La retta di regressione passa per il punto medio (o baricentro) della
distribuzione. Tale affermazione può essere dimostrata agevolmente: è
sufficiente porre l’espressione della retta di regressione nella forma
−
=
𝜎
𝑥−
𝜎2
La correlazione
Proprietà della retta di regressione
2. La covarianza tra 𝑿 ed 𝒆 è pari a zero. Sintetizzare la variabile statistica 𝒀
attraverso il suo legame lineare con 𝑿 comporta, come si è visto, una
perdita informativa che, con riferimento ad una singola osservazione, è
misurata dalla differenza 𝑒𝑖 = 𝑖 − 𝑖 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 . Da un punto di
vista matematico la perdita informativa è a tutti gli effetti una variabile
statistica, quindi ha senso calcolare la covarianza 𝜎 𝑒 : si può dimostrare
che tale quantità, per come è costruita la retta di regressione, è nulla
In formule quindi
𝜎
e quindi 𝑿 ed 𝒆 sono incorrelate
𝑒
=0
La correlazione
Proprietà della retta di regressione
Qual è l’importanza di tale risultato? Torniamo alla relazione
𝑒𝑖 =
𝑖
−
𝑖
= 𝛼 + 𝛽𝑥𝑖 + 𝑒𝑖
𝑖
=
𝑖
− 𝛼 − 𝛽𝑥𝑖
e poniamola nella forma
Cosa ci dice tale relazione? Ci dice che la generica osservazione 𝑖 si
compone di due addendi, di cui il primo 𝛼 + 𝛽𝑥𝑖 è funzione di 𝑥 e
rappresenta la componente di «spiegata» dal suo legame lineare con 𝑥,
mentre il secondo addendo 𝑒𝑖 è una componente residuale, «non
spiegata» dal legame lineare e incorrelata con 𝑥
La correlazione
Proprietà della retta di regressione
Dal fatto che 𝜎 𝑒 = 0 deriva anche un’altra importantissima conseguenza.
Poiché = 𝛼 + 𝛽𝑥 + 𝑒, possiamo scrivere che
𝑉𝑎𝑟
= 𝑉𝑎𝑟 𝛼 + 𝛽𝑥 + 𝑒
= 𝛽 2 𝑉𝑎𝑟 𝑥 + 𝑉𝑎𝑟 𝑒 + 2𝛽 𝐶𝑜𝑣 𝑥, 𝑒
=
Osservando che
𝑖
𝛽 2 𝑉𝑎𝑟
=0
𝑥 + 𝑉𝑎𝑟 𝑒
= 𝛼 + 𝛽𝑥, risulterà anche che
𝑉𝑎𝑟
𝑖
= 𝑉𝑎𝑟 𝛼 + 𝛽𝑥
= 𝛽 2 𝑉𝑎𝑟 𝑥
Nel complesso quindi avremo che
𝑉𝑎𝑟
= 𝑉𝑎𝑟
𝑖
+ 𝑉𝑎𝑟 𝑒
La correlazione
Proprietà della retta di regressione
Quindi, il fatto che 𝑿 ed 𝒆 sono incorrelate ha una conseguenza molto
importante, poiché in questo caso la varianza della variabile 𝒀 può essere
scomposta in due addendi, di cui uno [𝑉𝑎𝑟 𝑖 = 𝑉𝑎𝑟 𝛼 + 𝛽𝑥𝑖 ] è la
parte della varianza di 𝒀 «spiegata» dalla relazione lineare, mentre l’altro
[𝑉𝑎𝑟 𝑒 ] è la componente residuale della varianza di 𝒀 non «spiegata»
dalla relazione lineare
Poiché
𝑉𝑎𝑟
= 𝑉𝑎𝑟
𝑖
+ 𝑉𝑎𝑟 𝑒
risulterà sempre 𝑉𝑎𝑟
≥ 𝑉𝑎𝑟 𝑒 . Se 𝑉𝑎𝑟 𝑒 = 0 la variabilità di 𝒀 è
spiegata interamente dalla relazione lineare con 𝑿
Fly UP