Lezioni 4-7 maggio - Dipartimento di Scienze Sociali ed Economiche
by user
Comments
Transcript
Lezioni 4-7 maggio - Dipartimento di Scienze Sociali ed Economiche
statistica analisi bidimensionale #2 alessandro polli facoltà di scienze politiche, sociologia, comunicazione 29 aprile 2015 Generalità Obiettivo Nella sezione precedente abbiamo esaminato i principali metodi per l’analisi di fenomeni complessi, la cui osservazione in un collettivo comporta la considerazione congiunta di più caratteri qualitativi, limitandoci all’analisi bidimensionale Estendiamo adesso l’analisi al caso di variabili statistiche doppie c.d. miste, cioè composte da una mutabile statistica definita su scala nominale/ordinale e da una variabile definita su scala quantitativa Ovviamente, nel caso di variabili statistiche doppie miste è possibile, come in precedenza, analizzare la distribuzione congiunta delle frequenze (assolute e relative) allo scopo di accertare l’eventuale presenza di connessione tra le due variabili statistiche componenti la variabile statistica doppia Generalità Obiettivo Del resto, il fatto che una delle due variabili componenti sia definita su uno spazio numerico apre la strada a nuove interessanti possibilità di indagine: infatti, se al mutamento di stato della variabile qualitativa si verifica una variazione nei valori della variabile quantitativa (effetto segnalato dalla «polarizzazione» delle osservazioni in precise regioni dell’insieme ℝ), allora significa che le due variabili statistiche non soltanto sono connesse, ma vi è un «qualcosa in più» che lega tra loro le due variabili: in breve, è lo stesso concetto di connessione che va riformulato La proprietà che caratterizza una coppia di variabili statistiche, di cui una qualitativa ed una quantitativa, componenti una variabile statistica doppia mista è indicata come dipendenza in media La dipendenza in media Una prima intuizione Esempio 1. Ipotizziamo di essere interessati ad accertare se il reddito medio delle famiglie italiane è influenzato dalla ripartizione geografica. A tale scopo, rileviamo il reddito medio in un collettivo di 𝑛 = 500 famiglie residenti nelle tre ripartizioni geografiche del territorio nazionale. Il risultato della rilevazione è contenuto nel seguente prospetto: Tabella 1. Prospetto di rilevazione del reddito medio annuo in un collettivo di 500 famiglie. Classi di reddito in migliaia di euro Reddito annuale (000 euro) Ripartizione geografica Totale [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Nord Centro Sud e isole 15 3 32 23 23 44 59 32 49 132 29 19 21 13 6 250 100 150 Totale 50 90 140 180 40 500 La dipendenza in media Una prima intuizione Con riferimento alla precedente tabella, potremmo procedere con l’analisi della connessione e calcolare quindi gli indici 𝜙 2 e 𝑉, tuttavia le due variabili non sono equivalenti su un piano logico, in quanto siamo interessati a verificare se al passaggio dall’una all’altra ripartizione geografica, varia il reddito medio annuo familiare, mentre la relazione inversa non ha giustificazione logica o, semplicemente, non è interessante Quindi, in presenza di variabili statistiche doppie miste, lo studio delle relazioni tra le variabili componenti è asimmetrico, in quanto mira ad accertare la risposta della variabile quantitativa ai cambiamenti di stato della variabile qualitativa (variazione del reddito medio al mutare della ripartizione geografica), o la risposta della variabile qualitativa ad una variazione della variabile quantitativa (attenuazione dei sintomi per una determinata patologia a seguito di un aumento nel dosaggio di un farmaco), ma di solito non mira a verificare la relazione inversa La dipendenza in media Una prima intuizione Con riferimento ai dati riportati nella Tabella 1, per accertare se al passaggio dall’una all’altra ripartizione il reddito medio varia, possiamo calcolare le medie delle quattro distribuzioni univariate del reddito ─ quelle che caratterizzano le tre ripartizioni geografiche e quella riferita all’intero territorio nazionale Se al passaggio dall’una all’altra ripartizione del territorio nazionale il reddito medio non varia e assume un valore prossimo o al limite uguale a quello medio nazionale, ciò indica assenza di legame tra ripartizione geografica e reddito. Poiché per accertare tale proprietà abbiamo fatto riferimento a medie (più precisamente, medie condizionate, come vedremo tra poco), indicheremo tale situazione come assenza di dipendenza in media, o meglio di indipendenza in media Traduciamo la precedente intuizione nei termini che seguono: La dipendenza in media Una prima intuizione Calcoliamo il reddito medio nella ripartizione dell’Italia settentrionale, il che equivale a «lavorare» sui dati della prima riga del quadro centrale della Tabella 1 e applicare la metodologia standard per il calcolo di una media aritmetica. Impostiamo il prospetto di calcolo: Tabella 2. Distribuzione del reddito in Italia settentrionale Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 15 23 59 132 21 0,060 0,092 0,236 0,528 0,084 0,300 1,380 5,900 18,480 3,780 250 1,000 29,840 La dipendenza in media Una prima intuizione Procediamo adesso a determinare il reddito medio con riferimento all’Italia centrale (seconda riga del quadro centrale della Tabella 1), seguendo la stessa procedura. Otteniamo: Tabella 3. Distribuzione del reddito in Italia centrale Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 3 23 32 29 13 0,030 0,230 0,320 0,290 0,130 0,150 3,450 8,000 10,150 5,850 100 1,000 27,600 La dipendenza in media Una prima intuizione Analogamente, calcoliamo il reddito medio che caratterizza l’Italia meridionale e insulare (terza riga del quadro centrale della Tabella 1), impostando il seguente prospetto di calcolo: Tabella 4. Distribuzione del reddito in Italia meridionale e insulare Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 32 44 49 19 6 0,213 0,293 0,327 0,127 0,040 1,067 4,400 8,167 4,433 1,800 150 1,000 19,867 La dipendenza in media Una prima intuizione Infine, determiniamo il reddito medio sull’intero territorio nazionale (riga dei totali della Tabella 1), seguendo la stessa impostazione: Tabella 5. Distribuzione del reddito in Italia Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 50 90 140 180 40 0,100 0,180 0,280 0,360 0,080 0,500 2,700 7,000 12,600 3,600 500 1,000 26,400 Poiché la media aritmetica del reddito in questo caso è stata calcolata utilizzando la distribuzione marginale delle frequenze, la indicheremo come media marginale La dipendenza in media Una prima intuizione Raccogliamo i risultati precedenti in un prospetto di sintesi e rappresentiamoli graficamente: Media marginale Ripartizione geografica Nord Centro Sud e isole 29,840 27,600 19,867 Italia 26,400 Dall’esame della spezzata di regressione, appare evidente che passando da «nord» a «sud» il reddito medio diminuisce Medie condizionate Spezzata di regressione La dipendenza in media Una prima intuizione Con riferimento al grafico precedente, appare chiaro che deve esistere una qualche relazione di dipendenza in media tra «ripartizione geografica» e «reddito» Se viceversa tale situazione non si fosse verificata e ci fossimo trovati in un caso di indipendenza in media, avremmo riscontrato che le medie del reddito nelle tre ripartizioni geografiche sarebbero risultate tutte uguali fra loro e uguali alla media marginale del reddito Notare che nella procedura che abbiamo adottato per il calcolo del reddito medio a livello di ripartizione geografica, le frequenze relative sono state ottenute rapportando le frequenze assolute congiunte ai rispettivi totali riga: in sostanza, abbiamo calcolato le medie utilizzando le frequenze relative condizionate, per cui il reddito medio a livello di ripartizione è a tutti gli effetti una media condizionata La dipendenza in media Definizione Formalizziamo le operazioni di calcolo appena svolte. Consideriamo la generica tabella di contingenza: 𝑿\𝒀 1 … 𝑥1 11 … … 𝑥𝑖 … … 𝑖1 … … ℎ 1 … 1ℎ … … … … … 𝑖 … … … … 𝑖ℎ … 𝑥𝑘 𝑘1 … 𝑘 … 𝑘ℎ 𝑇𝑜𝑡𝑎𝑙𝑒 .1 … . … .ℎ 𝑇𝑜𝑡𝑎𝑙𝑒 1. … 𝑖. … 𝑘. 𝑛 La dipendenza in media Definizione Richiamando le convenzioni adottate nella precedente sezione, nella tabella di contingenza le 𝑘 modalità della variabile 𝑿 sono riportate in fiancata, mentre le ℎ modalità della 𝒀 sono riportate in testata Se restringiamo la nostra attenzione alle singole righe della tabella di contingenza (è il caso considerato nell’esempio), ciò equivale ad introdurre la nozione di variabile statistica condizionata; se consideriamo la 𝑖 −esima modalità del carattere 𝑿 come «evento condizionante» e ci concentriamo sulla distribuzione di 𝒀 in tale partizione, indichiamo con 𝑌 𝑋 = 𝑥𝑖 la variabile 𝒀 condizionata alla modalità 𝑥𝑖 di 𝑿 La dipendenza in media Definizione Indicando con la notazione 𝑌 𝑋= 𝑖 le frequenze relative condizionate associate alla variabile 𝑌 𝑋 = 𝑥𝑖 , queste possono essere calcolate rapportando le frequenze (assolute o relative) congiunte collocate sull’ 𝑖 −esima riga della tabella di contingenza ai rispettivi totali riga. Con riferimento alla 𝑗 −esima modalità della 𝒀, la relativa frequenza condizionata, in simboli, sarà data da 𝑖 = 𝑖 𝑖. Notare che la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 è a tutti gli effetti una variabile statistica univariata, quindi possiamo determinarne l’intero set di parametri di posizione, di variabilità e di forma La dipendenza in media Media condizionata e media marginale In generale, la media condizionata è definita dalla relazione ℎ 𝑌 𝑋= 𝑖 = 𝑖 =1 mentre la media marginale (che nell’esempio è rappresentata dal reddito medio sull’intero territorio nazionale) è definita come ℎ 𝑌 = =1 . La dipendenza in media Media condizionata e media marginale Se si verificasse un caso di indipendenza in media di 𝒀 da 𝑿, allora al variare di 𝑥𝑖 le medie condizionate 𝑌 𝑋= 𝑖 risulterebbero tutte uguali fra loro e pari al valore della media marginale. In simboli: 𝑌 𝑋= 1 = = …= 𝑌 𝑋= 2 𝑌 𝑋= 𝑘 ≡ 𝑌 Dimostriamo tale equivalenza. Abbiamo già visto che in caso di assenza di connessione le distribuzioni condizionate sono tutte uguali tra loro e uguali alla distribuzione marginale. Nel problema in esame, questo equivale a dire che 𝑖 = . La dipendenza in media Media condizionata e media marginale Con riferimento alla generica media condizionata che ℎ 𝑌 𝑋= 𝑖 = =1 𝑌 𝑋= 𝑖 avremo quindi ℎ 𝑖 = =1 . = 𝑌 Da un punto di vista grafico, nel caso di indipendenza in media la spezzata di regressione risulterebbe parallela all’asse delle ascisse e coinciderebbe con la media marginale Viceversa, quanto più vi è dipendenza in media, tanto più le medie condizionate differiranno fra loro e differiranno dalla media marginale. Da un punto di vista grafico, la spezzata di regressione assumerà valori ben distinti, maggiori o minori della media marginale La dipendenza in media Distribuzione della media condizionata Un’interessante proprietà delle medie condizionate è che la loro media aritmetica è pari alla media marginale. Dimostriamolo con riferimento all’esempio precedente, calcolando la media aritmetica delle medie condizionate tramite il seguente prospetto di calcolo: Tabella 6. Prospetto di calcolo della media aritmetica delle medie condizionate Ripartizione geografica 𝑌 𝑋= Nord Centro Sud e isole 29,840 27,600 19,867 Totale 𝑖 𝑖. 𝑖. 𝑌 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 14,920 5,520 5,960 500 1,000 26,400 𝑖. La dipendenza in media Distribuzione della media condizionata Formalmente, scriveremo che 𝑘 𝑖=1 𝑌 𝑋= 𝑖 𝑖. = 𝑌 Questo risultato è importante, in quanto in precedenza abbiamo osservato che all’aumentare del legame di dipendenza in media, le medie condizionate tenderanno a differenziarsi sempre più fra loro e rispetto alla media marginale Ma se la media aritmetica delle medie condizionate è la media marginale, ciò equivale a dire che all’aumentare del legame di dipendenza in media, la dispersione delle medie condizionate attorno alla loro media tende ad aumentare, dispersione che è possibile misurare calcolando la varianza delle medie condizionate La dipendenza in media Distribuzione della media condizionata Con riferimento al nostro esempio, possiamo calcolare la varianza delle medie condizionate organizzando il seguente prospetto di calcolo: Tabella 7. Prospetto di calcolo della varianza delle medie condizionate Ripartizione geografica 𝑌 𝑋= Nord Centro Sud e isole 29,840 27,600 19,867 2 𝑖. 𝑖 Totale 𝑖. 𝑌 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 445,2128 152,3520 118,4053 500 1,000 715,970 𝑖. La varianza delle medie condizionate sarà data da 𝜎𝜇2𝑌 𝑋 𝑘 = 𝑖=1 2 𝑌 𝑋= 𝑖 𝑖. − 2 𝑌 = 715,97 − 26,42 = 19,01 La dipendenza in media Varianza condizionata Sviluppiamo ulteriormente il ragionamento, introducendo il concetto di varianza condizionata Calcoliamo le varianze condizionate in quanto, come si è sottolineato in precedenza, essendo la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 a tutti gli effetti una variabile statistica univariata, possiamo determinarne tutti i parametri di posizione, di variabilità e di forma Abbiamo già determinato le medie delle 3 distribuzioni condizionate. Procediamo adesso a calcolarne le varianze, allo scopo di evidenziare le differenze con cui, nelle tre ripartizioni geografiche considerate, i redditi si disperdono attorno alle rispettive medie condizionate La dipendenza in media Varianza condizionata Con riferimento alla distribuzione del reddito in Italia settentrionale, impostiamo il prospetto per il calcolo della varianza condizionate: Tabella 8. Varianza della distribuzione del reddito in Italia settentrionale Reddito annuale (000 euro) 2 𝑋 = 𝑥1 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 15 23 59 132 21 0,060 0,092 0,236 0,528 0,084 1,50 20,70 147,50 646,80 170,10 250 1,000 986,60 La varianza della prima distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 1 ℎ = =1 𝑋 = 𝑥1 . − 2 𝑌 𝑋= 1 = 986,6 − 29,842 = 96,174 La dipendenza in media Varianza condizionata Procediamo a determinare la varianza condizionata della distribuzione del reddito in Italia centrale, seguendo la stessa procedura: Tabella 9. Varianza della distribuzione del reddito in Italia centrale Reddito annuale (000 euro) 2 𝑋 = 𝑥2 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 3 23 32 29 13 0,030 0,230 0,320 0,290 0,130 0,75 51,75 200,00 355,25 263,25 100 1,000 871,00 La varianza della seconda distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 2 ℎ = =1 𝑋 = 𝑥2 . − 2 𝑌 𝑋= 2 = 871,0 − 27,62 = 109,240 La dipendenza in media Varianza condizionata Analogamente, calcoliamo la varianza condizionata della distribuzione del reddito in Italia meridionale e insulare: Tabella 10. Varianza della distribuzione del reddito in Italia meridionale e insulare Reddito annuale (000 euro) 2 𝑋=𝑥 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 32 44 49 19 6 0,213 0,293 0,327 0,127 0,040 5,33 66,00 204,17 155,17 81,00 150 1,000 511,67 La varianza della terza distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 3 ℎ = 𝑋=𝑥 =1 . − 2 𝑌 𝑋= 3 = 511,67 − 19,8672 = 116,982 La dipendenza in media Distribuzione della varianza condizionata Poiché le varianze condizionate, nel passaggio dall’una all’altra modalità della 𝑿, hanno valori differenti, sintetizziamone la distribuzione attraverso il calcolo della loro media aritmetica: Tabella 11. Prospetto di calcolo della media aritmetica delle varianze condizionate 𝜎𝑌2 𝑋= Ripartizione geografica Nord Centro Sud e isole 𝑖. 𝑖 96,174 109,240 116,982 Totale 𝑖. 𝜎𝑌2 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 48,087 21,848 35,095 500 1,000 105,030 La media aritmetica delle varianze condizionate è ottenuta come 𝑘 𝜎𝑌2 𝑋 = 𝑖=1 𝜎𝑌2 𝑋= 𝑖 𝑖. = 105,03 𝑖. La dipendenza in media Variabilità «between» e variabilità «within» Infine, per ragioni che saranno immediatamente evidenti, ci interessa anche la varianza della variabile statistica 𝒀, di cui riportiamo il prospetto di calcolo: Tabella 12. Prospetto di calcolo per la varianza del reddito Reddito annuale (000 euro) 2 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 50 90 140 180 40 0,100 0,180 0,280 0,360 0,080 2,50 40,50 175,00 441,00 162,00 500 1,000 821,00 La varianza di 𝒀 è data dalla seguente relazione: 2 𝜎𝑌2 ℎ = =1 2 . − 2 𝑌 = 821 − 26,42 = 124,04 La dipendenza in media Variabilità «between» e variabilità «within» Perché ci siamo complicati la vita calcolando i parametri distributivi delle medie e delle varianze condizionate? Per un motivo molto semplice: abbiamo appena calcolato la varianza marginale della variabile 𝒀, verificando che è pari a 𝜎𝑌2 = 124,04 Tale valore misura la dispersione del reddito a livello nazionale, a prescindere dalla conoscenza di come il reddito si distribuisce nelle ripartizioni geografiche in cui si articola il territorio italiano La dipendenza in media Variabilità «between» e variabilità «within» Adesso, sommiamo la varianza delle medie condizionate 𝜎𝜇2𝑌 𝑋 e la media delle varianze condizionate 𝜎2 ottenute in precedenza: 𝑌𝑋 𝜎𝜇2𝑌 𝑋 + 𝜎𝑌2 𝑋 = 19,01 + 105,03 = 124,04 ≡ 𝜎𝑌2 Quindi la varianza della variabile 𝒀, note le sue relazioni con una seconda variabile 𝑿 (che può essere qualitativa o quantitativa), può essere decomposta in due componenti, di cui una misura la variabilità «fra» distribuzioni condizionate (between groups), mentre l’altra misura la variabilità media «entro» le distribuzioni condizionate (within groups) La dipendenza in media Variabilità «between» e variabilità «within» Questa informazione è di estremo interesse. Infatti, se osservassimo la distribuzione del reddito nazionale nel complesso, quindi senza considerare le differenze tra ripartizioni territoriali, il calcolo della misura di dispersione ci fornirebbe una informazione «descrittiva» senza ulteriori connotazioni Nota la distribuzione del reddito tra ripartizioni territoriali, viceversa, siamo in grado di risalire alle «cause» della dispersione osservata a livello nazionale: un reddito medio che differisce tra ripartizioni territoriali (misurato dalla dispersione delle medie condizionate attorno al valore medio del reddito rilevato a livello nazionale: varianza between) e una diversa distribuzione del reddito all’interno delle singole ripartizioni territoriali (di cui consideriamo un valore medio: varianza within) La dipendenza in media Proprietà della media condizionata. Riepilogo Generalizziamo i risultati ottenuti enunciando le due proprietà della media condizionata, che abbiamo già dimostrato con un procedimento induttivo 1. Proprietà della media iterata. Data una variabile statistica doppia 𝑿, 𝒀 , il valore medio delle medie condizionate 𝑌 𝑋 è uguale al valore medio della variabile 𝒀. In simboli: 𝑘 𝑌 = 𝑖=1 𝑌 𝑋= 𝑖 𝑖. 2. Proprietà di decomposizione della varianza. La varianza della variabile 𝑌 è pari alla somma della varianza delle medie condizionate (varianza between) e della media delle varianze condizionate (o varianza within). In simboli: 𝜎𝑌2 = 𝜎𝜇2𝑌 𝑋 + 𝜎𝑌2 𝑋 La dipendenza in media La misura di dipendenza in media 𝜼𝟐 La seconda proprietà della media condizionata ci fornisce anche un’indicazione per costruire una misura di dipendenza in media. Infatti, poiché all’aumentare della dipendenza in media aumenta la variabilità «fra» distribuzioni condizionate, una misura di dipendenza in media è data dal rapporto 𝜂𝑌2 𝑋 = 𝜎𝜇2𝑌 𝑋 𝜎𝑌2 in cui al numeratore figura la varianza delle medie condizionate (o varianza between), mentre al denominatore figura la varianza totale della 𝒀. La misura 𝜂𝑌2 𝑋 è indicata come rapporto di correlazione di Pearson Come di consueto, analizziamo i casi limite, cioè gli estremi dell’intervallo di definizione di 𝜂𝑌2 𝑋 La dipendenza in media La misura di dipendenza in media 𝜼𝟐 • 𝜂𝑌2 𝑋 = 0 se e solo se è nullo il numeratore del rapporto, cioè se 𝜎𝜇2𝑌 𝑋 = 0, circostanza che si verifica, come sappiamo, in caso di indipendenza in media, cioè di assenza di legame tra 𝑿 e 𝒀 • 𝜂𝑌2 𝑋 = 1 se e solo se 𝜎𝜇2𝑌 𝑋 = 𝜎𝑌2 , cioè quando il numeratore e il denominatore del rapporto sono uguali, circostanza che si verifica se la seconda componente in cui può essere decomposta la varianza è nulla e quindi 𝜎2 = 0. In questo caso 𝑌𝑋 l’unica «causa» di dispersione è la variabilità «fra» distribuzioni condizionate, mentre in media non vi è dispersione «entro» le distribuzioni. Un esempio si ha quando ad ogni modalità della 𝑿 corrisponde un solo valore di 𝒀, per cui le varianza condizionate sono tutte nulle e quindi è nulla anche la loro media • In tutti i casi intermedi si avrà che 0 < 𝜂𝑌2 𝑋 < 1. Si tratta di un’intera gamma di situazioni in cui il legame tra 𝑿 e 𝒀 contribuirà in maniera crescente a spiegare la variabilità del carattere 𝒀 La dipendenza in media La misura di dipendenza in media 𝜼𝟐 Con riferimento al precedente esempio, essendo 𝜎𝑌2 = 124,04 e 𝜎𝜇2𝑌 𝑋 = 19,01 la misura di dipendenza in media sarà data da 𝜂𝑌2 𝑋 = 19,01 ≅ 0,153 124,04 Ne deduciamo che il legame di dipendenza in media di 𝒀 da 𝑿 è alquanto debole, in quanto la principale causa di variabilità della 𝒀 deriva dalla distribuzione del reddito all’interno delle singole ripartizioni territoriali ( 𝜎2 = 105,03), mentre 𝑌𝑋 l’influsso esercitato sulla reddito dalla diversa appartenenza territoriale spiega appena il 15,3% della variabilità complessiva La dipendenza in media La misura di dipendenza in media 𝜼𝟐 Esempio 2. Variabili statistiche doppie quantitative Generalità L’ultimo tema che affrontiamo è l’analisi bidimensionale di variabili statistiche doppie quantitative, cioè tali che 𝑿, 𝒀 ∈ ℝ2 Analogamente a quanto osservato in precedenza, anche nel caso di variabili statistiche doppie quantitative possiamo analizzare la distribuzione congiunta delle frequenze (assolute e relative) per accertare l’eventuale presenza di connessione, così come studiare la dipendenza in media Tuttavia, a differenza di quanto visto per le variabili miste, nel caso di una variabile statistica doppia quantitativa lo studio della dipendenza in media non è asimmetrico, in quanto non soltanto possiamo accertare l’eventuale presenza di dipendenza in media di 𝒀 da 𝑿, ma verificare tale proprietà anche sulla relazione inversa Variabili statistiche doppie quantitative Generalità Naturalmente, si applicano le usuali avvertenze di carattere logico: sarà la natura del problema analizzato a fornirci indicazioni su cosa studiare in una distribuzione doppia e su quale metodologia adottare Ad esempio, se rileviamo reddito mensile e spese per consumi in un collettivo di 𝑛 famiglie, ha senso studiare la relazione che lega il reddito mensile disponibile (variabile indipendente, in questo caso) al consumo mensile (inteso come variabile dipendente), mentre non ha senso logico studiare la relazione inversa (poiché con riferimento alle singole unità osservata, il livello di consumo non ha effetti immediati e diretti sul livello del reddito), quindi tale analisi, pur essendo possibile da un punto di vista strettamente matematico, non è motivata su un piano logico Variabili statistiche doppie quantitative Generalità Sempre rimanendo in tema di reddito e consumo, individuato il «verso» della relazione e quindi chiarito qual è la variabile indipendente (il reddito) e quale la variabile dipendente (il consumo), rimane da risolvere il problema della scelta di un’idonea metodologia di analisi A questo punto si apre una fase piuttosto delicata, poiché il rischio di adottare metodologie di analisi inappropriate è elevato. La premessa fondamentale è che sebbene il mondo reale non segua logiche lineari, ragionare in termini di linearità spesso semplifica l’analisi senza rivelarsi di per sé un’inaccettabile approssimazione. Fatto sta che se una teoria (economica, in questo caso) consolidata e universalmente accettata afferma che tra reddito e consumo il legame è lineare, sceglieremo tecniche adatte a verificare l’esistenza di legami lineari (ad esempio, l’analisi di correlazione, come vedremo tra poco), fatta salva la possibilità di percorrere strade alternative se l’analisi di correlazione ci portasse ad escludere l’esistenza di legami lineari Variabili statistiche doppie quantitative Generalità Le principali tecniche di analisi bidimensionale applicabili nel caso di variabili statistiche doppie quantitative sono: • L’analisi di concordanza o correlazione, il cui obiettivo è accertare l’intensità e il verso del legame lineare eventualmente esistente tra due variabili statistiche quantitative (componenti o meno una variabile statistica doppia) • L’analisi di regressione, che è un modello di dipendenza condizionata, il cui obiettivo è individuare la specificazione funzionale della relazione tra un set di covariate (o variabili indipendenti) ed una variabile risposta (o variabile dipendente); naturalmente, ci occuperemo in maniera approfondita solo del caso più semplice, rappresentato da una variabile risposta che varia in funzione di una variabile indipendente Analisi della concordanza Generalità Ipotizziamo di analizzare due variabili statistiche 𝑿 e 𝒀, definite su scala quantitativa discreta o continua, allo scopo di accertare se tra le due variabili sussista un legame approssimativamente lineare Il problema può essere impostato nei termini seguenti: • se al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente varia nello stesso senso, allora deve esistere una qualche relazione lineare diretta tra 𝑿 e 𝒀 e diremo che tra 𝑿 e 𝒀 vi è concordanza; • se viceversa al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente varia in senso opposto (cioè se al crescere di 𝑿, 𝒀 in media diminuisce), allora il legame lineare è di tipo inverso e diremo che tra 𝑿 e 𝒀 vi è discordanza; • se infine al variare di 𝑿 nel suo insieme di definizione, 𝒀 mediamente rimane costante, ne deduciamo che vi è assenza di legame lineare e quindi diremo che 𝑿 e 𝒀 vi è indifferenza Analisi della concordanza Generalità Formalmente, date due variabili statistiche 𝑿 e 𝒀, definiamo concordanza la proprietà per la quale a ciascun valore della prima variabile corrisponda con una certa «regolarità» (e quindi in media) uno e un solo valore dell’altra variabile L’analisi della concordanza non va confusa con l’analisi di connessione. Infatti, può accadere che tra due variabili vi sia dipendenza funzionale matematica (cioè connessione massima), mentre la concordanza è nulla Ad esempio, nel caso della funzione = 𝑥 2 , all’aumentare di la 𝑥 assume valori costanti in modulo e in media pari a 0, quindi tra 𝑥 e vi è indifferenza Analisi della concordanza Generalità Inoltre non dobbiamo mai confondere i due concetti di indipendenza e di indifferenza, poiché • quando tra due variabili 𝑿 e 𝒀 vi è indipendenza (intesa come assenza di qualsiasi legame di connessione), allora vi è anche indifferenza (intesa come assenza di legame lineare), ma non è vero il contrario • infatti, se tra due variabili 𝑿 e 𝒀 vi è indifferenza, non possiamo escludere che esistano relazioni di natura non lineare o addirittura ipotesi di connessione massima non lineare Analisi della concordanza Una prima intuizione Esempio 3. La seguente tabella a doppia entrata mette in relazione l’andamento di due generiche variabili statistiche discrete, riportandone la distribuzione delle frequenze relative congiunte: Tabella 13. Rappresentazione di una generica variabile statistica doppia discreta 𝑥𝑖 \ 1 2 3 4 5 𝑖. 1 2 3 4 5 0,23 0,07 - 0,02 0,21 0,07 - 0,18 0,02 - 0,05 0,07 - 0,01 0,07 0,25 0,28 0,30 0,10 0,07 . 0,30 0,30 0,20 0,12 0,08 1,00 𝑖 Analisi della concordanza Una prima intuizione Possiamo rappresentare l’andamento della distribuzione delle frequenze relative congiunte attraverso un diagramma «a bolle», una particolare variante del diagramma scatter plot in cui i valori delle frequenze relative congiunte sono proporzionali alle aree delle circonferenze che individuano i singoli punti-determinazione 𝑥𝑖 , Analisi della concordanza Una prima intuizione In base ai dati della Tabella 12, possiamo studiare la dipendenza in media di da 𝑥, osservando come varia la media condizionata al variare di 𝑥 nel suo insieme di definizione. Per svolgere tale analisi, dobbiamo determinare le distribuzioni condizionate di 𝑌 𝑋 = 𝑥𝑖 . Rapportando ogni elemento del quadro centrale al rispettivo totale riga otteniamo: Tabella 14. Distribuzioni condizionate della variabile statistica y 𝑥𝑖 \ 𝑥 = 𝑥𝑖 1 2 3 4 5 𝑖. 1 2 3 4 5 0,92 0,25 - 0,08 0,75 0,23 - 0,60 0,20 - 0,17 0,70 - 0,10 1,00 1,00 1,00 1,00 1,00 1,00 . 0,30 0,30 0,20 0,12 0,08 1,00 Analisi della concordanza Una prima intuizione Ricavate le distribuzioni condizionate 𝑖 , è immediato verificare che per ogni distribuzione condizionata vale la relazione 𝑖 ≠ . e quindi vi è dipendenza in media di 𝒀 da 𝑿. Dimostriamo l’esistenza di dipendenza in media calcolando le medie condizionate . Con riferimento alla variabile condizionata 𝑌 𝑋 = 1, la corrispondente media condizionata è pari a Tabella 15.1 Prospetto di calcolo della media di Y|X = 1 = 𝑥1 1 2 3 4 5 𝑖 𝑥 0,92 0,08 0,00 0,00 0,00 0,92 0,16 0,00 0,00 0,00 1,00 1,08 𝑖 Analisi della concordanza Una prima intuizione Ripetiamo il procedimento rispetto alle variabili 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 2, 3, le cui medie condizionate sono date rispettivamente da Tabella 15.2 Prospetto di calcolo della media di Y|X = 2 = 𝑥2 1 2 3 4 5 𝑖 𝑥 0,25 0,75 0,00 0,00 0,00 0,25 1,50 0,00 0,00 0,00 1,00 1,75 Tabella 15.3 Prospetto di calcolo della media di Y|X = 3 𝑖 =𝑥 1 2 3 4 5 𝑖 𝑥 0,00 0,23 0,60 0,17 0,00 0,00 0,47 1,80 0,67 0,00 1,00 2,93 𝑖 Analisi della concordanza Una prima intuizione In ultimo, con riferimento alle variabili condizionate 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 4, 5, le rispettive medie condizionate sono date rispettivamente da Tabella 15.4 Prospetto di calcolo della media di Y|X = 4 =𝑥 1 2 3 4 5 𝑖 𝑥 0,00 0,00 0,20 0,70 0,10 0,00 0,00 0,60 2,80 0,50 1,00 3,90 Tabella 15.5 Prospetto di calcolo della media di Y|X = 5 𝑖 =𝑥 1 2 3 4 5 𝑖 𝑥 0,00 0,00 0,00 0,00 1,00 0,00 0,00 0,00 0,00 5,00 1,00 5,00 𝑖 Analisi della concordanza Una prima intuizione Riassumiamo i precedenti risultati in un nuovo prospetto e calcoliamo la media delle medie condizionate, ricordando che in generale vale l’uguaglianza 𝑘 = 𝑖=1 Nel complesso, poiché i valori delle medie condizionate aumentano all’aumentare di 𝑥, la variabile statistica 𝒀 è dipendente in media da 𝑿 𝑖 𝑖. Tabella 15.6 Prospetto di calcolo della media di Y 𝑖. 1,08 1,75 2,93 3,90 5,00 𝑖. 0,25 0,28 0,30 0,10 0,07 0,27 0,49 0,88 0,39 0,35 1,00 2,38 Analisi della concordanza Una prima intuizione Nel caso di una variabile statistica doppia quantitativa, a differenza di quanto osservato nel caso di variabili miste, possiamo analizzare anche la relazione inversa, cioè la dipendenza in media della variabile 𝑿 dalla variabile 𝒀. In questo senso, l’analisi della concordanza è simmetrica. Otteniamo le distribuzioni condizionate della variabile 𝑋 𝑌 = rapportando ciascuna frequenza relativa congiunta al rispettivo totale colonna: Tabella 16. Distribuzioni condizionate della variabile statistica x 𝑥𝑖 \ 1 2 3 4 5 𝑖. 1 2 3 4 5 0,77 0,23 - 0,07 0,70 0,23 - 0,90 0,10 - 0,42 0,58 - 0,13 0,88 0,25 0,28 0,30 0,10 0,07 . 1,00 1,00 1,00 1,00 1,00 1,00 𝑖 Analisi della concordanza Una prima intuizione Ricavate le distribuzioni condizionate 𝑖 , anche in questo caso per ogni distribuzione condizionata vale la relazione 𝑖 ≠ 𝑖. , quindi vi è dipendenza in media di 𝑿 da 𝒀. Dimostriamo l’esistenza di dipendenza in media calcolando le medie condizionate . Con riferimento alla variabile condizionata 𝑋 𝑌 = 1, la corrispondente media condizionata è pari a Tabella 17.1 Prospetto di calcolo della media di X|Y = 1 𝑥 = 1 2 3 4 5 1 𝑖 𝑥 𝑖 0,77 0,23 0,00 0,00 0,00 0,77 0,47 0,00 0,00 0,00 1,00 1,23 Analisi della concordanza Una prima intuizione Replichiamo il procedimento per le variabili 𝑋 𝑌 = condizionate sono date rispettivamente da Tabella 17.2 Prospetto di calcolo della media di X|Y = 2 𝑥 = 1 2 3 4 5 2 𝑖 𝑥 𝑖 0,07 0,70 0,23 0,00 0,00 0,07 1,40 0,70 0,00 0,00 1,00 2,17 ; 𝑗 = 2, 3, le cui medie Tabella 17.3 Prospetto di calcolo della media di X|Y = 3 𝑥 = 1 2 3 4 5 𝑖 𝑥 𝑖 0,00 0,00 0,90 0,10 0,00 0,00 0,00 2,70 0,40 0,00 1,00 3,10 Analisi della concordanza Una prima intuizione Infine, determiniamo le medie delle variabili condizionate 𝑌 𝑋 = 𝑥𝑖 ; 𝑖 = 4, 5, date rispettivamente da Tabella 17.4 Prospetto di calcolo della media di X|Y = 4 𝑥 = 1 2 3 4 5 𝑖 𝑥 𝑖 0,00 0,00 0,42 0,58 0,00 0,00 0,00 1,25 2,33 0,00 1,00 3,58 Tabella 17.5 Prospetto di calcolo della media di X|Y = 5 𝑥 = 1 2 3 4 5 𝑖 𝑥 𝑖 0,00 0,00 0,00 0,13 0,88 0,00 0,00 0,00 0,50 4,38 1,00 4,88 Analisi della concordanza Una prima intuizione Come abbiamo già fatto in precedenza, riassumiamo i risultati ottenuti in un nuovo prospetto e calcoliamo la media delle medie condizionate, ricordando che in generale vale l’uguaglianza ℎ = =1 Il risultato è in accordo con quello ottenuto rispetto alle medie condizionate : infatti, anche in questo caso i valori delle medie condizionate aumentano all’aumentare di , quindi la variabile statistica 𝑿 è dipendente in media da 𝒀 Notare che in entrambi i casi, la relazione tra le due variabili è di tipo crescente, quindi è appropriato parlare di simmetria anche con riferimento ai risultati 𝑗 . Tabella 17.6 Prospetto di calcolo della media di X . 1,23 2,17 3,10 3,58 4,88 . 0,30 0,30 0,20 0,12 0,08 0,37 0,65 0,62 0,43 0,39 1,00 2,46 Analisi della concordanza La covarianza Ma è sensato procedere in questa maniera? Non sarebbe più facile valutare il segno della relazione tra le due variabili statistiche doppie senza passare dal calcolo della distribuzione delle medie condizionate? La valutazione del segno e dell’intensità della relazione tra due variabili statistiche quantitative può essere svolta solo nel caso di legami lineari, introducendo il concetto di covarianza Definiamo covarianza la misura del grado in cui due variabili statistiche 𝑿 e 𝒀, entrambe definite su ℝ, sono legate linearmente, intendendo per legame lineare la tendenza della 𝑿, nel caso di concordanza, ad assumere valori elevati in corrispondenza a valori elevati della 𝒀, o viceversa valori prossimi all’estremo inferiore del suo insieme di definizione in corrispondenza a valori elevati della 𝒀, in caso di discordanza Analisi della concordanza La covarianza La misura di covarianza deve risultare indipendente dal sistema di riferimento cartesiano (o detto in altri termini deve risultare invariante rispetto a traslazioni). Tale proprietà può essere ottenuta traslando gli assi dall’origine 0, 0 alla nuova origine , Dal punto di vista analitico, la traslazione dell’origine verso il baricentro della variabile statistica doppia comporta l’introduzione delle variabili scarto 𝑠 = 𝑥− e𝑠 = − Poiché abbiamo calcolato in precedenza che = 2,46 e = 2,38, è agevole costruire una tabella a doppia entrata in cui figurino non le variabili statistiche 𝑿 e 𝒀, ma le relative variabili scarto 𝑠 e 𝑠 Analisi della concordanza La covarianza La tabella a doppia entrata assumerà la seguente struttura: Tabella 18. Rappresentazione di una generica variabile statistica scarto doppia discreta 𝑠 \𝑠 -1,38 -0,38 0,62 1,62 2,62 𝑖. -1,46 -0,46 0,54 1,54 2,54 0,23 0,07 - 0,02 0,21 0,07 - 0,18 0,02 - 0,05 0,07 - 0,01 0,07 0,25 0,28 0,30 0,10 0,07 . 0,30 0,30 0,20 0,12 0,08 1,00 Analisi della concordanza La covarianza Da un punto di vista grafico, la precedente distribuzione può essere rappresentata graficamente tramite il seguente diagramma «a bolle»: II I III IV Analisi della concordanza La covarianza Moltiplicando tra loro le nuove coordinate, otteniamo i prodotti 𝑠 𝑠 = 𝑥− − Il segno di tali prodotti è positivo in corrispondenza del primo e del terzo quadrante, negativo nel secondo e nel quarto quadrante Quindi se vi è una prevalenza di prodotti di segno positivo, la somma di tutti i prodotti assumerà segno positivo; viceversa, in caso di prevalenza di prodotti di segno negativo, la somma dei prodotti assumerà segno negativo Indichiamo la somma ponderata dei prodotti delle variabili scarto come covarianza: 𝑘 𝜎 ℎ = 𝑖=1 =1 𝑥𝑖 − − 𝑖 Analisi della concordanza La covarianza La covarianza quindi è una misura definita sull’insieme dei numeri reali ℝ. In particolare, facendo riferimento anche al precedente diagramma, avremo che • 𝜎 > 0 se vi è una prevalenza di valori delle variabili scarto nel primo e nel terzo quadrante, per cui i prodotti con segno positivo eccedono i prodotti con segno negativo e quindi la somma dei prodotti, nel complesso, ha segno positivo (concordanza) • 𝜎 < 0 se al contrario vi è una prevalenza di valori delle variabili scarto nel secondo e nel quarto quadrante, per cui i prodotto con segno negativo eccedono quelli con segno positivo, determinando nel complesso un valore negativo della somma dei prodotti tra variabili scarto (discordanza) • 𝜎 = 0 se le coppie-determinazione si distribuiscono omogeneamente tra quadranti e quindi la somma algebrica fra prodotti con segno positivo e quelli con segno negativo è nel complesso nulla (indifferenza) Analisi della concordanza La covarianza Con riferimento alla distribuzione riportata nella Tabella 18, calcoliamo la covarianza come somma ponderata di prodotti tra variabili scarto, strutturando il seguente prospetto di calcolo: Tabella 19. Prospetto di calcolo della covarianza come somma ponderata di prodotti tra variabili scarto − 𝑠 \𝑠 -1,46 -0,46 0,54 1,54 2,54 𝑥𝑖 − 𝑥𝑖 − − 𝑖 -1,38 -0,38 0,62 1,62 2,62 0,4634 0,0444 - 0,0111 0,0367 0,0144 - 0,0603 0,0191 - 0,0437 0,1746 - 0,0403 0,4658 Analisi della concordanza La covarianza Gli elementi che figurano nel quadro centrale del precedente prospetto sono calcolati in base alla relazione 𝑥𝑖 − − 𝑖 Quindi, con riferimento al primo elemento in alta a sinistra, ricordando che la frequenza relativa congiunta corrispondente è 11 = 0,23 (cfr. Tabella 18), il valore del prodotto ponderato sarà pari a −1,46 × −1,38 × 0,23 = 0,4634 Procedendo in maniera analoga per tutti gli altri prodotti, si ricavano i risultati raccolti nel quadro centrale della Tabella 19 Analisi della concordanza La covarianza Infine, se sommiamo tutti gli elementi ottenuti con la procedura appena descritta otteniamo la covarianza: 𝑘 𝜎 ℎ = 𝑖=1 =1 𝑥𝑖 − − 𝑖 = 0,4634 + 0,0111 + 0,0444 + … + 0,4658 = 1,3452 Poiché la covarianza è pari a 𝜎 = 1,3452 > 0, il legame tra le variabili statistiche 𝑿 e 𝒀 è un legame di concordanza, nel senso che all’aumentare della 𝑿 la 𝒀 mediamente aumenta e viceversa Naturalmente, non possiamo dire nulla di più circa l’intensità del legame di tipo lineare eventualmente presente tra le due variabili, in quanto non disponiamo di un valore teorico massimo rispetto al quale confrontare il valore di covarianza appena calcolato Analisi della concordanza La covarianza Nel caso in cui le due variabili statistiche siano caratterizzate entrambe da una distribuzione unitaria di frequenze assolute, allora 𝑘 = ℎ = 𝑛 e la precedente espressione può essere riformulata come 𝑘 𝜎 ℎ = 𝑛 𝑖=1 𝑛 =1 = 𝑖=1 1 = 𝑛 𝑛 =1 𝑖= 𝑥𝑖 − − 𝑥𝑖 − 𝑥𝑖 − − 𝑖 𝑖 1 𝑛 − Ad ogni modo, con questa formulazione in termini di somma di prodotti fra variabili scarto, il calcolo della covarianza può risultare eccessivamente laborioso, ma può essere notevolmente semplificato osservando che Analisi della concordanza La covarianza 𝑘 𝜎 ℎ = 𝑖=1 𝑘 =1 ℎ = 𝑖=1 𝑘 =1 ℎ 𝑖=1 𝑘 =1 ℎ 𝑖=1 =1 = = 𝑘 ℎ 𝑖=1 𝑘 =1 ℎ 𝑖=1 =1 = = 𝑥𝑖 − 𝑥𝑖 − − 𝑥𝑖 𝑖 − + 𝑘 𝑥𝑖 𝑖 ℎ − 𝑖=1 =1 𝑘 𝑥𝑖 𝑖 𝑖 − 𝑖=1 𝑘 𝑥𝑖 𝑖 =1 =𝑓𝑖. 𝑥𝑖 𝑖 − 𝑥𝑖 𝑖 − − − 𝑖=1 ℎ 𝑥𝑖 + ℎ ℎ 𝑖 𝑘 − =1 𝑖=1 =𝑓.𝑗 ℎ 𝑖=1 =1 𝑘 + 𝑖 =1 𝑘 𝑖 𝑖 ℎ + 𝑖=1 =1 =1 𝑖 Analisi della concordanza La covarianza in caso di indipendenza Quindi la covarianza può essere scomposta nella differenza tra la somma ponderata dei prodotti tra le 𝑘 modalità assunte dalla variabile 𝑿 e le ℎ modalità della 𝒀 e il prodotto fra la media della 𝑿 e quella della 𝒀: 𝑘 𝜎 ℎ = 𝑖=1 =1 𝑥𝑖 𝑖 − Notare che la scomposizione della covarianza è analoga a quella applicata, nel caso di variabili statistiche univariate, alla varianza; infatti, come si ricorderà, 𝜎2 𝑘 = 𝑥𝑖2 𝑖 − 𝑖=1 2 Analisi della concordanza La covarianza Calcoliamo la covarianza applicando il metodo dei momenti appena descritto. Organizziamo il seguente prospetto di calcolo: Tabella 20. Prospetto di calcolo della covarianza con il metodo dei momenti 𝑥𝑖 \ 𝑖 1 2 3 4 5 𝑥𝑖 𝑥𝑖 1 0,2300 0,1400 - 𝑖 2 0,0400 0,8400 0,4200 - 3 1,6200 0,2400 - 4 0,6000 1,1200 - 5 0,2000 1,7500 Analisi della concordanza La covarianza In questo caso, calcoliamo gli elementi che figurano nel quadro centrale del precedente prospetto tramite la relazione 𝑥𝑖 𝑖 Ad esempio, con riferimento al primo elemento in alta a sinistra, il valore del prodotto ponderato sarà pari a 1 × 1 × 0,23 = 0,2300 Procedendo in maniera analoga per tutti gli altri prodotti, si ricavano i risultati raccolti nel quadro centrale della Tabella 20 Analisi della concordanza La covarianza Il valore della covarianza, con il metodo dei momenti, è ottenuto sommando tutti gli elementi ottenuti con la procedura appena descritta e sottraendo a tale quantità il prodotto tra le medie aritmetiche Poiché risulta 𝑘𝑖=1 ℎ=1 𝑥𝑖 𝑖 = 7,2, ricordando che e = 2,38 (cfr. Tabella 15.6), otteniamo 𝑘 𝜎 ℎ = 𝑖=1 = 2,46 (cfr. Tabella 17.6) =1 𝑥𝑖 𝑖 − = 7,2 − 2,46 × 2,38 = 7,2 − 5,8548 = 1,3452 Analisi della concordanza La covarianza in caso di indipendenza In ultimo, verifichiamo qual è il valore della covarianza nel caso di indipendenza (da non confondere con indifferenza). Prima di procedere alla formalizzazione, osserviamo che 𝑿 e 𝒀 sono indipendenti, ciò implica assenza di qualsiasi legame, sia di tipo lineare, sia non lineare, quindi anche in questo caso deve risultare che 𝜎 = 0 Infatti, in caso di indipendenza, la frequenza relativa congiunta può essere espressa in termini di prodotto tra i corrispondenti valori delle frequenze relative marginali delle variabili 𝑿 e 𝒀 e quindi 𝑖 = 𝑖. . Analisi della concordanza La covarianza in caso di indipendenza In caso di indipendenza, quindi, avremo che 𝑘 𝜎 ℎ = 𝑖=1 𝑘 =1 𝑖=1 𝑘 𝑖=1 − 𝑖 𝑥𝑖 − − 𝑖. . ℎ = = 𝑥𝑖 − =1 ℎ 𝑥𝑖 − =0 𝑖. − =1 . =0 =0 Notare che se due variabili statistiche sono indipendenti, allora 𝜎 = 0, mentre se 𝜎 = 0, allora non necessariamente le due variabili statistiche sono indipendenti, ma sono certamente indifferenti o incorrelate Analisi della concordanza Proprietà della covarianza La covarianza è un operatore lineare (come la media aritmetica); ne derivano alcune interessanti proprietà: • Simmetria. La covarianza tra 𝑿 e 𝒀 è uguale alla covarianza tra 𝒀 e 𝑿. In simboli: 𝜎 =𝜎 La proprietà di simmetria deriva dalla corrispondenza biunivoca esistente tra le due variabili statistiche nell’ipotesi di legame lineare • Covarianza di una traslazione. Dato un numero 𝑎 ∈ ℝ, ipotizziamo di traslare 𝑿 in misura pari ad 𝑎 e poniamo quindi 𝒁 = 𝑿 + 𝑎. La traslazione della variabile 𝑿 non altera il valore della covarianza tra 𝑿 e 𝒀. Formalmente: 𝒁 = 𝑿 + 𝑎 ⟹ 𝜎𝑧 = 𝜎 Analisi della concordanza Proprietà della covarianza Dimostrazione. Ricordando che una traslazione è una trasformazione lineare, risulterà 𝑧 = + 𝑎. Avremo quindi che 𝜎𝑧 1 = 𝑛 1 = 𝑛 1 = 𝑛 1 = 𝑛 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 𝑧𝑖 − 𝑧 𝑖 − 𝑥𝑖 + 𝑎 − +𝑎 𝑥𝑖 + 𝑎 − 𝑥𝑖 − −𝑎 𝑖 − 𝑖 𝑖 − =𝜎 − Analisi della concordanza Proprietà della covarianza • Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ, ipotizziamo di traslare 𝑿 in misura pari ad 𝑎 e 𝒀 in misura pari ad 𝑏; poniamo quindi 𝒁 = 𝑿 + 𝑎 e 𝑾 = 𝒀 + 𝑏. La traslazione di 𝑿 e 𝒀 non altera il valore della covarianza. Formalmente: 𝒁 = 𝑿 + 𝑎, 𝑾 = 𝒀 + 𝑏 ⟹ 𝜎𝑧𝑤 = 𝜎 La dimostrazione è assolutamente analoga alla precedente e la omettiamo per agilità di trattazione Analisi della concordanza Proprietà della covarianza • Covarianza di una trasformazione di scala. Date due variabili statistiche 𝑿 e 𝒀 e un numero 𝑏 ∈ ℝ, ipotizziamo di moltiplicare 𝑿 per la quantità 𝑏 e poniamo quindi 𝒁 = 𝑏𝑿. La trasformazione di scala della variabile 𝑿 determina una variazione della covarianza tra 𝑿 e 𝒀 in misura pari a 𝑏. Si avrà quindi che 𝒁 = 𝑏𝑿 ⟹ 𝜎𝑧 = 𝑏𝜎 Analisi della concordanza Proprietà della covarianza Dimostrazione. Poiché la trasformazione di scala appartiene alla classe delle trasformazioni lineari, risulterà 𝑧 = 𝑏 . Avremo quindi che 𝜎𝑧 𝑛 1 = 𝑛 1 = 𝑛 =𝑏 𝑖=1 𝑛 1 𝑛 𝑖=1 𝑛 𝑧𝑖 − 𝑧 𝑖 − 𝑏𝑥𝑖 − 𝑏 𝑖 − 𝑥𝑖 − 𝑖 − 𝑖=1 = 𝑏𝜎 Analisi della concordanza Proprietà della covarianza • Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ, ipotizziamo di trasformare la scala di 𝑿 in misura pari ad 𝑎 e la scala di 𝒀 in misura pari ad 𝑏; si avrà quindi che 𝒁 = 𝑎𝑿 e 𝑾 = 𝑏𝒀. La trasformazione di scala di 𝑿 e 𝒀 determina una variazione della covarianza tra 𝑿 e 𝒀 in misura pari a 𝑎𝑏. Formalmente: 𝒁 = 𝑎𝑿, 𝑾 = 𝑏𝒀 ⟹ 𝜎𝑧𝑤 = 𝑎𝑏𝜎 Analisi della concordanza Applicazioni Esempio 4. Ipotizziamo che la AJAX abbia rilevato il reddito familiare annuo 𝑿 e la spesa annua per acquisto di beni di prima necessità 𝒀 in un collettivo di 𝑛 = 200 clienti registrati sul sito web aziendale e che abbia presentato i risultati della rilevazione nel seguente prospetto: Tabella 21. Prospetto di rilevazione del reddito medio annuo e della spesa annua per acquisto di generi di prima necessità. Dati in migliaia di euro 𝑋\ [0, 10) [10, 20) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 30 15 5 - 5 35 6 4 - . 50 50 [20, 30) - [30, 40) 5 25 12 3 12 22 6 45 40 [40, 50] - 𝑖. 2 2 11 35 55 50 40 20 15 200 Analizziamo il legame tra reddito e consumo nel collettivo attraverso il calcolo della covarianza Analisi della concordanza Applicazioni In primo luogo, dopo avere calcolato i valori centrali degli intervalli di modalità delle due variabili 𝑿 e 𝒀, determiniamo la distribuzione delle frequenze relative congiunte, rapportando ciascuna frequenza assoluta del quadro centrale del precedente prospetto alla numerosità del collettivo. Otteniamo la seguente tabella a doppia entrata: Tabella 22. Distribuzione delle frequenze relative congiunte 𝑋\ 5 15 25 35 45 𝑖. 5 15 25 35 45 0,150 0,075 0,025 - 0,025 0,175 0,030 0,020 - 0,025 0,125 0,060 0,015 0,060 0,110 0,030 0,010 0,010 0,055 0,175 0,275 0,250 0,200 0,100 . 0,250 0,250 0,225 0,200 0,075 1,000 Analisi della concordanza Applicazioni La variabile statistica doppia 𝑋, 𝑌 può essere rappresentata tramite il seguente diagramma a bolle: L’ispezione grafica evidenzia un legame diretto tra il reddito e il consumo, anche se le coppie-determinazione mostrano una certa dispersione, quindi ci dobbiamo attendere che la covarianza assuma valore positivo Analisi della concordanza Applicazioni Calcoliamo la covarianza con il metodo dei momenti. Con tale metodo la covarianza è definita dalla seguente relazione: 𝑘 𝜎 ℎ = 𝑖=1 Dobbiamo calcolare le medie e , applicando la procedura standard 𝑥𝑖 5 15 25 35 45 𝑖. =1 𝑥𝑖 𝑥𝑖 𝑖 − 𝑖. 0,175 0,275 0,250 0,200 0,100 0,875 4,125 6,250 7,000 4,500 1,000 22,750 5 15 25 35 45 . . 0,250 0,250 0,225 0,200 0,075 1,250 3,750 5,625 7,000 3,375 1,000 21,000 Analisi della concordanza Applicazioni Quindi approntiamo il seguente prospetto di calcolo: Tabella 23. Prospetto di calcolo 𝑋\ 5 15 25 35 45 5 3,75 5,63 3,13 - 15 1,88 39,38 11,25 10,50 - 25 9,38 78,13 52,50 16,88 35 52,50 134,75 47,25 45 11,25 15,75 111,38 Ad esempio, con riferimento al primo elemento in alto a sinistra del quadro centrale, ricordando che la corrispondente frequenza relativa congiunta è pari a 11 = 0,15, avremo che 5 × 5 × 0,15 = 3,75 Procediamo in maniera analoga per gli altri elementi e completiamo il prospetto Analisi della concordanza Applicazioni Otteniamo il valore della covarianza sommando le quantità riportate nel quadro centrale della precedente tabella a doppia entrata e sottraendo alla somma il prodotto tra le medie aritmetiche Poiché risulta 𝑘𝑖=1 ℎ=1 𝑥𝑖 complesso abbiamo che 𝑖 = 605,25 e 𝑘 𝜎 ℎ = 𝑖=1 = 22,75 × 21 = 477,75, nel =1 𝑥𝑖 𝑖 − = 605,25 − 477,75 = 127,50 Poiché 𝜎 = 127,50 > 0, tra 𝑿 e 𝒀 esiste una relazione di concordanza La correlazione La disuguaglianza di Cauchy-Schwarz La domanda che ci poniamo adesso è: possiamo considerare la covarianza una misura «ideale» di concordanza o correlazione? La risposta, ovviamente, è negativa: • essendo una misura definita su ℝ, la covarianza fornisce una indicazione di massima sulla presenza/assenza e sul segno dell’associazione lineare tra le due variabili 𝑿 e 𝒀, ma nulla dice circa l’intensità, la «forza» di tale associazione • inoltre abbiamo appena dimostrato che la covarianza è sensibile a trasformazioni di scala In questi casi, di solito procediamo a «normalizzare» la misura (ad esempio rapportandola al suo valore teorico massimo), al fine di derivarne un indice che assuma valori in un intervallo di estremi definiti (di solito tra 0 e 1). Nel caso della covarianza, la normalizzazione si basa sulla c.d. disuguaglianza di Cauchy-Schwarz La correlazione La disuguaglianza di Cauchy-Schwarz La disuguaglianza di Cauchy-Schwarz è una proprietà generale dello spazio che trova applicazione in algebra lineare, in topologia e in molti altri settori della matematica In generale la disuguaglianza di Cauchy-Schwarz fissa un limite superiore al valore di un prodotto vettoriale: 2 𝑛 𝑥𝑖 𝑖=1 𝑖 𝑛 ≤ 𝑥𝑖2 𝑖=1 𝑛 𝑖=1 2 𝑖 in cui il segno di uguaglianza vale soltanto nel caso in cui tra 𝑿 e 𝒀 esiste una relazione di proporzionalità del tipo 𝑐𝑥 + = 0 La correlazione La disuguaglianza di Cauchy-Schwarz Dal momento che la disuguaglianza di Cauchy-Schwarz ha validità generale, possiamo renderla più significativa per i nostri fini applicandola a variabili scarto. Introducendo 𝑥𝑖 − e 𝑖− , possiamo riformulare la disuguaglianza nei termini seguenti: 2 𝑛 𝑖=1 𝑥𝑖 − 𝑖 − 𝑛 ≤ 𝑖=1 𝑥𝑖 − 2 𝑛 𝑖=1 𝑖 − 2 È agevole mostrare che tale disuguaglianza equivale a 𝜎 2 ≤ 𝜎 2𝜎 2 In sintesi, date due variabili statistiche 𝑿 e 𝒀, tramite la disuguaglianza di Cauchy-Schwarz abbiamo dimostrato che la covarianza al quadrato è inferiore o al limite uguale al prodotto tra le rispettive varianze, con il segno di uguaglianza che vale solo nel caso in cui 𝑿 e 𝒀 sono proporzionali tra loro La correlazione Il coefficiente di correlazione lineare di Bravais-Pearson Naturalmente tale risultato può essere ulteriormente elaborato. Risolvendo la disuguaglianza 𝜎 2 ≤ 𝜎 2𝜎 2 otteniamo la seguente disuguaglianza bilaterale: −𝜎 𝜎 ≤ 𝜎 ≤ +𝜎 𝜎 Se dividiamo i tre termini della disuguaglianza bilaterale per la quantità 𝜎 𝜎 , avremo quindi 𝜎 𝜎 𝜎 𝜎 𝜎 − ≤ ≤+ 𝜎 𝜎 𝜎 𝜎 𝜎 𝜎 La correlazione Il coefficiente di correlazione lineare di Bravais-Pearson da cui segue che 𝜎 −1 ≤ ≤ +1 𝜎 𝜎 Il rapporto 𝜌 = 𝜎 𝜎 𝜎 è denominato coefficiente di correlazione lineare di Bravais-Pearson ed è utilizzato per valutare l’intensità del legame lineare tra due variabili statistiche 𝑿e𝒀 La correlazione Il coefficiente di correlazione lineare di Bravais-Pearson Il coefficiente di correlazione lineare di Bravais-Pearson, analogamente alla covarianza, di cui rappresenta una trasformazione lineare, è una misura di concordanza e quindi misura il modo in cui le variabili 𝑿 e 𝒀 si muovono insieme, ma a differenza della covarianza diventa un indice di dipendenza quando tra le due variabili esiste un legame di tipo lineare Come la concordanza, la correlazione è una proprietà simmetrica, quindi nell’analisi di correlazione non è importante stabilire quale delle due variabili sia la variabile dipendente: infatti, può accadere che 𝑿 e 𝒀 presentino un’elevata correlazione anche in assenza di una relazione di dipendenza, dovuta ad esempio all’influenza di una terza variabile, non esplicitamente compresa nel modello analizzato La correlazione Il coefficiente di correlazione lineare di Bravais-Pearson Abbiamo appena dimostrato che −1 ≤ 𝜌 coefficiente di correlazione lineare? ≤ +1. Come va interpretato il • 𝜌 = 0 se e solo se 𝜎 = 0, cioè quando tra 𝑿 e 𝒀 vi è una relazione di indifferenza • 𝜌 = 1 quando tra 𝑿 e 𝒀 esiste una relazione lineare crescente del tipo = 𝛼 + 𝛽𝑥. Naturalmente, essendo la correlazione una relazione simmetrica, tale interpretazione vale anche per la relazione speculare 𝑥 = 𝛼 ′ + 𝛽′ • 𝜌 = −1 quando tra 𝑿 e 𝒀 esiste una relazione lineare inversa del tipo = 𝛼 − 𝛽𝑥 o, analogamente al caso precedente, per la relazione speculare 𝑥 = 𝛼 ′ − 𝛽′ • In tutti i casi intermedi, l’associazione tra 𝑿 e 𝒀 sarà più o meno prossima ad una relazione lineare, con valori di 𝜌 che tenderanno ad uno dei due estremi dell’intervallo all’aumentare della forza del legame lineare La correlazione Il coefficiente di correlazione lineare di Bravais-Pearson Da un punto di vista grafico, con riferimento ad uno scatter plot, si può presentare un’ampia gamma di situazioni: La correlazione Proprietà del coefficiente di correlazione lineare Derivano dalle proprietà della covarianza, che abbiamo commentato in precedenza. In particolare: • Simmetria. Il coefficiente di correlazione lineare tra 𝑿 e 𝒀 è uguale al coefficiente tra 𝒀 e 𝑿. In simboli: 𝜌 =𝜌 • Correlazione di una traslazione. Dato un numero 𝑎 ∈ ℝ e una traslazione 𝒁 = 𝑿 + 𝑎, la traslazione della variabile 𝑿 non altera il valore del coefficiente di correlazione lineare tra 𝑿 e 𝒀. Formalmente: 𝒁 = 𝑿 + 𝑎 ⟹ 𝜌𝑧 = 𝜌 La correlazione Proprietà del coefficiente di correlazione lineare Dimostrazione. Come abbiamo dimostrato in precedenza, la varianza e la covarianza sono invarianti rispetto a traslazioni, quindi risulterà che 𝜎𝑧2 = 𝜎 2 e 𝜎𝑧 = 𝜎 . È quindi immediato mostrare che 𝜎𝑧 𝜎 𝑍 = 𝑋 + 𝑎 ⟹ 𝜌𝑧 = = =𝜌 𝜎𝑧 𝜎 𝜎 𝜎 • Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ e le traslazioni 𝒁 = 𝑿 + 𝑎 e 𝑾 = 𝒀 + 𝑏, tali traslazioni non alterano il valore del coefficiente di correlazione lineare: 𝒁 = 𝑿 + 𝑎, 𝑾 = 𝒀 + 𝑏 ⟹ 𝜌𝑧𝑤 = 𝜌 La dimostrazione è analoga alla precedente e la omettiamo per agilità di trattazione La correlazione Proprietà del coefficiente di correlazione lineare • Correlazione di una trasformazione di scala. Dato un numero 𝑏 ∈ ℝ e una trasformazione di scala 𝒁 = 𝑏𝑿, il coefficiente di correlazione lineare, a differenza della covarianza, è invariante rispetto a trasformazioni di scala, quindi 𝒁 = 𝑏𝑿 ⟹ 𝜌𝑧 = 𝜌 Dimostrazione. In caso di trasformazione di scala, si ha che 𝜎𝑧2 = 𝑏2 𝜎 2 e 𝜎𝑧 = 𝑏𝜎 , per cui è agevole mostrare che 𝑍 = 𝑏𝑋 ⟹ 𝜌𝑧 𝜎𝑧 𝑏𝜎 𝜎 = = = =𝜌 𝜎𝑧 𝜎 𝑏𝜎 𝜎 𝜎 𝜎 La correlazione Proprietà del coefficiente di correlazione lineare • Estensione. Dati due numeri 𝑎, 𝑏 ∈ ℝ e due trasformazioni di scala 𝒁 = 𝑎𝑿 e 𝑾 = 𝑏𝒀, il coefficiente di correlazione lineare è invariante rispetto a trasformazioni di scala di 𝑿 e 𝒀. Formalmente: 𝒁 = 𝑎𝑿, 𝑾 = 𝑏𝒀 ⟹ 𝜌𝑧𝑤 = 𝜌 La correlazione Applicazioni Esempio 5. Con riferimento alla tabella a doppia entrata dell’Esempio 3, il nostro obiettivo è calcolare il coefficiente di correlazione lineare di BravaisPearson. I dati di base sono i seguenti: Tabella 24. Rappresentazione di una generica variabile statistica doppia discreta 𝑥𝑖 \ 1 2 3 4 5 𝑖. 1 2 3 4 5 0,23 0,07 - 0,02 0,21 0,07 - 0,18 0,02 - 0,05 0,07 - 0,01 0,07 0,25 0,28 0,30 0,10 0,07 . 0,30 0,30 0,20 0,12 0,08 1,00 𝑖 La correlazione Applicazioni Ricordando che = 2,46, = 2,38 e 𝜎 = 1,3452, poiché in generale il coefficiente di correlazione è definito come 𝜌 Calcoliamo le varianze 𝜎 2 e 𝜎 2 , necessarie per ottenere gli scarti quadratici medi che figurano nella formula, applicando la procedura standard 𝑥𝑖2 1 4 9 16 25 2 𝑖. = 𝜎 𝜎 𝜎 𝑥𝑖2 𝑖. 0,30 0,60 0,60 0,48 0,40 0,30 2,40 5,40 7,68 10,00 2,38 25,78 2 𝑖 1 4 9 16 25 2 . 2 𝑖 . 0,30 0,30 0,20 0,12 0,08 0,30 1,20 1,80 1,92 2,00 1,00 7,22 La correlazione Applicazioni Con riferimento ai dati della precedente tabella, calcoliamo le varianze 𝜎 2 e 𝜎 2: 𝜎2 𝑘 = 𝑥𝑖2 𝑖=1 𝑖. − 2 = 25,78 − 2,462 = 25,78 − 6,0516 = 19,7284 Analogamente 𝜎2 ℎ = 𝑖=1 2 𝑖 . − 2 = 7,22 − 2,382 = 7,22 − 5,6644 = 1,5556 Avremo quindi che 𝜎 = 19,7284 ≅ 4,4417 e 𝜎 = 1,5556 ≅ 1,2472 La correlazione Applicazioni In ultimo, procediamo a determinare il valore del coefficiente di correlazione di Bravais-Pearson: 𝜌 𝜎 1,3452 = = = 0,3777 𝜎 𝜎 4,4417 × 1,2472 Quindi fra le due variabili 𝑿 e 𝒀 vi è una relazione lineare di debole entità La correlazione Applicazioni Esempio 6. Con riferimento alla tabella a doppia entrata dell’Esempio 4, calcoliamo il coefficiente di correlazione lineare di Bravais-Pearson. I dati di base sono i seguenti: Tabella 25. Distribuzione delle frequenze relative congiunte del reddito medio annuo (X) e della spesa annua per acquisto di generi di prima necessità (Y) in un collettivo di n=200 clienti della AJAX. Dati in migliaia di euro 𝑋\ 5 15 25 35 45 𝑖. 5 15 25 35 45 0,150 0,075 0,025 - 0,025 0,175 0,030 0,020 - 0,025 0,125 0,060 0,015 0,060 0,110 0,030 0,010 0,010 0,055 0,175 0,275 0,250 0,200 0,100 . 0,250 0,250 0,225 0,200 0,075 1,000 La correlazione Applicazioni Poiché sappiamo dall’esempio 4 che = 22,75, = 21,00 e 𝜎 = 127,50, approntiamo i prospetti per il calcolo delle varianze 𝜎 2 e 𝜎 2 e i relativi scarti quadratici medi 𝜎 e 𝜎 : 𝑥𝑖2 25 225 625 1225 2025 2 𝑖. 𝑥𝑖2 𝑖. 0,18 0,28 0,25 0,20 0,10 4,38 61,88 156,25 245,00 202,50 1,00 670,00 2 𝑖 25 225 625 1225 2025 2 . 2 𝑖 . 0,25 0,25 0,23 0,20 0,08 6,25 56,25 140,63 245,00 151,88 1,00 600,00 La correlazione Applicazioni Con riferimento ai dati della precedente tabella, calcoliamo le varianze 𝜎 2 e 𝜎 2: 𝜎2 𝑘 = 𝑥𝑖2 𝑖=1 𝑖. − 2 = 670 − 22,752 = 670 − 517,5625 = 152,4375 Analogamente 𝜎2 ℎ = 𝑖=1 2 𝑖 . − 2 = 600 − 212 = 600 − 441 = 159 Avremo quindi che 𝜎 = 152,4375 ≅ 12,3466 e 𝜎 = 159 ≅ 12,6095 La correlazione Applicazioni Calcoliamo infine il valore del coefficiente di correlazione di Bravais-Pearson: 𝜌 = 𝜎 127,50 = = 0,819 𝜎 𝜎 12, 3466 × 12,6095 Quindi fra le due variabili 𝑿 e 𝒀 vi è una rilevante associazione lineare La correlazione Regressione lineare e correlazione Data una variabile statistica doppia 𝑋, 𝑌 , un primo tipo di sintesi della distribuzione può essere effettuato sostituendo alle due variabili le rispettive medie aritmetiche , , il che equivale ad una riduzione da uno spazio bidimensionale 𝑋, 𝑌 ∈ ℝ2 ad uno spazio zero-dimensionale costituito dall’unico punto , Tale tipo di riduzione dimensionale non è l’unico possibile: possiamo passare da uno spazio bidimensionale ad uno spazio unidimensionale tramite la riduzione 𝑋, 𝑌 ⟹ 𝑋, 𝑋 che, dal punto di vista operativo, comporta la sostituzione di ciascuna coppiadeterminazione 𝑥𝑖 , 𝑖 con la coppia 𝑥𝑖 , 𝑥𝑖 , che è la realizzazione di una variabile statistica sostanzialmente univariata La correlazione Regressione lineare e correlazione Un particolare tipo di riduzione dimensionale è quello lineare: 𝑋, 𝑌 ⟹ 𝑋, 𝛼 + 𝛽𝑋 in cui sostituiamo ai valori osservati della variabile 𝑌 quelli teorici ricavati dalla relazione 𝑌 = 𝛼 + 𝛽𝑋. Tale operazione, tuttavia, comporta sempre una perdita informativa più o meno estesa, pari per ogni coppia-determinazione 𝑥𝑖 , 𝑖 a 𝑒𝑖 = 𝑖 − 𝑖 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 Come sappiamo, esistono molti modi per misurare la perdita informativa; ad esempio si può fare riferimento ad una misura in valore assoluto del tipo 𝑒𝑖 = 𝑖 − 𝑖 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 ma sappiamo anche che trattare con misure in modulo comporta problemi di derivazione, per cui preferiamo fare riferimento all’errore quadratico 𝑒𝑖2 = 𝑖 − 𝑖 2 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 2 La correlazione Regressione lineare e correlazione La perdita informativa globale, cioè il costo associato alla sostituzione delle osservazioni 𝑖 con il loro valore «teorico» 𝑖 (espresso come funzione lineare delle osservazioni 𝑥𝑖 ), è definita dalla seguente relazione: 𝑛 𝑒𝑖2 𝑖=1 𝑛 = 𝑖=1 𝑖 − 𝛼 − 𝛽𝑥𝑖 2 Il nostro obiettivo è quello di minimizzare la perdita informativa globale imponendo alcune condizioni al problema di minimo e scegliendo opportunamente i parametri 𝛼 e 𝛽 La correlazione Regressione lineare e correlazione Intuitivamente, le condizioni che dobbiamo imporre nell’impostare il problema di minimo potrebbero essere le seguenti: • Scegliere 𝛼 e 𝛽 in modo da garantire che la perdita informativa globale sia nel complesso nulla • Scegliere 𝛼 e 𝛽 in modo da rendere minima la variabilità dell’errore di rappresentazione Imponiamo la prima condizione: 𝑛 𝑖=1 𝑛 𝑒𝑖 = 𝑖=1 𝑖 − 𝛼 − 𝛽𝑥𝑖 = 0 La correlazione Regressione lineare e correlazione Verifichiamo per quale valore di 𝛼 è soddisfatta la prima condizione: 𝑛 𝑖=1 𝑛 𝑒𝑖 = 𝑖=1 𝑛 = 𝑖=1 𝑖 𝑛 𝑖 𝑛 − 𝑖=1 𝑛 𝑖=1 =𝜇𝑦 𝑖 𝑖=1 −𝛽 𝑥𝑖 1 𝑖 −𝛽 𝑛 𝑖=1 𝑛 𝑥𝑖 𝑖=1 =𝜇𝑥 e quindi la prima condizione è soddisfatta quando 𝛼= 𝑛 𝛼−𝛽 𝑛 𝑛𝛼 = 1 𝛼= 𝑛 − 𝛼 − 𝛽𝑥𝑖 = 0 −𝛽 𝑥𝑖 = 0 𝑖=1 La correlazione Regressione lineare e correlazione Imponiamo la seconda condizione: 𝑛 𝑚𝑖𝑛 𝑖=1 𝑒𝑖2 𝑛 = 𝑚𝑖𝑛 𝑖=1 𝑖 − 𝛼 − 𝛽𝑥𝑖 2 Tenendo conto della prima condizione, tale relazione può essere riformulata nei termini seguenti: 𝑛 𝑚𝑖𝑛 𝑖=1 𝑛 𝑚𝑖𝑛 𝑖=1 𝑖 − 𝑖 − −𝛽 − 𝛽𝑥𝑖 − 𝛽 𝑥𝑖 − 2 2 Poiché sostituendo il valore di soluzione per 𝛼 all’interno della precedente relazione fa sì che nell’espressione figura soltanto l’incognita 𝛽, tale espressione assume valore minimo nel punto in cui si annulla la derivata prima rispetto a 𝛽 La correlazione Regressione lineare e correlazione Ricordando che in generale 𝑛 1 𝜎 = 𝑛 2 𝑥𝑖2 − 2 𝑖=1 nel nostro caso la varianza dell’errore di rappresentazione è pari a 𝜎𝑒2 Nel caso in cui 𝛼 = essere scritta come −𝛽 𝑛 1 = 𝑛 ⟹ 𝜎𝑒2 𝑒 𝑒𝑖2 − 𝑖=1 2 𝑒 = 0 e quindi la precedente relazione può 1 = 𝑛 𝑛 𝑒𝑖2 𝑖=1 La correlazione Regressione lineare e correlazione Minimizzare 𝜎𝑒2 implica quindi la minimizzazione della quantità 𝑛 𝑒𝑖2 𝑖=1 𝑛 = 𝑖=1 𝑖− 2 − 𝛽 𝑥𝑖 − Sviluppiamo il secondo termine della relazione: 𝑛 𝑛 𝑖=1 𝑖 − =𝑛𝜎𝑦2 2 + 𝛽2 𝑥𝑖 − 2 𝑛 − 2𝛽 𝑖=1 =𝑛𝜎𝑥2 Dividendo i tre addendi per 𝑛 avremo quindi che 𝜎𝑒2 = 𝜎 2 + 𝛽 2 𝜎 2 − 2𝛽𝜎 𝑖=1 𝑥𝑖 − =𝑛𝜎𝑥𝑦 𝑖 − La correlazione Regressione lineare e correlazione Impostiamo il problema di minimo: min 𝜎𝑒2 = min 𝜎 2 + 𝛽 2 𝜎 2 − 2𝛽𝜎 𝛽 𝛽 Tale espressione assume valore minimo nel punto in cui si annulla la derivata prima rispetto a 𝛽 e quindi 𝑑𝜎𝑒2 = 2𝛽𝜎 2 − 2𝜎 𝑑𝛽 la cui soluzione è pari a 𝛽= 𝜎 𝜎2 =0 La correlazione Regressione lineare e correlazione In ultimo, ricordando che il valore di soluzione di 𝛼 in corrispondenza del quale la perdita informativa globale associata all’adozione di un modello lineare è 𝛼 = − 𝛽 , possiamo sostituire al suo interno l’espressione appena ricavata per 𝛽, ottenendo: 𝛼= 𝜎 − 2 𝜎 Riassumendo il ragionamento che abbiamo seguito fin adesso, il nostro obiettivo è stato quello di sintetizzare le principali caratteristiche della variabile statistica doppia 𝑋, 𝑌 , non «condensando» semplicemente le informazioni in un punto di coordinate , , ma evidenziandone gli eventuali legami lineari tramite il modello teorico = 𝛼 + 𝛽𝑥 La correlazione Regressione lineare e correlazione Il precedente modello lineare è definito retta di regressione. Poiché la sostituzione dei valori osservati della variabile 𝒀 con quelli «teorici» che giacciono sulla retta di regressione comporta una perdita informativa, abbiamo individuato due condizioni che i parametri caratteristici della retta di regressione devono soddisfare per minimizzare la perdita informativa stessa Impostato il problema di minimo, abbiamo individuato i valori di soluzione del problema di minimizzazione per 𝛼 e 𝛽: 𝛼= 𝜎 𝛽= 2 𝜎 𝜎 − 2 𝜎 Quindi, disponendo di una tabella a doppia entrata con la distribuzione di una variabile statistica doppia 𝑋, 𝑌 , calcolate le medie aritmetiche e , la varianza 𝜎 2 e la covarianza 𝜎 , è agevole ricavare i parametri della retta di regressione = 𝛼 + 𝛽𝑥 La correlazione Regressione lineare e correlazione La retta di regressione = 𝛼 + 𝛽𝑥 avrà forma esplicita = = = − 𝛽 + 𝛽𝑥 +𝛽 𝑥− 𝜎 + 2 𝑥− 𝜎 e alla luce delle riflessioni svolte in precedenza va interpretata come quel particolare strumento di sintesi delle osservazioni che ha lo scopo di rappresentare la 𝑌 in funzione della relazione lineare con una variabile statistica 𝑋 La correlazione Applicazioni Esempio 7. Con riferimento ai dati dell’esercizio 6, è possibile non soltanto misurare la correlazione tra reddito (la variabile 𝑿) e spesa per consumi (la variabile 𝒀), attraverso il calcolo del coefficiente di correlazione lineare, che è un’operazione tipicamente descrittiva, ma è possibile anche modellizzare il comportamento del consumo in funzione del reddito nel collettivo osservato, in termini di una funzione lineare del tipo = 𝛼 + 𝛽𝑥 Qual è l’interesse associato a questa procedura? In primo luogo, nota una relazione lineare, la AJAX può intuire a quanto potrebbe ammontare la spesa futura per l’acquisto di beni di prima necessità da parte di un nuovo cliente, disponendo esclusivamente di informazioni circa il suo reddito annuale Inoltre, come vedremo prossimamente, è possibile, sotto certe condizioni, riportare questa informazione, rilevata su uno specifico collettivo, all’intera popolazione (ad esempio, le famiglie italiane), senza necessariamente intervistare l’intero universo La correlazione Applicazioni Con questa (lunga) premessa, calcoliamo i parametri della retta di regressione Poiché sappiamo dagli Esempi 4 e 6 che = 22,75, = 21,00, = 22,75, 𝜎 2 = 152,4375 e 𝜎 = 127,50, i parametri della retta di regressione saranno dati da: 𝜎 127,50 𝛽= 2 = ≅ 0,8364 152,4375 𝜎 𝛼= − 𝛽 = 21 − 0,8364 × 22,75 = 21 − 19,03 = 1,97 Quindi la retta di regressione è = 1,97 + 0,8364𝑥 La correlazione Applicazioni Come interpretiamo questi risultati? Ricordando che i dati sono espressi in migliaia di euro, interpretiamo i risultati alla luce di una teoria di riferimento. Nel nostro caso, la teoria economica ci dice che all’aumentare del reddito, aumenta il consumo e tale congettura è confermata dall’osservazione: tra reddito e consumo vi è una relazione crescente che, nel collettivo osservato, è ben rappresentata dall’equazione = 1,97 + 0,8364𝑥 Un valore di 𝛼 pari a 1,97 ci dice che, anche in assenza di reddito (e cioè per 𝑥 = 0), un cliente della AJAX spenderà mediamente 1.970 euro (i dati sono espressi in migliaia di euro ed 𝛼 è espressa nella stessa unità di misura di 𝑿 e 𝒀, quindi 1,97 × 1.000 = 1.970 euro) Inoltre, all’aumentare del reddito di 1.000 euro, la spesa per consumi si incrementa in media di 836,40 euro (𝛽, a differenza di 𝛼, è un numero puro; 0,8364 × 1.000 = 836,40 euro): i restanti 163,60 euro, evidentemente, alimentano i risparmi La correlazione Proprietà della retta di regressione La retta di regressione, come dimostrato in precedenza, ha espressione = + 𝜎 𝑥− 𝜎2 Il «cappello» sta ad indicare che i valori ricavati in funzione lineare della 𝑥 non sono quelli osservati, ma quelli teorici che osserveremmo se tra e 𝑥 esistesse una relazione di dipendenza funzionale matematica La retta di regressione gode di alcune interessanti proprietà 1. La retta di regressione passa per il punto medio (o baricentro) della distribuzione. Tale affermazione può essere dimostrata agevolmente: è sufficiente porre l’espressione della retta di regressione nella forma − = 𝜎 𝑥− 𝜎2 La correlazione Proprietà della retta di regressione 2. La covarianza tra 𝑿 ed 𝒆 è pari a zero. Sintetizzare la variabile statistica 𝒀 attraverso il suo legame lineare con 𝑿 comporta, come si è visto, una perdita informativa che, con riferimento ad una singola osservazione, è misurata dalla differenza 𝑒𝑖 = 𝑖 − 𝑖 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 . Da un punto di vista matematico la perdita informativa è a tutti gli effetti una variabile statistica, quindi ha senso calcolare la covarianza 𝜎 𝑒 : si può dimostrare che tale quantità, per come è costruita la retta di regressione, è nulla In formule quindi 𝜎 e quindi 𝑿 ed 𝒆 sono incorrelate 𝑒 =0 La correlazione Proprietà della retta di regressione Qual è l’importanza di tale risultato? Torniamo alla relazione 𝑒𝑖 = 𝑖 − 𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝑒𝑖 𝑖 = 𝑖 − 𝛼 − 𝛽𝑥𝑖 e poniamola nella forma Cosa ci dice tale relazione? Ci dice che la generica osservazione 𝑖 si compone di due addendi, di cui il primo 𝛼 + 𝛽𝑥𝑖 è funzione di 𝑥 e rappresenta la componente di «spiegata» dal suo legame lineare con 𝑥, mentre il secondo addendo 𝑒𝑖 è una componente residuale, «non spiegata» dal legame lineare e incorrelata con 𝑥 La correlazione Proprietà della retta di regressione Dal fatto che 𝜎 𝑒 = 0 deriva anche un’altra importantissima conseguenza. Poiché = 𝛼 + 𝛽𝑥 + 𝑒, possiamo scrivere che 𝑉𝑎𝑟 = 𝑉𝑎𝑟 𝛼 + 𝛽𝑥 + 𝑒 = 𝛽 2 𝑉𝑎𝑟 𝑥 + 𝑉𝑎𝑟 𝑒 + 2𝛽 𝐶𝑜𝑣 𝑥, 𝑒 = Osservando che 𝑖 𝛽 2 𝑉𝑎𝑟 =0 𝑥 + 𝑉𝑎𝑟 𝑒 = 𝛼 + 𝛽𝑥, risulterà anche che 𝑉𝑎𝑟 𝑖 = 𝑉𝑎𝑟 𝛼 + 𝛽𝑥 = 𝛽 2 𝑉𝑎𝑟 𝑥 Nel complesso quindi avremo che 𝑉𝑎𝑟 = 𝑉𝑎𝑟 𝑖 + 𝑉𝑎𝑟 𝑒 La correlazione Proprietà della retta di regressione Quindi, il fatto che 𝑿 ed 𝒆 sono incorrelate ha una conseguenza molto importante, poiché in questo caso la varianza della variabile 𝒀 può essere scomposta in due addendi, di cui uno [𝑉𝑎𝑟 𝑖 = 𝑉𝑎𝑟 𝛼 + 𝛽𝑥𝑖 ] è la parte della varianza di 𝒀 «spiegata» dalla relazione lineare, mentre l’altro [𝑉𝑎𝑟 𝑒 ] è la componente residuale della varianza di 𝒀 non «spiegata» dalla relazione lineare Poiché 𝑉𝑎𝑟 = 𝑉𝑎𝑟 𝑖 + 𝑉𝑎𝑟 𝑒 risulterà sempre 𝑉𝑎𝑟 ≥ 𝑉𝑎𝑟 𝑒 . Se 𝑉𝑎𝑟 𝑒 = 0 la variabilità di 𝒀 è spiegata interamente dalla relazione lineare con 𝑿