Comments
Description
Transcript
Diapositiva 1 - corsimkgandhi
REGRESSIONE E CORRELAZIONE INTERPOLAZIONE STATISTICA Quando dall’osservazione di un fenomeno si arriva a risultati espressi mediante coppie ordinate di numeri (xi ; yi), si pone il problema di trovare una funzione che meglio descrive il legame che intercorre fra i valori xi ed i valori yi. Tale funzione prende il nome di funzione interpolante. Si parla di interpolazione matematica quando si ricerca una funzione interpolante che passa per i punti di coordinate (xi ; yi). Si parla di interpolazione statistica quando si ricerca una funzione interpolante che passa fra i punti di coordinate (xi ; yi). A seconda dello scopo per cui viene calcolata la funzione interpolante, si parla di : perequazione quando si vogliono sostituire i dati osservati con altri che determinano un andamento più regolare del fenomeno osservato; Interpolazione quando si vogliono trovare valori intermedi rispetto a quelli osservati; extrapolazione quando si vogliono trovare valori che stanno al di fuori dell’intervallo in cui rientrano le osservazioni ( per esempio quando si vogliono fare previsioni). Considerando due variabili statistiche X e Y sulle quali siano state fatte rilevazioni congiunte che hanno portato alla definizione di n punti di coordinate (xi ; yi), possiamo fare una rappresentazione grafica di tali punti, in un piano cartesiano detto diagramma a dispersione; essi formeranno una nube di punti. Andremo a trovare una curva che meglio approssima l’andamento grafico di questi punti. La scelta del tipo di curva ( retta, parabola, iperbole, … ) di solito viene “suggerita” dalla forma della nube. Scelta la curva è necessario stabilire un criterio che consenta di effettuare la scelta migliore. IL METODO DEI MINIMI QUADRATI Si parla di interpolazione statistica col metodo dei minimi quadrati quando la funzione interpolante y = f (x) viene scelta in modo tale che sia minima la quantità S = Σ [yi – ýi ]² La minimizzazione dell’espressione S viene detta condizione di accostamento. Determinata la funzione interpolante, si può poi stimare quanto i valori teorici si avvicinano a quelli rilevati, mediante gli indici di scostamento. Tanto più è buono l’accostamento quanto più è piccolo l’indice di scostamento. Gli indici di scostamento utilizzati sono: errore standard E = media quadratica delle differenze fra i valori osservati e i valori teorici E = (S/n) = Σ [yi– ýi ]² indice quadratico relativo I = rapporto fra errore standard e la media aritmetica fra i valori teorici I = E / [(Σ yi) / n] FUNZIONI INTERPOLANTI DI TIPO LINEARE E QUADRATICO funzione interpolante di tipo lineare : ý = ax + b Metodo dei minimi quadrati: ý = (Σxi Σyi – n Σxi yi) / [(Σxi)²- n Σxi²] ∙ x + (Σxi ∙ Σxi yi – Σyi ∙Σxi²) / [(Σxi)² - n Σxi²] Metodo del baricentro: y – y’= a (x – x’) dove e x’ = (Σxi) / n e y’ = (Σyi) / n a = [Σ (xi – x’ ) ∙ (yi – y’ )] / Σ (xi – x’ )² funzione interpolante di tipo parabolico : ý = ax² Metodo dei minimi quadrati: ý = [ (Σxi²yi) / Σ(xi²)²] ∙ x² RICERCA DEL TREND IN UNA SERIE STORICA In una indagine statistica si parla di serie storica quando si ha una serie di rilevazione eseguite in tempi successivi (es. le temperature ambientali rilevate alla stessa ora di ogni giorno, la produzione annuale del vino, …). Se tali fenomeni si presentano con una certa regolarità, la funzione interpolante può descrivere il comportamento tendenziale o trend della variabile Y per valori di X che vanno oltre quelli osservati. Quando si valuta la funzione interpolante per un valore di X successivo a quelli rilevati, si attua una extrapolazione della serie storica. I dati ottenuti per extrapolazione dalla funzione di trend sono dati indicativi che possono anche discostarsi da quelli reali una volta che essi diventino misurabili; ciò può accadere perché possono variare alcune delle condizioni che hanno portato alla determinazione di quella situazione. Diventa necessario quindi aggiornare in continuazione una funzione di trend affinchè essa tenga conto degli ultimi avvenimenti. LA DIPENDENZA STATISTICA Teoria della correlazione: studia il legame fra fenomeni con caratteri quantitativi con dipendenza lineare; tale legame, se esiste, sarà espresso con un numero che misuri quanto una variabile dipende dall’altra. L’indice statistico più utilizzato per misurare il grado d’intensità della relazione lineare fra X e Y è il coefficiente di correlazione lineare o di Bravais-Pearson che viene calcolato utilizzando la covarainza. Si dice covarianza fra X e Y la media aritmetica dei prodotti degli scarti: cov (X , Y) = [Σ (xi – x’ ) ∙ (yi – y’ )] / n Se cov (X , Y) > 0 la relazione lineare fra i due fenomeni è diretta; Se cov (X , Y) < 0 la relazione lineare fra i due fenomeni è inversa; Se cov (X , Y) = 0 non esiste fra i due fenomeni alcuna relazione di tipo lineare, potrebbe esserci di altro tipo. Il coefficiente di correlazione lineare è un indice che elimina l’inconveniente della covarianza di assumere valori negativi o positivi, quindi di più semplice interpretazione: r = cov (X , Y) / ( σx ∙ σy ) con σx = (Σx’i²) e σy = (Σy’i²) -1 ≤ r ≤ +1 Valori di r negativi indicano l’esistenza di una relazione lineare inversa ( o negativa); Valori di r positivi indicano l’esistenza di una relazione lineare diretta ( o positiva); Se r = 0 non esiste alcuna relazione lineare tra X e Y (potrebbe esserci di altro tipo). Se r = -1 si ha perfetta correlazione lineare inversa; Se r = +1 si ha perfetta correlazione lineare diretta; COEFFICIENTE DI REGRESSIONE Se Y è la variabile dipendente e X la variabile indipendente la retta di regressione assume la forma: Y = a + bx Il parametro b prende il nome di coefficiente di regressione. Il coefficiente di regressione b indica di quanto varia la Y al variare di una unità della X. Y cresce al crescere di X se b>0; decresce al crescere di X se b<0. L’equazione della retta di regressione di Y rispetto a X è y – y’ = r (σx / σy) (x – x’) L’equazione della retta di regressione di X rispetto a Y è x – x’ = 1/r (σy/ σx) (y – y’) Le due rette si incontrano nel punto di coordinate ( X’ ; Y’), che è detto centro di distribuzione.