Comments
Description
Transcript
DESCRIVERE LE OSSERVAZIONI SPERIMENTALI
DESCRIVERE LE OSSERVAZIONI SPERIMENTALI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia Versione on-line: http://www.unipg.it/˜onofri/RTutorial/index.html Indice 1 Collettivi poco numerosi 1 2 Arrotondamenti 4 3 Descrizione di sottogruppi 4 4 Distribuzioni di frequenza 5 5 Descrive le distribuzioni 10 6 Tabelle di contingenza 13 7 Connessione 14 8 Correlazione 18 Sommario Lo scopo di questa lezione é quello di mostrare gli indicatori statistici piú comuni per descrive alcune caratteristiche fondamentali dei dati sperimentali. 1 I collettivi poco numerosi: analisi chimiche e altre misurazioni fondamentali Chiunque si occupi di biometria sa che il metodo fondamentale per fronteggiare l’imprecisione degli strumenti di misura é quello di effettuare piú repliche della stessa misurazione. In genere gli strumenti attuali non richiedono un’elevato numero di misurazioni e, di conseguenza, alla fine dell’esperimento ci si ritrova collettivo poco numeroso di valori quantitativi. 1 1 COLLETTIVI POCO NUMEROSI 2 In questa comune situazione, la descrizione dei dati sperimentali é affidata ad un indice di tendenza centrale, in genere la media, accompagnato da un indice per descrivere la variabilitá dei dati intorno ad essa. La media aritmetica é un concetto molto intuitivo che non necessita di particolari spiegazioni: si indica con µ e si calcola con R mediante la funzione mean(vettore). Tuttavia, la media da sola non ci informa su come le unitá sperimentali tendono a differire l’una dall’altra: ad esempio una media pari a 100 puó essere ottenuta con tre individui che misurano 99, 100 e 101 rispettivamente o con tre individui che misurano 1, 100 e 199. E’ evidente che in questo secondo gruppo gli individui sono molto piú differenti tra loro (dispersi) che nel primo gruppo. Pertanto, i risultati di un processo di misurazione non possono essere descritti solo con la media, ma é necessario anche calcolare un indice di variabilitá. Tra essi, il piú semplice é il campo di variazione, che é la differenza tra la misura piú bassa e la misura piú alta. In realtá, non si tratta di un vero e proprio indice di variabilitá, in quanto dipende solo dai termini estremi della distribuzione e non necessariamente cresce al crescere della variabilitá degli individui. Esistono diversi indici di variabilitá, tra cui i piú diffusi sono la devianza, la varianza, la deviazione standard ed il coefficiente di variabilitá. La devianza (generalmente nota come SS, cioé somma dei quadrati) é data da: SS = n X (xi − x̄)2 i=1 Si tratta di un indicatore caratterizzato da significato geometrico molto preciso, collegabile alla somma dei quadrati delle distanze euclidee di ogni osservazione rispetto alla media. Come misura di ’distanza’, ha alcune importanti proprietá (che vedremo meglio in seguito), ma essendo una somma, il valore finale dipende dal numero di scarti da sommare e quindi non é possibile operare confronti tra collettivi formati da un diverso numero di individui. In R la devianza puó essere calcolata con un’espressione del tipo: sum((altezza - mean(altezza))^2) Si puó quindi definire un altro indice, detto varianza (nei software di uso piú corrente si parla di varianza campionaria, e definito come segue: n P 2 σ = (xi − x̄)2 i=1 n−1 La varianza permette di confrontare la variabilitá di collettivi formati da un numero diverso di individui, anche se permane il problema che questo 1 COLLETTIVI POCO NUMEROSI 3 indicatore é espresso in un’unitá di misura al quadrato, rispetto a quella delle osservazioni originali: ad esempio se le osservazioni sono espresse in metri, la varianza é espressa in metri quadrati. Per eliminare questo problema si ricorre alla radice quadrata della varianza, cioé la deviazione standard, che si indica con s. La deviazione standard é espressa nella stessa unitá di misura dei dati originari ed é quindi molto informativa sulla banda di oscillazione dei dati rispetto alla media. Spesso la variabilitá dei dati é in qualche modo proporzionale alla media: collettivi con una media alta hanno anche una variabilitá alta e viceversa. Per questo motivo viene utilizzato spesso il coefficiente di variabilitá: CV = σ × 100 µ che é un numero puro e non dipende dall’unitá di misura e dall’ampiezza del collettivo, sicché é molto adatto ad esprimere ad esempio l’errore degli strumenti di misura e delle apparecchiature di analisi. Varianza e deviazione standard sono molto facili da calcolare in R, grazie alle funzioni var(), sd(). In genere, la deviazione standard, per le sue caratteristiche, viene utilizzata come indicatore dell’incertezza assoluta associata ad una determinata misurazione, mentre il coefficiente di variabilitá (incertezza relativa percentuale; CV), é molto adatto ad esprimere l’errore degli strumenti di misura e delle apparecchiature di analisi. Esempio 1 Un analisi chimica ripetuta sei volte ha dato i seguenti risultati: 101, 126, 97, 117, 121, 94 ngg −1 . Descrivere i risultati ottenuti utilizzando gli indicatori statistici piú opportuni. > result <- c(101, 126, 97, 117, 121, 94) > mean(result) [1] 109.3333 > sd(result) [1] 13.63329 > sd(result)/mean(result)*100 [1] 12.46947 > Possiamo concludere che la concentrazione é pari a: 109 ± 13.6 ng/g, mentre l’errore di misura dell’apparecchio é pari al 12.5% circa. 2 2 ARROTONDAMENTI 4 Arrotondamenti Come si é visto nell’esempio precedente, il calcolo della media e della deviazione standard (sia a mano che con il computer) porta all’ottenimento di un numero elevato di cifre decimali. E’ quindi lecito chiedersi quante cifre riportare nel riferire i risultati della misura. L’indicazione generale, da prendere con le dovute cautele é che nel caso della media si riportano un numero di cifre decimali pari a quello rilevato nella misura, mentre per gli indicatori di variabilitá si dovrebbe utilizzare un decimale in piú. 3 Descrizione dei sottogruppi In biometria é molto comune che il gruppo di unitá sperimentali sia divisibile in piú sottogruppi, dei quali vogliamo conoscere alcune statistiche descrittive. Ad esempio se abbiamo nove unitá sperimentali (parcelle di terreno) coltivate con tre livelli di concimazione azotata (tre parcelle per ogni livello di concimazione) e se vogliamo calcolare la media di ogni livello di concimazione, possiamo utilizzare il comando: tapply(var, indice, mean) dove var é la variabile che contiene i valori da mediare, indice é la variabile che contiene la codifica di gruppo, mean é la funzione che dobbiamo calcolare. Ovviamente mean puó essere sostituito da qualunque altra funzione ammissibile in R, come ad esempio la deviazione standard. Caso studio 1 E’ stato organizzato un esperimento per valutare il peso ettolitrico di quattro varietá di frumento duro, ottenendo i seguenti risultati. Calcolare le medie e le deviazioni standard varietali; riportare i dati insieme alle deviazioni standard in un grafico a barre. 4 DISTRIBUZIONI DI FREQUENZA varietá COLOSSEO COLOSSEO COLOSSEO DUILIO DUILIO DUILIO IRIDE IRIDE IRIDE SANCARLO SANCARLO SANCARLO > > > + 5 Peso ettolitrico 81.67 82.83 83.50 78.60 80.30 81.40 83.83 81.97 83.37 84.57 84.27 79.57 var <- c("COLOSSEO", "DUILIO", "IRIDE", "SANCARLO") var <- rep(var, each=3) Peso <- c(81.67, 82.83, 83.50, 78.60, 80.30, 81.40, 83.83, 81.97, 83.37, 84.57,84.27, 79.57) > medie <- tapply(Peso, var, mean) > medie COLOSSEO DUILIO IRIDE SANCARLO 82.66667 80.10000 83.05667 82.8033 > stDev <- tapply(Peso, var, sd) > stDev COLOSSEO DUILIO IRIDE SANCARLO 0.9258690 1.4106736 0.9687793 2.8041636 > abs <- barplot(medie, ylim=range(0, 100), col="red", ylab="Peso ettolitrico") > arrows(abs, medie - stDev, abs, medie + stDev, code=3, angle=90, length=0.1) Il grafico risultante é in figura 1 4 Distribuzioni di frequenza Avendo a che fare con un numero elevato di dati, é conveniente considerare le frequenze delle unitá sperimentali: la frequenza assoluta non é altro che il numero degli individui che presentano una certa misura (per un carattere 4 DISTRIBUZIONI DI FREQUENZA 6 Figura 1: Grafico a barre relativo al caso studio 1 quantitativo) o una certa modalitá (per un carattere qualitativo). Ad esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri é pari a 100. Se abbiamo a che fare con variabili quantitative su scala continua, prima di calcolare le frequenze é necessario suddividere l’intervallo delle misure in una serie di classi di frequenza. Ad esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato che 115 hanno altezze comprese tra 150 e 155 cm, possiamo conclude che la frequenza degli individui della classe 150-155 cm é pari a 115. Oltre alle frequenze assolute, possiamo considerare anche le frequenze relative, che si calcolano dividendo le frequenze assolute per il numero totale degli individui del collettivo. Nei casi prima accennati, la frequenza relativa degli eterotteri é pari a 100/500, cioé 0.2, mentre la frequenza relativa degli individui nella classe 150-155 é pari a 115/3000, cioé 0.038. Se abbiamo una variabile quantitativa o comunque una variabile nella quale le modalitá o le classi di frequenza possono essere logicamente ordinate, 4 DISTRIBUZIONI DI FREQUENZA 7 Tabella 1: Altezze di diverse varietá di mais Num. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Varietá N S V V C N C C V N N N S C N C V S C C Altezza 172 154 150 188 162 145 157 178 175 158 153 191 174 141 165 163 148 152 169 185 oltre alle frequenze assolute e relative possiamo prendere in considerazione le cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte le classi di frequenza che precedono quella considerata. Ad esempio se tra le 3000 piante di mais anzidette 224 hanno altezze comprese tra 155 e 160 cm, la frequenza cumulata della classe é pari a 224+115 = 339, che si ottiene sommando alla frequenza assoluta di classe la frequenza assoluta della classe precedente. Aggregare i dati in forma di distribuzioni di frequenza é estremamente conveniente, perché la lettura delle informazioni é molto piú facile. Ad esempio, consideriamo il dataset in tabella 1. Si vuole: 1. valutare la distribuzione delle frequenze assolute, relative e percentuali degli individui di ciascuna varietá; 2. valutare la distribuzione delle frequenze assolute, relative, percentuali e cumulate dell’ altezza degli individui, considerando classi di ampiezza pari a 5 cm; 4 DISTRIBUZIONI DI FREQUENZA 8 3. disegnare la torta delle frequenze relative della varietá e l’istogramma delle frequenze assolute dell’altezza. La soluzione con R é piuttosto banale, attraverso l’impiego della funzione table(). La funzione length() restituisce il numero di elementi in un vettore. Per la variabile altezza, che é di tipo quantitativo, si utilizza lo stesso comando table(vettore), ma occorre specificare l’ampiezza delle classi di frequenza con la funzione cut() e l’argomento breaks(), con il quale vengono specificati gli estremi superiori della classe (inclusi per default nella classe stessa). Per le frequenze cumulate si usa invece la funzione cumsum(). Per disegnare i grafici si utilizzano le funzioni pie() e barplot(), il cui output é riportato nelle figure 2 e 3 > var <- c("n", "s", "v", "v", "c", "n", "c", "c", + "v", "n", "n", "n", "s", "c", "n", "c", + "v", "s", "c", "c") > > altezza <- c (152, 154, 150, 188, 162, 145, 157, + 178, 175, 158, 153, 191, 174, 141, + 165, 163, 148, 152, 169, 185) > > #Frequenze assolute > table(var) var c n s v 7 6 3 4 > > #Frequenze relative > table(var)/length(var) var c n s v 0.35 0.30 0.15 0.20 > > #Frequenze percentuali > table(var)/length(var)*100 var c n s v 35 30 15 20 > > #Variabili quantitative > table(cut (altezza, breaks = c(140,150,160,170,190,200))) (140,150] (150,160] (160,170] (170,190] (190,200] 4 DISTRIBUZIONI DI FREQUENZA 9 Figura 2: Grafico a torta di una distribuzione di frequenza 4 6 4 5 1 > > #Frequenze cumulate > cumsum(table(cut(altezza, breaks = c(140,150,160,170,190,200)))) (140,150] (150,160] (160,170] (170,190] (190,200] 4 10 14 19 20 > > #Grafici > pie(table(var)) > frequenza<-table(cut(altezza, c(140,150,160,170,190,200))) > barplot(frequenza, col="blue") > 5 DESCRIVE LE DISTRIBUZIONI 10 Figura 3: Grafico a barre di una distribuzione di frequenza 5 Statistiche descrittive per le distribuzioni di frequenza Il piú semplice indicatore di tendenza centrale, utilizzabile con qualunque tipo di dati é la moda, cioé il valore della classe che presenta la maggior frequenza. Ovviamente, se la variabile é quantitativa, si assume come moda il punto centrale della classe con maggior frequenza. L’individuazione della moda é banale e non richiede calcoli di sorta. Nel caso di distribuzioni di frequenza per caratteri ordinabili (qualitativi e quantitativi), oltre alla moda possiamo calcolare la mediana, data dal valore che bipartisce la distribuzione di frequenza in modo da lasciare lo stesso numero di termini a sinistra e a destra. Se abbiamo una serie di individui ordinati in graduatoria, la mediana é data dallı́ndividuo che occupa il posto (n + 1)/2 o, se gli individui sono 5 DESCRIVE LE DISTRIBUZIONI 11 Figura 4: Raffigurazione dell’80esimo percentile in numero pari, dalla media delle due osservazioni centrali. Il comando per calcolare la mediana in R é median(vettore). La mediana é legata al concetto di ripartizione ed é il primo di una serie di indicatori detti quantili, o, se parliamo di frequenze percentuali, percentili. Un percentile bipartisce la popolazione normale in modo da lasciare una certa quantitá di termini alla sua sinistra e la restante quantitá alla sua destra. Ad esempio, il primo percentile bipartisce la popolazione in modo da lasciare a sinistra l1́% dei termini e alla destra il restante 99%. Allo stesso modo lóttantesimo percentile bipartisce la popolazione in modo da lasciare a sinistra l8́0% dei termini e alla destra il restante 20% (figura 4). Per calcolare l’ottantesimo e il novantesimo percentile dell’altezza dei dati nell’esercizio 1, usiamo il comando: > quantile(altezza, probs=c(0.8,0.9)) 80% 90% 5 DESCRIVE LE DISTRIBUZIONI 12 Figura 5: Esempio di boxplot Box-Whisker 175.6 185.3 In relazione all’uso dei percentili, possiamo introdurre il concetto di boxplot (grafico Box-Whisker). Si tratta di una scatola che ha per estremi il 25esimo e il 75esimo percentile ed é tagliata da una linea centrale in corrispondenza della mediana. Dalla scatola partono due linee verticali che identificano il valore massimo e il minimo. Se il massimo (o il minimo) distano dalla mediana piú di 1.5 volte la differenza tra la mediana stessa e il 75esimo (o 25esimo) percentile, allora le linee verticali si fermano ad un valore pari ad 1.5 volte il 75esimo (o il 25esimo) percentile rispettivamente. La figura seguente riporta un esempio di boxplot, disegnato per il vettore altezza dell’esercizio 1, utilizzando il comando boxplot(altezza). Oltre ai percentili, per le distribuzioni di frequenza dicaratteri quantitativi é anche possibile calcolare la media, come illustrato in precedenza. Per concludere, ricordiamo che la scelta dell’indice di tendenza centrale dipende 6 TABELLE DI CONTINGENZA 13 dal tipo di dati con cui abbiamo a che fare, secondo quanto esposto in tabella 2. Tabella 2: Scelte possibili per alcune statistiche descrittive Indice moda mediana percentili media campo di variazione qualitativo nominale SI NO NO NO NO Carattere qualitativo ordinale SI SI SI NO NO quantitativo (continuo o discreto) SI SI SI SI SI Nel caso in cui é possibile utilizzare piú indici (variabili quantitative) dobbiamo tener presente che la mediana é un indicatore piú robusto della media. Infatti, supponiamo di avere cinque valori: 1 - 4 - 7 - 9 - 10 La media é pari a 6.2, mentre la mediana é pari a 7 (valore centrale). Se cambiano il numero piú alto in questo modo: 1 - 4 - 7 - 9 - 100 la media di questi cinque valori sará 24.2, mentre la mediana sará sempre pari a 7. per quanto riguarda gli indicatori di variabilitá, ricordiamo che per variabili quantitative é possibile calcolare le stesse statistiche indicate in precedenza per i collettivi poco numerosi. 6 Distribuzioni di frequenza bivariate: le tabelle di contingenza In alcuni casi in ciascuna unitá sperimentale del collettivo vengono studiati due (o piú) caratteri e, di conseguenza, si ha a che fare con distribuzioni di frequenza bivariate (o multivariate). In questo caso si possono costruire delle tabelle di contingenza, cioé delle tabelle a due entrate nelle quali ogni numero rappresenta la frequenza congiunta (in genere assoluta) per una particolare coppia di valori delle due variabili. Ad esempio consideriamo le variabili di fantasia X=Varietá (con i valori SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO, OVALE), nella tabella 3 il valore 37 indica il numero di individui che presentano congiuntamente la modalitá SANREMO e la modalitá LUNGO. I totali mostrano le frequenze marginali delle due variabili separatamente. 7 CONNESSIONE 14 Tabella 3: Esempio di tabella di contingenza SANREMO FANO Totale LUNGO 37 45 82 TONDO 32 74 106 OVALE 61 59 120 Totale 130 178 308 Ogni riga della tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata della variabile Y, dato un certo valore della X mentre ogni colonna costituisce una distribuzione condizionata della variabile X, dato un certo valore della Y . Le tabelle di contingenza in R vengono costruite sempre utilizzando la funzione table(). 7 Connessione Se guardiamo le due distribuzioni condizionate per SANREMO e FANO in tabella 3 possiamo notare che esiste una certa differenza. Potremmo chiederci quindi se il presentarsi di una data modalitá del carattere X (SANREMO o FANO) influenza il presentarsi di una particolare modalitá del fenomeno Y. Se ció non é vero si parla di indipendenza delle variabili (allora le distribuzioni condizionate sono uguali) altrimenti si parla di dipendenza o connessione. In caso di indipendenza, le distribuzioni condizionate di Y dovrebbero essere uguali tra loro, cioé la frequenza relativa condizionale di X per una data modalitá di Y deve essere uguale alla frequenza relativa condizionale di X per l’altra modalitá di Y e quindi alla frequenza marginale di X. Ad esempio, per il carattere LUNGO la frequenza relativa marginale é pari ad 82/308=0.266; in caso di indipendenza, questa frequenza dovrebbe essere la stessa, indipendentemente dal fatto che il pomodoro sia di varietá SanRemo oppure Fano. In cifre, la frequenza assoluta condizionata per LUNGO—Sanremo dovrebbe essere pari a 0.266x130=34.6. mentre LUNGO—fano dovrebbe essere pari a 0.266x178=47.4. Con questi principi, possiamo costruire la tabella delle frequenze assolute attese, in caso di indipendenza completa (tabella 4). A questo punto é logico costruire un indice statistico di connessione, detto χ2 , che misuri lo scostamento tra le frequenze osservate e quelle attese nell’ipotesi di indipendenza perfetta: χ2 = (fo − fa )2 fa 7 CONNESSIONE 15 Tabella 4: Frequenze attese in caso di indipendenza tra i caratteri studiati SANREMO FANO Totale LUNGO 34.6 47.4 82 TONDO 44.7 61.3 106 OVALE 50.6 69.4 120 Totale 130 178 308 dove fo sta per frequenza osservata ed fa sta per frequenza attesa nel caso indipendenza. Questo indice assume valore pari a zero nel caso di indipendenza completa (le frequenze osservate sono uguali a quelle attese) ed assume un valore positivo tanto piú alto quanto maggiore é la connessione tra i due caratteri, fino ad un valore massimo dato dal prodotto del numero degli individui per il valore minimo tra il numero di righe - 1 e il numero di colonne -1: max χ2 = n · min(r − 1, c − 1) Il valore di chi quadro in R viene calcolato semplicemente applicando la funzione summary ad un oggetto table. > dati LUNGO TONDO OVALE SANREMO 37 32 61 FANO 45 74 59 > summary(as.table(dati)) Number of cases in table: 308 Number of factors: 2 Test for independence of all factors: Chisq = 10.223, df = 2, p-value = 0.006027 > Nell’esempio precedente si é utilizzato il comando as.table() per forzare la matrice dati in una tabella di contingenza. Il valore massimo di chi quadro é pari a 308 e di conseguenza il valore osservato, espresso in relazione al valore massimo é pari a 10.22/308=0.033. Si puó quindi concludere che la connessione tra i due caratteri é piuttosto debole. Per il calcolo dell’indice di connessione con R, dobbiamo prima creare una tabella di contingenza, con il comando table() che abbiamo giá utilizzato per costruire le distribuzioni di frequenza. A questa tabella di contingenza applicheremo poi il comando summary(). Caso studio 2 7 CONNESSIONE 16 Il dataset ’students.dat’ (disponibile al sito www.casaonofri.it) contiene alcuni dati relativi agli studenti della Facoltá di Agraria. Valutare: 1. il numero di esami sostenuti per insegnamento; 2. il numero di esami sostenuti per anno di immatricolazione; 3. la media per esame; 4. la distribuzione dei voti (da 18 a 21, da 22 a 25, da 25 a 27, da 28 a 30); 5. la distribuzione dei voti x esame e verificare la connessione tra i due caratteri; 6. la distribuzione dei voti x scuola e verificare la connessione tra i due caratteri; 7. la distribuzione dei voti x anno e verificare la connessione tra i due caratteri. il dataset puó essere importato in R utilizzando una delle funzioni read.csv(), read.csv2(), read.table(). Per evitare errori con i separatori (decimale e di elenco) che cambiano a seconda della lingua utilizzata in Excel, si consiglia l’uso della funzione read.table(), che consente di specificare esplicitamente il separatore (nel foglio CSV allegato é presente il punto come separatore decimale e la virgola come separatore di elenco). >dati<-read.table("students.txt", header=TRUE, sep=",", dec=".") > > attach(dati) > table(insegnamento) insegnamento AGRONOMIA ARBOREE BIOLOGIA CHIMICA ECONOMIA MATEMATICA 27 14 54 35 44 58 > table(insegnamento,annoimmatr) annoimmatr insegnamento 2001 2002 AGRONOMIA 23 4 ARBOREE 13 1 BIOLOGIA 27 27 CHIMICA 20 15 ECONOMIA 27 17 MATEMATICA 38 20 > tapply(voto, insegnamento, mean) 7 CONNESSIONE AGRONOMIA 26.87500 17 ARBOREE 25.00000 BIOLOGIA 26.43333 CHIMICA 20.00000 ECONOMIA MATEMATICA 27.61111 26.17073 > table(cut(voto,breaks=c(17.9,21,25,27,30))) (17.9,21] 10 (21,25] 32 (25,27] 28 (27,30] 50 > table(insegnamento,cut(voto,breaks=c(17.9,20,23,26,30))) insegnamento (17.9,20] (20,23] (23,26] (26,30] AGRONOMIA 0 3 11 13 ARBOREE 0 1 6 7 BIOLOGIA 1 4 22 27 CHIMICA 14 6 4 11 ECONOMIA 1 4 10 29 MATEMATICA 4 12 15 27 > summary(table(insegnamento,cut(voto,breaks=c(17.9,20,23,26,30)))) Number of cases in table: 232 Number of factors: 2 Test for independence of all factors: Chisq = 68.06, df = 15, p-value = 9.856e-09 Chi-squared approximation may be incorrect > table(Scuola,cut(voto,breaks=c(17.9,20,23,26,30)))) Scuola (17.9,20] (20,23] (23,26] (26,30] AGRARIO 6 3 11 32 ALTRO 3 4 17 16 CLASSICO 4 6 12 26 RAGIONERIA 2 9 13 22 SCIENTIFICO 5 8 15 18 > summary(table(Scuola,cut(voto,breaks=c(17.9,20,23,26,30)))) Number of cases in table: 232 Number of factors: 2 Test for independence of all factors: Chisq = 13.984, df = 12, p-value = 0.3018 Chi-squared approximation may be incorrect 8 8 CORRELAZIONE 18 Correlazione Se abbiamo a che fare con variabili quantitative, possiamo calcolare l’indice di connessione previa opportuna divisione in classi di frequenza delle due variabili in studio. Oltre a ció, con variabili quantitative é possibile esplorare l’esistenza della cosidetta relazione di variazione congiunta, che si ha quando al variare di una variabile cambia anche il valore dell’altra. La variazione congiunta si quantifica tramite il coefficiente di correlazione costituito dal rapporto tra la codevianza (o somma dei prodotti) delle due variabili e il prodotto delle loro devianze. Il coefficiente di correlazione varia tra -1 e +1: un valore pari a +1 indica concordanza perfetta (tanto aumenta una variabile, tanto aumenta l’altra), mentre un valore pari a -1 indica discordanza perfetta (tanto aumenta una variabile tanto diminuisce l’altra). Un valore pari a 0 indica assenza di qualunque grado di variazione congiunta tra le due variabili (assenza di correlazione). Valori intermedi tra quelli anzidetti indicano correlazione positiva (se positivi) e negativa (se negativi). In R, per calcolare la correlazione tra due variabili si usa la funzione cor(). Caso studio 3 Il contenuto di olio di 9 lotti di acheni di girasole é stato misurato con due metodi diversi. Valutare la correlazione tra i risultati dei due metodi di analisi. > a <- c(45, 47, 49, 51, 44, 37, 48, 44, 53) > b <- c(44, 44, 49, 53, 48, 34, 47, 46, 51) > cor(a, b) [1] 0.8960795 > Possiamo osservare che il coefficiente di correlazione é abbastanza vicino ad 1 e quindi possiamo concludere che esiste un buon grado di concordanza tra i due metodi di analisi.