DESCRIVERE LE OSSERVAZIONI SPERIMENTALI

by user

on 06 июля 2016

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download DESCRIVERE LE OSSERVAZIONI SPERIMENTALI

Transcript

DESCRIVERE LE OSSERVAZIONI SPERIMENTALI

DESCRIVERE LE OSSERVAZIONI
SPERIMENTALI
Andrea Onofri
Dipartimento di Scienze Agrarie ed Ambientali
Universitá degli Studi di Perugia
Versione on-line: http://www.unipg.it/˜onofri/RTutorial/index.html
Indice
1 Collettivi poco numerosi
1
2 Arrotondamenti
4
3 Descrizione di sottogruppi
4
4 Distribuzioni di frequenza
5
5 Descrive le distribuzioni
10
6 Tabelle di contingenza
13
7 Connessione
14
8 Correlazione
18
Sommario
Lo scopo di questa lezione é quello di mostrare gli indicatori statistici piú comuni per descrive alcune caratteristiche fondamentali dei dati
sperimentali.
1
I collettivi poco numerosi: analisi chimiche e
altre misurazioni fondamentali
Chiunque si occupi di biometria sa che il metodo fondamentale per fronteggiare l’imprecisione degli strumenti di misura é quello di effettuare piú
repliche della stessa misurazione. In genere gli strumenti attuali non richiedono
un’elevato numero di misurazioni e, di conseguenza, alla fine dell’esperimento ci si ritrova collettivo poco numeroso di valori quantitativi.
1
1
COLLETTIVI POCO NUMEROSI
2
In questa comune situazione, la descrizione dei dati sperimentali é affidata ad un indice di tendenza centrale, in genere la media, accompagnato
da un indice per descrivere la variabilitá dei dati intorno ad essa.
La media aritmetica é un concetto molto intuitivo che non necessita di
particolari spiegazioni: si indica con µ e si calcola con R mediante la funzione
mean(vettore).
Tuttavia, la media da sola non ci informa su come le unitá sperimentali
tendono a differire l’una dall’altra: ad esempio una media pari a 100 puó
essere ottenuta con tre individui che misurano 99, 100 e 101 rispettivamente
o con tre individui che misurano 1, 100 e 199. E’ evidente che in questo
secondo gruppo gli individui sono molto piú differenti tra loro (dispersi) che
nel primo gruppo.
Pertanto, i risultati di un processo di misurazione non possono essere
descritti solo con la media, ma é necessario anche calcolare un indice di variabilitá. Tra essi, il piú semplice é il campo di variazione, che é la differenza
tra la misura piú bassa e la misura piú alta. In realtá, non si tratta di un vero
e proprio indice di variabilitá, in quanto dipende solo dai termini estremi
della distribuzione e non necessariamente cresce al crescere della variabilitá
degli individui.
Esistono diversi indici di variabilitá, tra cui i piú diffusi sono la devianza,
la varianza, la deviazione standard ed il coefficiente di variabilitá.
La devianza (generalmente nota come SS, cioé somma dei quadrati) é
data da:
SS =
n
X
(xi − x̄)2
i=1
Si tratta di un indicatore caratterizzato da significato geometrico molto
preciso, collegabile alla somma dei quadrati delle distanze euclidee di ogni osservazione rispetto alla media. Come misura di ’distanza’, ha alcune
importanti proprietá (che vedremo meglio in seguito), ma essendo una somma, il valore finale dipende dal numero di scarti da sommare e quindi non
é possibile operare confronti tra collettivi formati da un diverso numero di
individui. In R la devianza puó essere calcolata con un’espressione del tipo:
sum((altezza - mean(altezza))^2)
Si puó quindi definire un altro indice, detto varianza (nei software di uso
piú corrente si parla di varianza campionaria, e definito come segue:
n
P
2
σ =
(xi − x̄)2
i=1
n−1
La varianza permette di confrontare la variabilitá di collettivi formati
da un numero diverso di individui, anche se permane il problema che questo
1
COLLETTIVI POCO NUMEROSI
3
indicatore é espresso in un’unitá di misura al quadrato, rispetto a quella
delle osservazioni originali: ad esempio se le osservazioni sono espresse in
metri, la varianza é espressa in metri quadrati.
Per eliminare questo problema si ricorre alla radice quadrata della varianza, cioé la deviazione standard, che si indica con s. La deviazione standard
é espressa nella stessa unitá di misura dei dati originari ed é quindi molto
informativa sulla banda di oscillazione dei dati rispetto alla media.
Spesso la variabilitá dei dati é in qualche modo proporzionale alla media:
collettivi con una media alta hanno anche una variabilitá alta e viceversa.
Per questo motivo viene utilizzato spesso il coefficiente di variabilitá:
CV =
σ
× 100
µ
che é un numero puro e non dipende dall’unitá di misura e dall’ampiezza
del collettivo, sicché é molto adatto ad esprimere ad esempio l’errore degli
strumenti di misura e delle apparecchiature di analisi.
Varianza e deviazione standard sono molto facili da calcolare in R, grazie
alle funzioni var(), sd().
In genere, la deviazione standard, per le sue caratteristiche, viene utilizzata come indicatore dell’incertezza assoluta associata ad una determinata misurazione, mentre il coefficiente di variabilitá (incertezza relativa
percentuale; CV), é molto adatto ad esprimere l’errore degli strumenti di
misura e delle apparecchiature di analisi.
Esempio 1
Un analisi chimica ripetuta sei volte ha dato i seguenti risultati:
101, 126, 97, 117, 121, 94 ngg −1 . Descrivere i risultati ottenuti
utilizzando gli indicatori statistici piú opportuni.
> result <- c(101, 126, 97, 117, 121, 94)
> mean(result)
[1] 109.3333
> sd(result)
[1] 13.63329
> sd(result)/mean(result)*100
[1] 12.46947
>
Possiamo concludere che la concentrazione é pari a:
109 ± 13.6 ng/g, mentre l’errore di misura dell’apparecchio é
pari al 12.5% circa.
2
2
ARROTONDAMENTI
4
Arrotondamenti
Come si é visto nell’esempio precedente, il calcolo della media e della deviazione standard (sia a mano che con il computer) porta all’ottenimento
di un numero elevato di cifre decimali. E’ quindi lecito chiedersi quante
cifre riportare nel riferire i risultati della misura. L’indicazione generale, da
prendere con le dovute cautele é che nel caso della media si riportano un
numero di cifre decimali pari a quello rilevato nella misura, mentre per gli
indicatori di variabilitá si dovrebbe utilizzare un decimale in piú.
3
Descrizione dei sottogruppi
In biometria é molto comune che il gruppo di unitá sperimentali sia divisibile in piú sottogruppi, dei quali vogliamo conoscere alcune statistiche
descrittive. Ad esempio se abbiamo nove unitá sperimentali (parcelle di terreno) coltivate con tre livelli di concimazione azotata (tre parcelle per ogni
livello di concimazione) e se vogliamo calcolare la media di ogni livello di
concimazione, possiamo utilizzare il comando:
tapply(var, indice, mean)
dove var é la variabile che contiene i valori da mediare, indice é la
variabile che contiene la codifica di gruppo, mean é la funzione che dobbiamo calcolare. Ovviamente mean puó essere sostituito da qualunque altra
funzione ammissibile in R, come ad esempio la deviazione standard.
Caso studio 1
E’ stato organizzato un esperimento per valutare il peso ettolitrico di quattro varietá di frumento duro, ottenendo i seguenti
risultati. Calcolare le medie e le deviazioni standard varietali;
riportare i dati insieme alle deviazioni standard in un grafico a
barre.
4
DISTRIBUZIONI DI FREQUENZA
varietá
COLOSSEO
COLOSSEO
COLOSSEO
DUILIO
DUILIO
DUILIO
IRIDE
IRIDE
IRIDE
SANCARLO
SANCARLO
SANCARLO
>
>
>
+
5
Peso
ettolitrico
81.67
82.83
83.50
78.60
80.30
81.40
83.83
81.97
83.37
84.57
84.27
79.57
var <- c("COLOSSEO", "DUILIO", "IRIDE", "SANCARLO")
var <- rep(var, each=3)
Peso <- c(81.67, 82.83, 83.50, 78.60, 80.30,
81.40, 83.83, 81.97, 83.37, 84.57,84.27, 79.57)
> medie <- tapply(Peso, var, mean)
> medie
COLOSSEO
DUILIO
IRIDE SANCARLO
82.66667 80.10000 83.05667 82.8033
> stDev <- tapply(Peso, var, sd)
> stDev
COLOSSEO
DUILIO
IRIDE SANCARLO
0.9258690 1.4106736 0.9687793 2.8041636
> abs <- barplot(medie, ylim=range(0, 100),
col="red", ylab="Peso ettolitrico")
> arrows(abs, medie - stDev, abs, medie + stDev,
code=3, angle=90, length=0.1)
Il grafico risultante é in figura 1
4
Distribuzioni di frequenza
Avendo a che fare con un numero elevato di dati, é conveniente considerare
le frequenze delle unitá sperimentali: la frequenza assoluta non é altro che
il numero degli individui che presentano una certa misura (per un carattere
4
DISTRIBUZIONI DI FREQUENZA
6
Figura 1: Grafico a barre relativo al caso studio 1
quantitativo) o una certa modalitá (per un carattere qualitativo). Ad esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono
ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri é
pari a 100. Se abbiamo a che fare con variabili quantitative su scala continua, prima di calcolare le frequenze é necessario suddividere l’intervallo delle
misure in una serie di classi di frequenza. Ad esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato che 115 hanno altezze comprese
tra 150 e 155 cm, possiamo conclude che la frequenza degli individui della
classe 150-155 cm é pari a 115.
Oltre alle frequenze assolute, possiamo considerare anche le frequenze
relative, che si calcolano dividendo le frequenze assolute per il numero totale
degli individui del collettivo. Nei casi prima accennati, la frequenza relativa
degli eterotteri é pari a 100/500, cioé 0.2, mentre la frequenza relativa degli
individui nella classe 150-155 é pari a 115/3000, cioé 0.038.
Se abbiamo una variabile quantitativa o comunque una variabile nella
quale le modalitá o le classi di frequenza possono essere logicamente ordinate,
4
DISTRIBUZIONI DI FREQUENZA
7
Tabella 1: Altezze di diverse varietá di mais
Num.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Varietá
N
S
V
V
C
N
C
C
V
N
N
N
S
C
N
C
V
S
C
C
Altezza
172
154
150
188
162
145
157
178
175
158
153
191
174
141
165
163
148
152
169
185
oltre alle frequenze assolute e relative possiamo prendere in considerazione le
cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte
le classi di frequenza che precedono quella considerata. Ad esempio se tra le
3000 piante di mais anzidette 224 hanno altezze comprese tra 155 e 160 cm,
la frequenza cumulata della classe é pari a 224+115 = 339, che si ottiene
sommando alla frequenza assoluta di classe la frequenza assoluta della classe
precedente.
Aggregare i dati in forma di distribuzioni di frequenza é estremamente
conveniente, perché la lettura delle informazioni é molto piú facile. Ad
esempio, consideriamo il dataset in tabella 1.
Si vuole:
1. valutare la distribuzione delle frequenze assolute, relative e percentuali
degli individui di ciascuna varietá;
2. valutare la distribuzione delle frequenze assolute, relative, percentuali
e cumulate dell’ altezza degli individui, considerando classi di ampiezza
pari a 5 cm;
4
DISTRIBUZIONI DI FREQUENZA
8
3. disegnare la torta delle frequenze relative della varietá e l’istogramma
delle frequenze assolute dell’altezza.
La soluzione con R é piuttosto banale, attraverso l’impiego della funzione
table(). La funzione length() restituisce il numero di elementi in un
vettore.
Per la variabile altezza, che é di tipo quantitativo, si utilizza lo stesso
comando table(vettore), ma occorre specificare l’ampiezza delle classi di
frequenza con la funzione cut() e l’argomento breaks(), con il quale vengono specificati gli estremi superiori della classe (inclusi per default nella
classe stessa). Per le frequenze cumulate si usa invece la funzione cumsum().
Per disegnare i grafici si utilizzano le funzioni pie() e barplot(), il cui
output é riportato nelle figure 2 e 3
> var <- c("n", "s", "v", "v", "c", "n", "c", "c",
+
"v", "n", "n", "n", "s", "c", "n", "c",
+
"v", "s", "c", "c")
>
> altezza <- c (152, 154, 150, 188, 162, 145, 157,
+
178, 175, 158, 153, 191, 174, 141,
+
165, 163, 148, 152, 169, 185)
>
> #Frequenze assolute
> table(var)
var
c n s v
7 6 3 4
>
> #Frequenze relative
> table(var)/length(var)
var
c
n
s
v
0.35 0.30 0.15 0.20
>
> #Frequenze percentuali
> table(var)/length(var)*100
var
c n s v
35 30 15 20
>
> #Variabili quantitative
> table(cut (altezza, breaks = c(140,150,160,170,190,200)))
(140,150] (150,160] (160,170] (170,190] (190,200]
4
DISTRIBUZIONI DI FREQUENZA
9
Figura 2: Grafico a torta di una distribuzione di frequenza
4
6
4
5
1
>
> #Frequenze cumulate
> cumsum(table(cut(altezza, breaks = c(140,150,160,170,190,200))))
(140,150] (150,160] (160,170] (170,190] (190,200]
4
10
14
19
20
>
> #Grafici
> pie(table(var))
> frequenza<-table(cut(altezza, c(140,150,160,170,190,200)))
> barplot(frequenza, col="blue")
>
5
DESCRIVE LE DISTRIBUZIONI
10
Figura 3: Grafico a barre di una distribuzione di frequenza
5
Statistiche descrittive per le distribuzioni di frequenza
Il piú semplice indicatore di tendenza centrale, utilizzabile con qualunque
tipo di dati é la moda, cioé il valore della classe che presenta la maggior
frequenza. Ovviamente, se la variabile é quantitativa, si assume come moda
il punto centrale della classe con maggior frequenza. L’individuazione della
moda é banale e non richiede calcoli di sorta.
Nel caso di distribuzioni di frequenza per caratteri ordinabili (qualitativi
e quantitativi), oltre alla moda possiamo calcolare la mediana, data dal
valore che bipartisce la distribuzione di frequenza in modo da lasciare lo
stesso numero di termini a sinistra e a destra.
Se abbiamo una serie di individui ordinati in graduatoria, la mediana
é data dallı́ndividuo che occupa il posto (n + 1)/2 o, se gli individui sono
5
DESCRIVE LE DISTRIBUZIONI
11
Figura 4: Raffigurazione dell’80esimo percentile
in numero pari, dalla media delle due osservazioni centrali. Il comando per
calcolare la mediana in R é median(vettore).
La mediana é legata al concetto di ripartizione ed é il primo di una serie di
indicatori detti quantili, o, se parliamo di frequenze percentuali, percentili.
Un percentile bipartisce la popolazione normale in modo da lasciare una
certa quantitá di termini alla sua sinistra e la restante quantitá alla sua
destra. Ad esempio, il primo percentile bipartisce la popolazione in modo
da lasciare a sinistra l1́% dei termini e alla destra il restante 99%. Allo stesso
modo lóttantesimo percentile bipartisce la popolazione in modo da lasciare
a sinistra l8́0% dei termini e alla destra il restante 20% (figura 4).
Per calcolare l’ottantesimo e il novantesimo percentile dell’altezza dei
dati nell’esercizio 1, usiamo il comando:
> quantile(altezza, probs=c(0.8,0.9))
80%
90%
5
DESCRIVE LE DISTRIBUZIONI
12
Figura 5: Esempio di boxplot Box-Whisker
175.6 185.3
In relazione all’uso dei percentili, possiamo introdurre il concetto di boxplot (grafico Box-Whisker). Si tratta di una scatola che ha per estremi il
25esimo e il 75esimo percentile ed é tagliata da una linea centrale in corrispondenza della mediana. Dalla scatola partono due linee verticali che
identificano il valore massimo e il minimo. Se il massimo (o il minimo)
distano dalla mediana piú di 1.5 volte la differenza tra la mediana stessa e
il 75esimo (o 25esimo) percentile, allora le linee verticali si fermano ad un
valore pari ad 1.5 volte il 75esimo (o il 25esimo) percentile rispettivamente.
La figura seguente riporta un esempio di boxplot, disegnato per il vettore
altezza dell’esercizio 1, utilizzando il comando boxplot(altezza).
Oltre ai percentili, per le distribuzioni di frequenza dicaratteri quantitativi é anche possibile calcolare la media, come illustrato in precedenza. Per
concludere, ricordiamo che la scelta dell’indice di tendenza centrale dipende
6
TABELLE DI CONTINGENZA
13
dal tipo di dati con cui abbiamo a che fare, secondo quanto esposto in tabella
2.
Tabella 2: Scelte possibili per alcune statistiche descrittive
Indice
moda
mediana
percentili
media
campo di variazione
qualitativo
nominale
SI
NO
NO
NO
NO
Carattere
qualitativo
ordinale
SI
SI
SI
NO
NO
quantitativo
(continuo o discreto)
SI
SI
SI
SI
SI
Nel caso in cui é possibile utilizzare piú indici (variabili quantitative)
dobbiamo tener presente che la mediana é un indicatore piú robusto della
media. Infatti, supponiamo di avere cinque valori:
1 - 4 - 7 - 9 - 10
La media é pari a 6.2, mentre la mediana é pari a 7 (valore centrale). Se
cambiano il numero piú alto in questo modo:
1 - 4 - 7 - 9 - 100
la media di questi cinque valori sará 24.2, mentre la mediana sará sempre
pari a 7.
per quanto riguarda gli indicatori di variabilitá, ricordiamo che per variabili quantitative é possibile calcolare le stesse statistiche indicate in precedenza per i collettivi poco numerosi.
6
Distribuzioni di frequenza bivariate: le tabelle
di contingenza
In alcuni casi in ciascuna unitá sperimentale del collettivo vengono studiati
due (o piú) caratteri e, di conseguenza, si ha a che fare con distribuzioni
di frequenza bivariate (o multivariate). In questo caso si possono costruire
delle tabelle di contingenza, cioé delle tabelle a due entrate nelle quali ogni
numero rappresenta la frequenza congiunta (in genere assoluta) per una
particolare coppia di valori delle due variabili.
Ad esempio consideriamo le variabili di fantasia X=Varietá (con i valori
SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO, OVALE), nella tabella 3 il valore 37 indica il numero di individui che
presentano congiuntamente la modalitá SANREMO e la modalitá LUNGO.
I totali mostrano le frequenze marginali delle due variabili separatamente.
7
CONNESSIONE
14
Tabella 3: Esempio di tabella di contingenza
SANREMO
FANO
Totale
LUNGO
37
45
82
TONDO
32
74
106
OVALE
61
59
120
Totale
130
178
308
Ogni riga della tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata della variabile Y, dato un certo valore della X mentre ogni colonna costituisce una distribuzione condizionata della variabile X,
dato un certo valore della Y
. Le tabelle di contingenza in R vengono costruite sempre utilizzando la
funzione table().
7
Connessione
Se guardiamo le due distribuzioni condizionate per SANREMO e FANO
in tabella 3 possiamo notare che esiste una certa differenza. Potremmo
chiederci quindi se il presentarsi di una data modalitá del carattere X (SANREMO o FANO) influenza il presentarsi di una particolare modalitá del
fenomeno Y. Se ció non é vero si parla di indipendenza delle variabili (allora
le distribuzioni condizionate sono uguali) altrimenti si parla di dipendenza
o connessione. In caso di indipendenza, le distribuzioni condizionate di Y
dovrebbero essere uguali tra loro, cioé la frequenza relativa condizionale di
X per una data modalitá di Y deve essere uguale alla frequenza relativa condizionale di X per l’altra modalitá di Y e quindi alla frequenza marginale di
X.
Ad esempio, per il carattere LUNGO la frequenza relativa marginale é
pari ad 82/308=0.266; in caso di indipendenza, questa frequenza dovrebbe
essere la stessa, indipendentemente dal fatto che il pomodoro sia di varietá SanRemo oppure Fano. In cifre, la frequenza assoluta condizionata per LUNGO—Sanremo dovrebbe essere pari a 0.266x130=34.6. mentre
LUNGO—fano dovrebbe essere pari a 0.266x178=47.4. Con questi principi, possiamo costruire la tabella delle frequenze assolute attese, in caso di
indipendenza completa (tabella 4).
A questo punto é logico costruire un indice statistico di connessione,
detto χ2 , che misuri lo scostamento tra le frequenze osservate e quelle attese
nell’ipotesi di indipendenza perfetta:
χ2 =
(fo − fa )2
fa
7
CONNESSIONE
15
Tabella 4: Frequenze attese in caso di indipendenza tra i caratteri studiati
SANREMO
FANO
Totale
LUNGO
34.6
47.4
82
TONDO
44.7
61.3
106
OVALE
50.6
69.4
120
Totale
130
178
308
dove fo sta per frequenza osservata ed fa sta per frequenza attesa nel
caso indipendenza. Questo indice assume valore pari a zero nel caso di
indipendenza completa (le frequenze osservate sono uguali a quelle attese)
ed assume un valore positivo tanto piú alto quanto maggiore é la connessione
tra i due caratteri, fino ad un valore massimo dato dal prodotto del numero
degli individui per il valore minimo tra il numero di righe - 1 e il numero di
colonne -1:
max χ2 = n · min(r − 1, c − 1)
Il valore di chi quadro in R viene calcolato semplicemente applicando la
funzione summary ad un oggetto table.
> dati
LUNGO TONDO OVALE
SANREMO
37
32
61
FANO
45
74
59
> summary(as.table(dati))
Number of cases in table: 308
Number of factors: 2
Test for independence of all factors:
Chisq = 10.223, df = 2, p-value = 0.006027
>
Nell’esempio precedente si é utilizzato il comando as.table() per
forzare la matrice dati in una tabella di contingenza. Il valore massimo
di chi quadro é pari a 308 e di conseguenza il valore osservato, espresso
in relazione al valore massimo é pari a 10.22/308=0.033. Si puó quindi
concludere che la connessione tra i due caratteri é piuttosto debole.
Per il calcolo dell’indice di connessione con R, dobbiamo prima creare una
tabella di contingenza, con il comando table() che abbiamo giá utilizzato
per costruire le distribuzioni di frequenza. A questa tabella di contingenza
applicheremo poi il comando summary().
Caso studio 2
7
CONNESSIONE
16
Il dataset ’students.dat’ (disponibile al sito www.casaonofri.it)
contiene alcuni dati relativi agli studenti della Facoltá di Agraria.
Valutare:
1. il numero di esami sostenuti per insegnamento;
2. il numero di esami sostenuti per anno di immatricolazione;
3. la media per esame;
4. la distribuzione dei voti (da 18 a 21, da 22 a 25, da 25 a 27,
da 28 a 30);
5. la distribuzione dei voti x esame e verificare la connessione
tra i due caratteri;
6. la distribuzione dei voti x scuola e verificare la connessione
tra i due caratteri;
7. la distribuzione dei voti x anno e verificare la connessione
tra i due caratteri.
il dataset puó essere importato in R utilizzando una delle funzioni
read.csv(), read.csv2(), read.table(). Per evitare errori con i separatori (decimale e di elenco) che cambiano a seconda della lingua
utilizzata in Excel, si consiglia l’uso della funzione read.table(),
che consente di specificare esplicitamente il separatore (nel foglio
CSV allegato é presente il punto come separatore decimale e la
virgola come separatore di elenco).
>dati<-read.table("students.txt", header=TRUE, sep=",", dec=".")
>
> attach(dati)
> table(insegnamento)
insegnamento
AGRONOMIA
ARBOREE
BIOLOGIA
CHIMICA
ECONOMIA MATEMATICA
27
14
54
35
44
58
> table(insegnamento,annoimmatr)
annoimmatr
insegnamento 2001 2002
AGRONOMIA
23
4
ARBOREE
13
1
BIOLOGIA
27
27
CHIMICA
20
15
ECONOMIA
27
17
MATEMATICA
38
20
> tapply(voto, insegnamento, mean)
7
CONNESSIONE
AGRONOMIA
26.87500
17
ARBOREE
25.00000
BIOLOGIA
26.43333
CHIMICA
20.00000
ECONOMIA MATEMATICA
27.61111
26.17073
> table(cut(voto,breaks=c(17.9,21,25,27,30)))
(17.9,21]
10
(21,25]
32
(25,27]
28
(27,30]
50
> table(insegnamento,cut(voto,breaks=c(17.9,20,23,26,30)))
insegnamento (17.9,20] (20,23] (23,26] (26,30]
AGRONOMIA
0
3
11
13
ARBOREE
0
1
6
7
BIOLOGIA
1
4
22
27
CHIMICA
14
6
4
11
ECONOMIA
1
4
10
29
MATEMATICA
4
12
15
27
> summary(table(insegnamento,cut(voto,breaks=c(17.9,20,23,26,30))))
Number of cases in table: 232
Number of factors: 2
Test for independence of all factors:
Chisq = 68.06, df = 15, p-value = 9.856e-09
Chi-squared approximation may be incorrect
> table(Scuola,cut(voto,breaks=c(17.9,20,23,26,30))))
Scuola
(17.9,20] (20,23] (23,26] (26,30]
AGRARIO
6
3
11
32
ALTRO
3
4
17
16
CLASSICO
4
6
12
26
RAGIONERIA
2
9
13
22
SCIENTIFICO
5
8
15
18
> summary(table(Scuola,cut(voto,breaks=c(17.9,20,23,26,30))))
Number of cases in table: 232
Number of factors: 2
Test for independence of all factors:
Chisq = 13.984, df = 12, p-value = 0.3018
Chi-squared approximation may be incorrect
8
8
CORRELAZIONE
18
Correlazione
Se abbiamo a che fare con variabili quantitative, possiamo calcolare l’indice
di connessione previa opportuna divisione in classi di frequenza delle due
variabili in studio. Oltre a ció, con variabili quantitative é possibile esplorare
l’esistenza della cosidetta relazione di variazione congiunta, che si ha quando
al variare di una variabile cambia anche il valore dell’altra.
La variazione congiunta si quantifica tramite il coefficiente di correlazione costituito dal rapporto tra la codevianza (o somma dei prodotti)
delle due variabili e il prodotto delle loro devianze. Il coefficiente di correlazione varia tra -1 e +1: un valore pari a +1 indica concordanza perfetta
(tanto aumenta una variabile, tanto aumenta l’altra), mentre un valore pari a
-1 indica discordanza perfetta (tanto aumenta una variabile tanto diminuisce
l’altra). Un valore pari a 0 indica assenza di qualunque grado di variazione
congiunta tra le due variabili (assenza di correlazione). Valori intermedi
tra quelli anzidetti indicano correlazione positiva (se positivi) e negativa (se
negativi).
In R, per calcolare la correlazione tra due variabili si usa la funzione
cor().
Caso studio 3
Il contenuto di olio di 9 lotti di acheni di girasole é stato misurato
con due metodi diversi. Valutare la correlazione tra i risultati
dei due metodi di analisi.
> a <- c(45, 47, 49, 51, 44, 37, 48, 44, 53)
> b <- c(44, 44, 49, 53, 48, 34, 47, 46, 51)
> cor(a, b)
[1] 0.8960795
>
Possiamo osservare che il coefficiente di correlazione é abbastanza
vicino ad 1 e quindi possiamo concludere che esiste un buon grado
di concordanza tra i due metodi di analisi.