...

STATISTICA: esercizi svolti sulla CONNESSIONE

by user

on
Category: Documents
14

views

Report

Comments

Transcript

STATISTICA: esercizi svolti sulla CONNESSIONE
STATISTICA: esercizi svolti sulla
CONNESSIONE
1
1 LA CONNESSIONE
1
2
LA CONNESSIONE
1. I dati relativi alla popolazione occupata per grande ripartizione geografica e per
settore di attività economica sono riportati nella seguente tabella:
Ripartiz.
Nord (N) Centro-Sud (CS)
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
698
4127
5695
10520
1248
2625
6609
10482
Totale
1946
.
6752
12304
21002
a) Determinare la distribuzione bivariata di frequenze relative;
b) determinare le distribuzioni condizionate di frequenze relative;
c) valutare, mediante il calcolo delle frequenze teoriche, se esiste indipendenza distributiva tra i due caratteri. In caso di risposta negativa, costruire la tabella
corrispondente a questa situazione;
d) calcolare le contingenze e fornire la loro interpretazione;
e) calcolare le contingenze relative e fornire la loro interpretazione;
f) valutare la connessione tra i due caratteri mediante un indice basato sulle contingenze relative.
Svolgimento.
Svolgimento punto a) Le frequenze congiunte relative sono ricavabili dalle frequenze
congiunte attraverso la relazione:
f r(ai , bj ) =
nij
N
per i = 1, 2, 3 e j = 1, 2.
Nel nostro caso abbiamo ad esempio che:
f r(A, N ) =
n11
698
=
= 0.0332
N
21002
Tale valore indica l’importanza numerica relativa degli individui che nella popolazione
occupata sono caratterizzati dall’essere contemporaneamente impiegati in agricoltura
e risiedere al nord. In particolare possiamo dire che il 3.32% della popolazione
occupata risiede al nord ed è impiegata nel settore agricolo.
f r(A, CS) =
n12
1248
=
= 0.0594
N
21002
Tale valore dice che il 5.94% della popolazione occupata risiede al centro sud ed è
impiegata nel settore agricolo.
Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte
relative si ottiene la seguente tabella:
1 LA CONNESSIONE
3
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
Nord (N) Centro-Sud (CS)
0.0332
0.1965
0.2712
0.5009
0.0594
0.1250
0.3147
0.4991
Totale
0.0926
.
0.3215
0.5859
1
• f r(I, N ) = 0.1965 indica che il 19.65% della popolazione occupata risiede al
nord ed è impiegata nel settore industriale;
• f r(I, CS) = 0.1250 indica che il 12.5% della popolazione occupata risiede al
centro sud ed è impiegata nel settore industriale;
• f r(AA, N ) = 0.2712 indica che il 27.12% della popolazione occupata risiede al
nord ed è impiegata nelle altre attività;
• f r(AA, CS) = 0.3147 indica che il 31.47% della popolazione occupata risiede al
centro sud ed è impiegata nelle altre attività;
Nell’ultima riga e colonna della tabella sopra ricavata sono riportate le frequenze
marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore
di Attività Economica”. Esse sono state ricavate, rispettivamente, utilizzando le
espressioni:
n.j
f r(bj ) =
j = 1, 2
N
ni.
i = 1, 2, 3.
f r(ai ) =
N
Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le
seguenti informazioni:
• f r(N ) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord.
• f r(CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al
centro sud.
Le frequenze marginali relative del carattere “Settore di Attività Economica” forniscono invece le seguenti informazioni:
• f r(A) = 0.0926 indica che il 9.26% della popolazione occupata è impiegata nel
settore agricolo.
• f r(I) = 0.3215 indica che il 32.15% della popolazione occupata è impiegata nel
settore industriale.
• f r(AA) = 0.5859 indica che il 58.59% della popolazione occupata è impiegata
in altre attività.
1 LA CONNESSIONE
4
Svolgimento punto b) Iniziamo con il calcolo delle frequenze relative condizionate
del carattere “Settore di attività Economica”. Fissiamo innanzi tutto l’attenzione
sulla distribuzione parziale associata alla modalità N del carattere “Ripartizione
Geografica”. In tal caso le frequenze relative condizionate sono date da:
f r(A|N ) =
698
n11
=
= 0.0664
n.1
10520
4127
n21
=
= 0.3923
n.1
10520
n31
5695
f r(AA|N ) =
=
= 0.5413
n.1
10520
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere “Settore di Attività Economica” condizionate alla modalità CS del carattere
“Ripartizione Geografica”. I risultati sono riportati nella seguente tabella:
f r(I|N ) =
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
Nord (N) Centro-Sud (CS)
0.0664
0.3923
0.5413
1
0.1191
0.2504
0.6305
1
—
0.0926
0.3215
0.5859
1
Si osservi che l’ultima colonna della tabella sopra riportata contiene le frequenze relative marginali del carattere “Settore di Attività Economica”.
Le frequenze relative condizionate del carattere “Settore di Attività Economica”
danno le seguenti informazioni:
• f r(A|N ) = 0.0664 indica che il 6.64% della popolazione occupata residente al
nord risulta essere impiegata nel settore agricolo;
• f r(I|N ) = 0.3923 indica che il 39.23% della popolazione occupata residente al
nord risulta essere impiegata nel settore industriale;
• f r(AA|N ) = 0.5413 indica che il 54.13% della popolazione occupata residente
al nord risulta essere impiegata in altre attività;
• f r(A|CS) = 0.1191 indica che il 11.91% della popolazione occupata residente
al centro sud risulta essere impiegata nel settore agricolo;
• f r(I|CS) = 0.2504 indica che il 25.04% della popolazione occupata residente al
centro sud risulta essere impiegata nel settore industriale;
• f r(AA|CS) = 0.6305 indica che il 63.05% della popolazione occupata residente
al centro sud risulta essere impiegata in altre attività.
Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere “Ripartizione Geografica”, fissiamo innanzi tutto l’attenzione sulla distribuzione parziale
1 LA CONNESSIONE
5
associata alla modalità A del carattere “Settore di attività Economica”. In tal caso
le frequenze relative condizionate sono date da:
f r(N |A) =
698
n11
=
= 0.3587
n1.
1946
n12
1248
=
= 0.6413
n1.
1946
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere
“Ripartizione Geografica” condizionate alla modalità I e AA del carattere “Settore di
attività Economica”. I risultati di questi calcoli sono riportati sinteticamente nella
seguente tabella:
f r(CS|A) =
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
—
Nord (N) Centro-Sud (CS)
0.3587
0.6112
0.4629
0.5009
0.6413
0.3888
0.5371
0.4991
Totale
1
1
1
1
Si osservi che l’ultima riga della tabella sopra riportata contiene le frequenze relative
marginali del carattere “Ripartizione Geografica”.
Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono
le seguenti informazioni:
• f r(N |A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata
nel settore agricolo risiede al nord;
• f r(CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata
nel settore agricolo risiede al centro sud;
• f r(N |I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel
settore industriale risiede al nord;
• f r(CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata
nel settore industriale risiede al centro sud;
• f r(N |AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata
in altri settori risiede al nord;
• f r(CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata
in altri settori risiede al centro sud.
Svolgimento punto c) Affinchè tra i due caratteri “Settore di attività Economica” e
“Ripartizione geografica” vi sia indipendenza distributiva, è necessario che ciascuna delle frequenze congiunte nij coincida con la corrispondente frequenza teorica di
n ·n
indipendenza distributiva n̂ij = i.N .j :
nij = n̂ij
i = 1, 2, 3 j = 1, 2.
1 LA CONNESSIONE
6
E’ sufficiente che una sola frequenza congiunta differisca dalla corrispondente frequenza teorica per concludere che tra i due caratteri non vi è indipendenza distributiva.
Ad esempio, se i due caratteri in considerazione fossero indipendenti in distribuzione,
n11 dovrebbe coincidere con:
n̂11 =
1946 · 10520
n1. · n.1
=
= 974.7605
N
21002
In realtà abbiamo che n11 = 698 6= n̂11 e di conseguenza tra i due caratteri in
considerazione non vi è indipendenza distributiva.
Come richiesto dal testo dell’esercizio, si ricava la tabella delle frequenze teoriche nel
caso di indipendenza distributiva:
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
Nord (N)
Centro-Sud (CS)
974.7605
3382.1084
6163.1311
10520
971.2395
3369.8916
6140.8689
10482
Totale
1946
6752
12304
21002
Si osservi che le distribuzioni marginali della tabella delle ferquenze teoriche n̂ij coincidono con quelle della tabella delle frequenze effettive nij .
Svolgimento punto d) Le contingenze Cij sono per definizione costituite dalla differenza tra la frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva
n̂ij :
Cij = nij − n̂ij
i = 1, 2, 3 j = 1, 2.
Il loro calcolo è riportato nella seguente tabella:
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
Nord (N)
-276.7605
744.8916
-468.1311
0
Centro-Sud (CS)
276.7605
-744.8916
468.1311
0
Totale
0
0
0
0
Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:
• C11 = −276.7605: la frequenza congiunta effettiva associata alle modalità A del
carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza
distributiva. Tra le modalità A del carattere “Settore di attività Economica”, e
N del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza
congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare
se tra i due caratteri vi fosse stata indipendenza distributiva;
1 LA CONNESSIONE
7
• C12 = 276.7605: la frequenza congiunta effettiva associata alle modalità A del
carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità A del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quanto
la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C21 = 744.8916: la frequenza congiunta effettiva associata alle modalità modalità I del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività
Economica” e N del carattere “Ripartizione Geografica” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C22 = −744.8916: la frequenza congiunta effettiva associata alle modalità modalità I del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività
Economica” e CS del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C31 = −468.1311: la frequenza congiunta effettiva associata alle modalità modalità AA del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività
Economica” e N del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C32 = 468.1311: la frequenza congiunta effettiva associata alle modalità modalità AA del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività
Economica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
Svolgimento punto e) Per contingenze relative si intendono le grandezze:
ρij =
Cij
n̂ij
i = 1, 2, 3
j = 1, 2.
1 LA CONNESSIONE
8
Il calcolo delle contingenze relative è riportato nella segeunte tabella:
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Nord (N) Centro-Sud (CS)
-0.2839
0.2202
-0.0756
0.2839
- 0.2202
0.0756
Il valore assunto dalle contingenze relative appena ricavate fornisce le seguenti informazioni:
• ρ11 = −0.2839: la frequenza congiunta effettiva associata alle modalità A
del carattere “Settore di Attività Economica” e N del carattere “Ripartizione
Geografica”, è inferiore del 28.39% rispetto a quella teorica d’indipendenza
distributiva.
• ρ12 = 0.2839: la frequenza congiunta effettiva associata alle modalità A del
carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, supera del 28.39% quella teorica d’indipendenza distributiva.
• ρ21 = 0.2202: la frequenza congiunta effettiva associata alle modalità I del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”,
supera del 22.02% quella teorica d’indipendenza distributiva.
• ρ22 = −0.2202: la frequenza congiunta effettiva associata alle modalità I del
carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, è inferiore del 22.02%rispetto a quella teorica d’indipendenza distributiva.
• ρ31 = −0.0756: la frequenza congiunta effettiva associata alle modalità AA
del carattere “Settore di Attività Economica” e N del carattere “Ripartizione
Geografica”, è inferiore del 7.56% rispetto a quella teorica d’indipendenza distributiva.
• ρ11 = 0.0756: la frequenza congiunta effettiva associata alle modalità AA
del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione
Geografica”, supera del 7.56% quella teorica d’indipendenza distributiva.
Svolgimento punto f ) Al fine di effettuare una sintesi delle contingenze relative in
precedenza calcolate, utilizziamo l’indice di connessione di Mortara e l’indice quadratico di connessione di K. Pearson.
L’indice di connessione di Mortara è dato da:
3
2
1 XX
|ρij | · n̂ij
M1 (|ρ|) =
N i=1 j=1
3
2
1 XX
=
|Cij |
N i=1 j=1
=
1
(276.7605 + 276.7605 + 744.8916 + 744.8916 + 468.1311 + 468.1311)
21002
1 LA CONNESSIONE
=
9
2979.5665
= 0.1419
21002
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 14.19% del valore di quest’ultime.
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
Ripartiz.
Attività
Agricoltura (A)
Industria (I)
Altre attività (AA)
Totale
Nord (N) Centro-Sud (CS)
78.5797
164.6532
35.6866
278.1958
78.5797
164.6532
35.6866
279.2044
Totale
157.4442
328.7117
71.2443
557.4002
L’indice quadratico di connessione di K.Pearson è dato da:
v
u
3 X
2
u1 X
t
M2 (|ρ|) =
ρ2 · n̂ij
N i=1 j=1 ij
v
u
3 X
2
u1 X
Cij2
t
=
N i=1 j=1 n̂ij
r
557.4002
=
= 0.1629
21002
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 16.29% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, è
opportuno ricorrere ad un indice normalizzato. Un indice che possiede tale caratteristica, viene ottenuto dividendo l’indice di connessione quadratico di Pearson per il
suo massimo valore assumibile. Il valore massimo assumibile da M2 (|ρ|) corrisponde
al caso di massima connessione tra i due caratteri e, in tale caso, si dimostra che
1
M2 (|ρ|) = (k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri.
Otteniamo quindi l’indice di connessione quadratico normalizzato:
C=
M2 (|ρ|)
1
(k − 1) 2
.
L’indice appena introdotto gode delle seguenti proprietà:
• 0 ≤ C ≤ 1;
• C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva;
1 LA CONNESSIONE
10
• C = 1 se e solo se tra i caratteri vi è massima connessione.
Nel nostro caso abbiamo:
0.1629
= 0.1629
1
Concludendo, l’indice quadratico di connessione di Pearson, è pari al 16.29% del suo
massimo valore (che corrisponde al caso di massima connessione). Si può quindi
concludere che tra i due caratteri “Settore di Attività Economica” e “Ripartizione
geografica” vi è un basso grado di connessione.
C=
2. I 300 partecipanti ad un concorso pubblico costituito dalle due prove C e D hanno
ottenuto le seguenti valutazioni:
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
80
6
4
28
60
35
15
21
51
123
87
90
Tot
90
123 .
87
300
a) Si confrontino le distribuzioni condizionate del carattere “Esito della prova C” e
si commenti;
b) calcolare le contingenze relative e fornire la loro interpretazione;
c) calcolare un indice di connessione ed interpretare il valore ottenuto.
Svolgimento
Svolgimento punto a) Le 3 distribuzioni condizionate, o parziali, del carattere “Esito
della prova C”, corrispondono alle colonne della tabella di contingenza fornita dal
testo dell’esercizio. Si osservi che tali distribuzioni parziali non sono direttamente
confrontabili in quanto hanno differente numerosità complessiva. Per effettuare un
confronto, è opportuno ricavare le distribuzioni condizionate (o parziali) di frequenze
relative:
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
0.6504
0.0690
0.0444
0.2276
0.6897
0.3889
0.1219
0.2414
0.5667
1
1
1
Tot
0.3
0.41
0.29
1
La tabella sopra riportata mostra che la quota di prove C valutate insufficienti, varia
al variare dell’esito della prova D. Lo stesso possiamo dire anche per le quote di prove
C che sono state valutate sufficienti o buone. Dato che, se i due caratteri in considerazione fossero indipendenti in distribuzione, tutte le distribuzioni condizionate di
fequenze relative sarebbero identiche, si può concludere che tra “Esito della prova C”
1 LA CONNESSIONE
11
ed “Esito della prova D” non vi è indipendenza distributiva.
Svolgimento punto b) Per calcolare le contingenze è comodo ricavare dapprima le frequenze congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo
che il valore di tale frequenze è dato da:
n̂ij =
ni. · n.j
N
i = 1, ..., r; j = 1, ..., c.
Il loro calcolo è riportato nella seguente tabella:
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
36.90
26.10
27.00
50.43
35.67
36.90
35.67
25.23
26.10
123
87
90
Tot
90
123
87
300
Nella seguente tabella sono riportati i valori delle contingenze Cij = nij − n̂ij :
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
43.10
-20.10
-23.00
-22.43
24.33
-1.90
-20.67
-4.23
24.90
0
0
0
Tot
0
0
0
0
A questo punto è possibile ricavare agevolmente le contingenze relative ρij ricordando
che:
Cij
i = 1, ..., r; j = 1, ..., c.
ρij =
n̂ij
Il loro valore è riportato nella seguente tabella:
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
1.168
-0.770
-0.852
-0.445
0.682
-0.051
-0.579
-0.168
0.954
Il valore assunto dalle contingenze relative appena ricavate, fornisce le seguenti informazioni:
• ρ11 = 1.168: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e ID del carattere “Esito della prova D”, supera
del 116.8% quella teorica d’indipendenza distributiva.
• ρ21 = −0.445: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore
del 44.5% rispetto a quella teorica d’indipendenza distributiva.
• ρ31 = −0.579: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è
inferiore del 57.9% rispetto a quella teorica d’indipendenza distributiva.
1 LA CONNESSIONE
12
• ρ12 = −0.770: la frequenza congiunta effettiva associata alle modalità SC del
carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore
del 77.0% rispetto a quella teorica d’indipendenza distributiva.
• ρ22 = 0.682: la frequenza congiunta effettiva associata alle modalità SC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera
del 68.2% quella teorica d’indipendenza distributiva.
• ρ32 = −0.168: la frequenza congiunta effettiva associata alle modalità SC del
carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è
inferiore del 16.8% rispetto a quella teorica d’indipendenza distributiva.
• ρ13 = −0.852: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore
del 85.2% rispetto a quella teorica d’indipendenza distributiva.
• ρ23 = −0.051: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore
del 5.1% rispetto a quella teorica d’indipendenza distributiva.
• ρ33 = 0.954: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera
del 95.4% quella teorica d’indipendenza distributiva.
Nel loro complesso le contingenze relative sembrano suggerire che tra i due caratteri
allo studio vi sia una elevata connessione, in particolare permettono di osservare la
tendenza dei partecipanti al concorso pubblico ad ottenere la medesima valutazione
in entrambe le prove. Infatti le coppie di modalità (IC ; ID ), (SC ; SD ) e (BC ; BD ) sono
le uniche che si “attraggono” e, come evidenziano i commenti fatti in precedenza, il
grado di tale attrazione è in genere elevato. E’ interessante anche osservare che il
grado di repulsione tende a crescere all’aumentare della diversità nella valutazione
delle due prove. Si osservi ad esempio che ρ31 < ρ21 .
Svolgimento punto c) Per completezza calcoliamo sia l’indice di connessione di Mortara sia l’indice quadratico di connessione di K.Pearson. L’indice di connessione di
Mortara è dato da:
3
3
1 XX
|ρij | · n̂ij
M1 (|ρ|) =
N i=1 j=1
=
3
3
1 XX
|Cij |
N i=1 j=1
1
(43.10 + 20.10 + 23.00 + 22.43 + 24.33 + 1.90 + 20.67 + 4.23 + 24.90)
300
184.66
=
= 0.6155
300
=
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 61.55% del valore di quest’ultime.
1 LA CONNESSIONE
13
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
50.34
15.48
19.59
9.98
16.60
0.10
11.98
0.71
23.76
72.30
32.78
43.45
Tot
85.41
26.67
36.44
148.53
L’indice quadratico di connessione di K.Pearson è dato da:
v
u
3 X
3
u1 X
ρ2 · n̂ij
M2 (|ρ|) = t
N i=1 j=1 ij
v
u
3 X
3
u1 X
Cij2
t
=
N i=1 j=1 n̂ij
r
148.53
= 0.7037
=
300
In alternativa, il valore di M2 (|ρ|) si sarebbe potuto ricavare mediante il procedimento
indiretto. A tal fine, ricordiamo che:
r
1 2
M2 (|ρ|) =
X
N
dove
X
2
3 X
3
X
(nij − n̂ij )2
=
n̂ij
i=1 j=1
=
3 X
3
X
n2ij
i=1 j=1
=
n̂ij
3
3 X
X
n2ij
i=1 j=1
n̂ij
−
3 X
3
X
i=1 j=1
n̂ij − 2
3 X
3
X
nij
i=1 j=1
−N
n2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori sono utili per
il calcolo, mediante il procedimento indiretto, dell’indice quadratico di connessione
di K. Pearson.
C\D
Insufficiente (IC )
Sufficiente (SC )
Buono (BC )
Tot
Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
173.4417
1.3793
0.5926
15.5463
100.9251
33.1978
6.3078
17.4792
99.6552
195.2958
119.7836
133.4456
Tot
175.4136374
149.6693
123.4422
448.5251
1 LA CONNESSIONE
14
In definitiva, si ha che:
X 2 = 448.5251 − 300 = 148.5251
r
1 2
X
N
r
1
=
148.5251
300
= 0.7037
M2 (|ρ|) =
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 70.37% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricorriamo all’indice normalizzato:
M2 (|ρ|)
C=
1
(k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel
nostro caso k = 3 da cui:
C =
M2 (|ρ|)
1
(3 − 1) 2
0.7037
√
=
2
= 0.4975
L’indice quadratico di connessione di Pearson, è pari al 49.75% del suo massimo valore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Esito della prova C” e “Esito della prova D” vi è un medio grado
di connessione.
3. I 400 studenti di due istituti di scuola media inferiore sono stati classificati in base
al sesso ed alla categoria di peso (sottopeso, peso forma, sovrappeso). Da tale
classificazione è emerso quanto segue:
1) i maschi sono il 40% degli studenti;
2) il 10% degli studenti è sottopeso; di questi il 30% sono maschi;
3) il 35% degli studenti è sovrappeso; di questi il 65% sono femmine.
a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri,
“Sesso” e “Peso”;
b) determinare le distribuzioni di frequenze relative condizionate di “Peso” da “Sesso”;
c) determinare le contingenze assolute e fornire la loro interpretazione;
1 LA CONNESSIONE
15
e) valutare la connessione tra i due caratteri mediante un indice basato sulle contingenze.
Svolgimento
Svolgimento punto a) Nel seguito indicheremo ripettivamente con M e F le modalità
maschio e femmina del carattere “Sesso” e con s, P ed S le modalità sottopeso, peso
forma e sovrappeso del carattere “Peso.”
Dall’informazione 1) del testo dell’esercizio abbiamo che
f r(M ) = 0.4
e di conseguenza
f r(F ) = 1 − f r(M ) = 0.6 .
Abbiamo in questo modo ricavato la distribuzione di frequenze relative marginali del
carattere “Sesso”.
Dall’informazione 2) del testo dell’esercizio abbiamo che
f r(s) = 0.1
ed inolte
f r(M |s) = 0.30 .
Ricordando che f r(M |s) =
f r(M,s)
f r(s)
abbiamo che
f r(M, s) = f r(M |s) · f r(s) = 0.30 · 0.1 = 0.03
e di conseguenza
f r(F, s) = f r(s) − f r(M, s) = 0.1 − 0.03 = 0.07 .
Abbiamo così ricato le frequenze congiunte relative delle modalità del carattere “Sesso” con la modalità s del carattere “Peso”.
Dall’informazione 3) del testo dell’esercizio abbiamo che
f r(S) = 0.35
e sfruttando quanto ricavato in precedenza abbiamo
f r(P ) = 1 − (f r(s) + f r(S)) = 1 − 0.1 − 0.35 = 0.55 .
Siamo in questo modo riusciti a ricavare l’intera distribuzione di frequenze relative
marginali del carattere “Peso”. Abbiamo inoltre che:
f r(F |S) = 0.65 .
Ricordando che f r(F |S) =
f r(F,S)
f r(S)
abbiamo
f r(F, S) = f r(F |S) · f r(S) = 0.65 · 0.35 = 0.2275
1 LA CONNESSIONE
16
e di conseguenza
f r(M, S) = f r(S) − f r(F, S) = 0.35 − 0.2275 = 0.1225 .
Siamo in questo modo riusciti a ricavare le frequenze congiunte relative delle modalità
del carattere “Sesso” con la modalità S del carattere “Peso”. Le frequenze congiunte
relative che risultano ancora incognite sono f r(M, P ) e f r(F, P ). Il loro valore è
calcolabile, sfruttando quanto in precedenza ricavato, nel seguente modo:
f r(M, P ) = f r(M ) − f r(M, s) − f r(M, S) = 0.4 − 0.03 − 0.1225 = 0.2475
f r(F, P ) = f r(F ) − f r(F, s) − f r(F, S) = 0.6 − 0.07 − 0.2275 = 0.3025
In definitiva, la distribuzione di fequenze congiunte relative è riportata nelle seguente
tabella:
Sesso\P eso
s
P
S
Tot
M
0.03 0.2475 0.1225 0.4
F
0.07 0.3025 0.2275 0.6
Tot
0.1
0.55
0.35
1
La distribuzione di frequenze assolute congiunte può essere a questo punto ricavata
semplicemente moltiplicando per N = 400 le frequenze relative congiunte appena
calcolate. Tale distribuzione è riportata nella tabella seguente:
Sesso\P eso
M
F
Tot
s
12
28
40
P
99
121
220
S
49
91
140
Tot
160
240
400
Svolgimento punto b) Iniziamo con il ricavare la distribuzione di frequenze condizionate di “Peso” relative alla modalità M di “Sesso”.
f r(s|M ) =
n(M, s)
0.03
12
f r(M, s)
=
=
=
= 0.075
f r(M )
n(M )
0.4
160
f r(P |M ) =
f r(M, P )
n(M, P )
0.2475
99
=
=
=
= 0.6188
f r(M )
n(M )
0.4
160
f r(S|M ) =
f r(M, S)
n(M, S)
0.1225
49
=
=
=
= 0.3063
f r(M )
n(M )
0.4
160
Procedendo in modo analogo possiamo ricavare la distribuzione di frequenze condizionate di “Peso” relative alla modalità F di “Sesso”. I risultati di questi calcoli e
di quelli già fatti in precedenza sono riportati nella seguente tabella.
Sesso\P eso
M
F
–
s
0.0750
0.1167
0.1
P
0.6188
0.5042
0.55
S
0.3062
0.3791
0.35
Tot
1.000
1.000
1.000
1 LA CONNESSIONE
17
Svolgimento punto c) Per calcolare le contingenze ricaviamo dapprima le frequenze
congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo che il
valore di tale frequenze è dato da:
n̂ij =
ni. · n.j
N
i = 1, ..., r; j = 1, ..., c.
Il loro calcolo è riportato nella seguente tabella:
Sesso\P eso
M
F
Tot
s
16
24
40
P
88
132
220
S
56
84
140
Tot
160
240
400
Di seguito sono riportati i valori delle contingenze Cij = nij − n̂ij :
Sesso\P eso
M
F
Tot
s
-4
4
0
P
11
-11
0
S
-7
7
0
Tot
0
0
0
Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:
• C11 = −4: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e s del carattere “Peso”, risulta essere minore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” ’ vi è repulsione in quanto la frequenza congiunta che
si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C21 = 4: la frequenza congiunta effettiva associata alle modalità F del carattere
“Sesso” e s del carattere “Peso”, risulta essere maggiore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si
è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C12 = 11: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e P del carattere “Peso”, risulta essere maggiore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere
“Sesso” e P del carattere “Peso” vi è attrazione in quanto la frequenza congiunta
che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i
due caratteri vi fosse stata indipendenza distributiva;
• C22 = −11: la frequenza congiunta effettiva associata alle modalità F del carattere “Sesso” e P del carattere “Peso”, risulta essere minore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere
1 LA CONNESSIONE
18
“Sesso” e P del carattere “Peso” vi è repulsione in quanto la frequenza congiunta
che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C13 = −7: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e S del carattere “Peso”, risulta essere minore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere
“Sesso” e S del carattere “Peso” vi è repulsione in quanto la frequenza congiunta
che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C23 = 7: la frequenza congiunta effettiva associata alle modalità F del carattere
“Sesso” e S del carattere “Peso”, risulta essere maggiore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e S del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che
si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
Svolgimento punto d) Per completezza calcoliamo sia l’indice di connessione di Mortara che l’indice quadratico di connessione di K.Pearson.
Al fine di agevolare il calcolo dell’indice di connessione di Mortara, riportiamo di
seguito la tabella delle contingenze in valore assoluto |Cij |.
Sesso\P eso
M
F
Tot
s
4
4
8
P
11
11
22
S
7
7
14
Tot
22
22
44
L’indice di connessione di Mortara è dato da:
r
c
1 XX
M1 (|ρ|) =
|Cij |
N i=1 j=1
44
= 0.11
400
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 11% del valore di quest’ultime.
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
=
Sesso\P eso
M
F
Tot
s
1.000
0.667
1.667
P
1.375
0.917
2.292
S
0.875
0.583
1.458
Tot
3.250
2.167
5.417
L’indice quadratico di connessione di K.Pearson è dato da:
v
u X
c
u1 r X
Cij2
t
M2 (|ρ|) =
N i=1 j=1 n̂ij
1 LA CONNESSIONE
19
r
=
5.417
= 0.1164
400
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 11.64% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricorriamo all’indice normalizzato:
M2 (|ρ|)
C=
1
(k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel
nostro caso k = 2 da cui:
C =
M2 (|ρ|)
1
(2 − 1) 2
0.1164
√
=
1
= 0.1164
L’indice quadratico di connessione di Pearson, è pari al 11.64% del suo massimo valore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Sesso” e “Peso” vi è un basso grado di connessione.
Fly UP