Comments
Transcript
STATISTICA: esercizi svolti sulla CONNESSIONE
STATISTICA: esercizi svolti sulla CONNESSIONE 1 1 LA CONNESSIONE 1 2 LA CONNESSIONE 1. I dati relativi alla popolazione occupata per grande ripartizione geografica e per settore di attività economica sono riportati nella seguente tabella: Ripartiz. Nord (N) Centro-Sud (CS) Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale 698 4127 5695 10520 1248 2625 6609 10482 Totale 1946 . 6752 12304 21002 a) Determinare la distribuzione bivariata di frequenze relative; b) determinare le distribuzioni condizionate di frequenze relative; c) valutare, mediante il calcolo delle frequenze teoriche, se esiste indipendenza distributiva tra i due caratteri. In caso di risposta negativa, costruire la tabella corrispondente a questa situazione; d) calcolare le contingenze e fornire la loro interpretazione; e) calcolare le contingenze relative e fornire la loro interpretazione; f) valutare la connessione tra i due caratteri mediante un indice basato sulle contingenze relative. Svolgimento. Svolgimento punto a) Le frequenze congiunte relative sono ricavabili dalle frequenze congiunte attraverso la relazione: f r(ai , bj ) = nij N per i = 1, 2, 3 e j = 1, 2. Nel nostro caso abbiamo ad esempio che: f r(A, N ) = n11 698 = = 0.0332 N 21002 Tale valore indica l’importanza numerica relativa degli individui che nella popolazione occupata sono caratterizzati dall’essere contemporaneamente impiegati in agricoltura e risiedere al nord. In particolare possiamo dire che il 3.32% della popolazione occupata risiede al nord ed è impiegata nel settore agricolo. f r(A, CS) = n12 1248 = = 0.0594 N 21002 Tale valore dice che il 5.94% della popolazione occupata risiede al centro sud ed è impiegata nel settore agricolo. Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte relative si ottiene la seguente tabella: 1 LA CONNESSIONE 3 Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale Nord (N) Centro-Sud (CS) 0.0332 0.1965 0.2712 0.5009 0.0594 0.1250 0.3147 0.4991 Totale 0.0926 . 0.3215 0.5859 1 • f r(I, N ) = 0.1965 indica che il 19.65% della popolazione occupata risiede al nord ed è impiegata nel settore industriale; • f r(I, CS) = 0.1250 indica che il 12.5% della popolazione occupata risiede al centro sud ed è impiegata nel settore industriale; • f r(AA, N ) = 0.2712 indica che il 27.12% della popolazione occupata risiede al nord ed è impiegata nelle altre attività; • f r(AA, CS) = 0.3147 indica che il 31.47% della popolazione occupata risiede al centro sud ed è impiegata nelle altre attività; Nell’ultima riga e colonna della tabella sopra ricavata sono riportate le frequenze marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore di Attività Economica”. Esse sono state ricavate, rispettivamente, utilizzando le espressioni: n.j f r(bj ) = j = 1, 2 N ni. i = 1, 2, 3. f r(ai ) = N Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le seguenti informazioni: • f r(N ) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord. • f r(CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al centro sud. Le frequenze marginali relative del carattere “Settore di Attività Economica” forniscono invece le seguenti informazioni: • f r(A) = 0.0926 indica che il 9.26% della popolazione occupata è impiegata nel settore agricolo. • f r(I) = 0.3215 indica che il 32.15% della popolazione occupata è impiegata nel settore industriale. • f r(AA) = 0.5859 indica che il 58.59% della popolazione occupata è impiegata in altre attività. 1 LA CONNESSIONE 4 Svolgimento punto b) Iniziamo con il calcolo delle frequenze relative condizionate del carattere “Settore di attività Economica”. Fissiamo innanzi tutto l’attenzione sulla distribuzione parziale associata alla modalità N del carattere “Ripartizione Geografica”. In tal caso le frequenze relative condizionate sono date da: f r(A|N ) = 698 n11 = = 0.0664 n.1 10520 4127 n21 = = 0.3923 n.1 10520 n31 5695 f r(AA|N ) = = = 0.5413 n.1 10520 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere “Settore di Attività Economica” condizionate alla modalità CS del carattere “Ripartizione Geografica”. I risultati sono riportati nella seguente tabella: f r(I|N ) = Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale Nord (N) Centro-Sud (CS) 0.0664 0.3923 0.5413 1 0.1191 0.2504 0.6305 1 — 0.0926 0.3215 0.5859 1 Si osservi che l’ultima colonna della tabella sopra riportata contiene le frequenze relative marginali del carattere “Settore di Attività Economica”. Le frequenze relative condizionate del carattere “Settore di Attività Economica” danno le seguenti informazioni: • f r(A|N ) = 0.0664 indica che il 6.64% della popolazione occupata residente al nord risulta essere impiegata nel settore agricolo; • f r(I|N ) = 0.3923 indica che il 39.23% della popolazione occupata residente al nord risulta essere impiegata nel settore industriale; • f r(AA|N ) = 0.5413 indica che il 54.13% della popolazione occupata residente al nord risulta essere impiegata in altre attività; • f r(A|CS) = 0.1191 indica che il 11.91% della popolazione occupata residente al centro sud risulta essere impiegata nel settore agricolo; • f r(I|CS) = 0.2504 indica che il 25.04% della popolazione occupata residente al centro sud risulta essere impiegata nel settore industriale; • f r(AA|CS) = 0.6305 indica che il 63.05% della popolazione occupata residente al centro sud risulta essere impiegata in altre attività. Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere “Ripartizione Geografica”, fissiamo innanzi tutto l’attenzione sulla distribuzione parziale 1 LA CONNESSIONE 5 associata alla modalità A del carattere “Settore di attività Economica”. In tal caso le frequenze relative condizionate sono date da: f r(N |A) = 698 n11 = = 0.3587 n1. 1946 n12 1248 = = 0.6413 n1. 1946 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere “Ripartizione Geografica” condizionate alla modalità I e AA del carattere “Settore di attività Economica”. I risultati di questi calcoli sono riportati sinteticamente nella seguente tabella: f r(CS|A) = Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) — Nord (N) Centro-Sud (CS) 0.3587 0.6112 0.4629 0.5009 0.6413 0.3888 0.5371 0.4991 Totale 1 1 1 1 Si osservi che l’ultima riga della tabella sopra riportata contiene le frequenze relative marginali del carattere “Ripartizione Geografica”. Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono le seguenti informazioni: • f r(N |A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata nel settore agricolo risiede al nord; • f r(CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata nel settore agricolo risiede al centro sud; • f r(N |I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel settore industriale risiede al nord; • f r(CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata nel settore industriale risiede al centro sud; • f r(N |AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata in altri settori risiede al nord; • f r(CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata in altri settori risiede al centro sud. Svolgimento punto c) Affinchè tra i due caratteri “Settore di attività Economica” e “Ripartizione geografica” vi sia indipendenza distributiva, è necessario che ciascuna delle frequenze congiunte nij coincida con la corrispondente frequenza teorica di n ·n indipendenza distributiva n̂ij = i.N .j : nij = n̂ij i = 1, 2, 3 j = 1, 2. 1 LA CONNESSIONE 6 E’ sufficiente che una sola frequenza congiunta differisca dalla corrispondente frequenza teorica per concludere che tra i due caratteri non vi è indipendenza distributiva. Ad esempio, se i due caratteri in considerazione fossero indipendenti in distribuzione, n11 dovrebbe coincidere con: n̂11 = 1946 · 10520 n1. · n.1 = = 974.7605 N 21002 In realtà abbiamo che n11 = 698 6= n̂11 e di conseguenza tra i due caratteri in considerazione non vi è indipendenza distributiva. Come richiesto dal testo dell’esercizio, si ricava la tabella delle frequenze teoriche nel caso di indipendenza distributiva: Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale Nord (N) Centro-Sud (CS) 974.7605 3382.1084 6163.1311 10520 971.2395 3369.8916 6140.8689 10482 Totale 1946 6752 12304 21002 Si osservi che le distribuzioni marginali della tabella delle ferquenze teoriche n̂ij coincidono con quelle della tabella delle frequenze effettive nij . Svolgimento punto d) Le contingenze Cij sono per definizione costituite dalla differenza tra la frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva n̂ij : Cij = nij − n̂ij i = 1, 2, 3 j = 1, 2. Il loro calcolo è riportato nella seguente tabella: Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale Nord (N) -276.7605 744.8916 -468.1311 0 Centro-Sud (CS) 276.7605 -744.8916 468.1311 0 Totale 0 0 0 0 Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli. Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni: • C11 = −276.7605: la frequenza congiunta effettiva associata alle modalità A del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità A del carattere “Settore di attività Economica”, e N del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; 1 LA CONNESSIONE 7 • C12 = 276.7605: la frequenza congiunta effettiva associata alle modalità A del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità A del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C21 = 744.8916: la frequenza congiunta effettiva associata alle modalità modalità I del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C22 = −744.8916: la frequenza congiunta effettiva associata alle modalità modalità I del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C31 = −468.1311: la frequenza congiunta effettiva associata alle modalità modalità AA del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C32 = 468.1311: la frequenza congiunta effettiva associata alle modalità modalità AA del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; Svolgimento punto e) Per contingenze relative si intendono le grandezze: ρij = Cij n̂ij i = 1, 2, 3 j = 1, 2. 1 LA CONNESSIONE 8 Il calcolo delle contingenze relative è riportato nella segeunte tabella: Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Nord (N) Centro-Sud (CS) -0.2839 0.2202 -0.0756 0.2839 - 0.2202 0.0756 Il valore assunto dalle contingenze relative appena ricavate fornisce le seguenti informazioni: • ρ11 = −0.2839: la frequenza congiunta effettiva associata alle modalità A del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, è inferiore del 28.39% rispetto a quella teorica d’indipendenza distributiva. • ρ12 = 0.2839: la frequenza congiunta effettiva associata alle modalità A del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, supera del 28.39% quella teorica d’indipendenza distributiva. • ρ21 = 0.2202: la frequenza congiunta effettiva associata alle modalità I del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, supera del 22.02% quella teorica d’indipendenza distributiva. • ρ22 = −0.2202: la frequenza congiunta effettiva associata alle modalità I del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, è inferiore del 22.02%rispetto a quella teorica d’indipendenza distributiva. • ρ31 = −0.0756: la frequenza congiunta effettiva associata alle modalità AA del carattere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”, è inferiore del 7.56% rispetto a quella teorica d’indipendenza distributiva. • ρ11 = 0.0756: la frequenza congiunta effettiva associata alle modalità AA del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Geografica”, supera del 7.56% quella teorica d’indipendenza distributiva. Svolgimento punto f ) Al fine di effettuare una sintesi delle contingenze relative in precedenza calcolate, utilizziamo l’indice di connessione di Mortara e l’indice quadratico di connessione di K. Pearson. L’indice di connessione di Mortara è dato da: 3 2 1 XX |ρij | · n̂ij M1 (|ρ|) = N i=1 j=1 3 2 1 XX = |Cij | N i=1 j=1 = 1 (276.7605 + 276.7605 + 744.8916 + 744.8916 + 468.1311 + 468.1311) 21002 1 LA CONNESSIONE = 9 2979.5665 = 0.1419 21002 Il valore appena individuato informa che, in media, le frequenze effettive differiscono da quelle teoriche del 14.19% del valore di quest’ultime. C2 Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili per il calcolo dell’indice quadratico di connessione di K. Pearson. Ripartiz. Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale Nord (N) Centro-Sud (CS) 78.5797 164.6532 35.6866 278.1958 78.5797 164.6532 35.6866 279.2044 Totale 157.4442 328.7117 71.2443 557.4002 L’indice quadratico di connessione di K.Pearson è dato da: v u 3 X 2 u1 X t M2 (|ρ|) = ρ2 · n̂ij N i=1 j=1 ij v u 3 X 2 u1 X Cij2 t = N i=1 j=1 n̂ij r 557.4002 = = 0.1629 21002 Il valore appena individuato informa che, in media quadratica, le frequenze effettive differiscono da quelle teoriche del 16.29% del valore di quest’ultime. Per avere informazioni sul grado della connessione esistente tra i due caratteri, è opportuno ricorrere ad un indice normalizzato. Un indice che possiede tale caratteristica, viene ottenuto dividendo l’indice di connessione quadratico di Pearson per il suo massimo valore assumibile. Il valore massimo assumibile da M2 (|ρ|) corrisponde al caso di massima connessione tra i due caratteri e, in tale caso, si dimostra che 1 M2 (|ρ|) = (k − 1) 2 dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Otteniamo quindi l’indice di connessione quadratico normalizzato: C= M2 (|ρ|) 1 (k − 1) 2 . L’indice appena introdotto gode delle seguenti proprietà: • 0 ≤ C ≤ 1; • C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva; 1 LA CONNESSIONE 10 • C = 1 se e solo se tra i caratteri vi è massima connessione. Nel nostro caso abbiamo: 0.1629 = 0.1629 1 Concludendo, l’indice quadratico di connessione di Pearson, è pari al 16.29% del suo massimo valore (che corrisponde al caso di massima connessione). Si può quindi concludere che tra i due caratteri “Settore di Attività Economica” e “Ripartizione geografica” vi è un basso grado di connessione. C= 2. I 300 partecipanti ad un concorso pubblico costituito dalle due prove C e D hanno ottenuto le seguenti valutazioni: C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 80 6 4 28 60 35 15 21 51 123 87 90 Tot 90 123 . 87 300 a) Si confrontino le distribuzioni condizionate del carattere “Esito della prova C” e si commenti; b) calcolare le contingenze relative e fornire la loro interpretazione; c) calcolare un indice di connessione ed interpretare il valore ottenuto. Svolgimento Svolgimento punto a) Le 3 distribuzioni condizionate, o parziali, del carattere “Esito della prova C”, corrispondono alle colonne della tabella di contingenza fornita dal testo dell’esercizio. Si osservi che tali distribuzioni parziali non sono direttamente confrontabili in quanto hanno differente numerosità complessiva. Per effettuare un confronto, è opportuno ricavare le distribuzioni condizionate (o parziali) di frequenze relative: C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 0.6504 0.0690 0.0444 0.2276 0.6897 0.3889 0.1219 0.2414 0.5667 1 1 1 Tot 0.3 0.41 0.29 1 La tabella sopra riportata mostra che la quota di prove C valutate insufficienti, varia al variare dell’esito della prova D. Lo stesso possiamo dire anche per le quote di prove C che sono state valutate sufficienti o buone. Dato che, se i due caratteri in considerazione fossero indipendenti in distribuzione, tutte le distribuzioni condizionate di fequenze relative sarebbero identiche, si può concludere che tra “Esito della prova C” 1 LA CONNESSIONE 11 ed “Esito della prova D” non vi è indipendenza distributiva. Svolgimento punto b) Per calcolare le contingenze è comodo ricavare dapprima le frequenze congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo che il valore di tale frequenze è dato da: n̂ij = ni. · n.j N i = 1, ..., r; j = 1, ..., c. Il loro calcolo è riportato nella seguente tabella: C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 36.90 26.10 27.00 50.43 35.67 36.90 35.67 25.23 26.10 123 87 90 Tot 90 123 87 300 Nella seguente tabella sono riportati i valori delle contingenze Cij = nij − n̂ij : C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 43.10 -20.10 -23.00 -22.43 24.33 -1.90 -20.67 -4.23 24.90 0 0 0 Tot 0 0 0 0 A questo punto è possibile ricavare agevolmente le contingenze relative ρij ricordando che: Cij i = 1, ..., r; j = 1, ..., c. ρij = n̂ij Il loro valore è riportato nella seguente tabella: C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 1.168 -0.770 -0.852 -0.445 0.682 -0.051 -0.579 -0.168 0.954 Il valore assunto dalle contingenze relative appena ricavate, fornisce le seguenti informazioni: • ρ11 = 1.168: la frequenza congiunta effettiva associata alle modalità IC del carattere “Esito della prova C” e ID del carattere “Esito della prova D”, supera del 116.8% quella teorica d’indipendenza distributiva. • ρ21 = −0.445: la frequenza congiunta effettiva associata alle modalità IC del carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore del 44.5% rispetto a quella teorica d’indipendenza distributiva. • ρ31 = −0.579: la frequenza congiunta effettiva associata alle modalità IC del carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è inferiore del 57.9% rispetto a quella teorica d’indipendenza distributiva. 1 LA CONNESSIONE 12 • ρ12 = −0.770: la frequenza congiunta effettiva associata alle modalità SC del carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore del 77.0% rispetto a quella teorica d’indipendenza distributiva. • ρ22 = 0.682: la frequenza congiunta effettiva associata alle modalità SC del carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera del 68.2% quella teorica d’indipendenza distributiva. • ρ32 = −0.168: la frequenza congiunta effettiva associata alle modalità SC del carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è inferiore del 16.8% rispetto a quella teorica d’indipendenza distributiva. • ρ13 = −0.852: la frequenza congiunta effettiva associata alle modalità BC del carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore del 85.2% rispetto a quella teorica d’indipendenza distributiva. • ρ23 = −0.051: la frequenza congiunta effettiva associata alle modalità BC del carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore del 5.1% rispetto a quella teorica d’indipendenza distributiva. • ρ33 = 0.954: la frequenza congiunta effettiva associata alle modalità BC del carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera del 95.4% quella teorica d’indipendenza distributiva. Nel loro complesso le contingenze relative sembrano suggerire che tra i due caratteri allo studio vi sia una elevata connessione, in particolare permettono di osservare la tendenza dei partecipanti al concorso pubblico ad ottenere la medesima valutazione in entrambe le prove. Infatti le coppie di modalità (IC ; ID ), (SC ; SD ) e (BC ; BD ) sono le uniche che si “attraggono” e, come evidenziano i commenti fatti in precedenza, il grado di tale attrazione è in genere elevato. E’ interessante anche osservare che il grado di repulsione tende a crescere all’aumentare della diversità nella valutazione delle due prove. Si osservi ad esempio che ρ31 < ρ21 . Svolgimento punto c) Per completezza calcoliamo sia l’indice di connessione di Mortara sia l’indice quadratico di connessione di K.Pearson. L’indice di connessione di Mortara è dato da: 3 3 1 XX |ρij | · n̂ij M1 (|ρ|) = N i=1 j=1 = 3 3 1 XX |Cij | N i=1 j=1 1 (43.10 + 20.10 + 23.00 + 22.43 + 24.33 + 1.90 + 20.67 + 4.23 + 24.90) 300 184.66 = = 0.6155 300 = Il valore appena individuato informa che, in media, le frequenze effettive differiscono da quelle teoriche del 61.55% del valore di quest’ultime. 1 LA CONNESSIONE 13 C2 Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili per il calcolo dell’indice quadratico di connessione di K. Pearson. C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 50.34 15.48 19.59 9.98 16.60 0.10 11.98 0.71 23.76 72.30 32.78 43.45 Tot 85.41 26.67 36.44 148.53 L’indice quadratico di connessione di K.Pearson è dato da: v u 3 X 3 u1 X ρ2 · n̂ij M2 (|ρ|) = t N i=1 j=1 ij v u 3 X 3 u1 X Cij2 t = N i=1 j=1 n̂ij r 148.53 = 0.7037 = 300 In alternativa, il valore di M2 (|ρ|) si sarebbe potuto ricavare mediante il procedimento indiretto. A tal fine, ricordiamo che: r 1 2 M2 (|ρ|) = X N dove X 2 3 X 3 X (nij − n̂ij )2 = n̂ij i=1 j=1 = 3 X 3 X n2ij i=1 j=1 = n̂ij 3 3 X X n2ij i=1 j=1 n̂ij − 3 X 3 X i=1 j=1 n̂ij − 2 3 X 3 X nij i=1 j=1 −N n2 Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori sono utili per il calcolo, mediante il procedimento indiretto, dell’indice quadratico di connessione di K. Pearson. C\D Insufficiente (IC ) Sufficiente (SC ) Buono (BC ) Tot Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) 173.4417 1.3793 0.5926 15.5463 100.9251 33.1978 6.3078 17.4792 99.6552 195.2958 119.7836 133.4456 Tot 175.4136374 149.6693 123.4422 448.5251 1 LA CONNESSIONE 14 In definitiva, si ha che: X 2 = 448.5251 − 300 = 148.5251 r 1 2 X N r 1 = 148.5251 300 = 0.7037 M2 (|ρ|) = Il valore appena individuato informa che, in media quadratica, le frequenze effettive differiscono da quelle teoriche del 70.37% del valore di quest’ultime. Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricorriamo all’indice normalizzato: M2 (|ρ|) C= 1 (k − 1) 2 dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel nostro caso k = 3 da cui: C = M2 (|ρ|) 1 (3 − 1) 2 0.7037 √ = 2 = 0.4975 L’indice quadratico di connessione di Pearson, è pari al 49.75% del suo massimo valore (che corrisponde al caso di massima connessione). Si può quindi concludere che tra i due caratteri “Esito della prova C” e “Esito della prova D” vi è un medio grado di connessione. 3. I 400 studenti di due istituti di scuola media inferiore sono stati classificati in base al sesso ed alla categoria di peso (sottopeso, peso forma, sovrappeso). Da tale classificazione è emerso quanto segue: 1) i maschi sono il 40% degli studenti; 2) il 10% degli studenti è sottopeso; di questi il 30% sono maschi; 3) il 35% degli studenti è sovrappeso; di questi il 65% sono femmine. a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri, “Sesso” e “Peso”; b) determinare le distribuzioni di frequenze relative condizionate di “Peso” da “Sesso”; c) determinare le contingenze assolute e fornire la loro interpretazione; 1 LA CONNESSIONE 15 e) valutare la connessione tra i due caratteri mediante un indice basato sulle contingenze. Svolgimento Svolgimento punto a) Nel seguito indicheremo ripettivamente con M e F le modalità maschio e femmina del carattere “Sesso” e con s, P ed S le modalità sottopeso, peso forma e sovrappeso del carattere “Peso.” Dall’informazione 1) del testo dell’esercizio abbiamo che f r(M ) = 0.4 e di conseguenza f r(F ) = 1 − f r(M ) = 0.6 . Abbiamo in questo modo ricavato la distribuzione di frequenze relative marginali del carattere “Sesso”. Dall’informazione 2) del testo dell’esercizio abbiamo che f r(s) = 0.1 ed inolte f r(M |s) = 0.30 . Ricordando che f r(M |s) = f r(M,s) f r(s) abbiamo che f r(M, s) = f r(M |s) · f r(s) = 0.30 · 0.1 = 0.03 e di conseguenza f r(F, s) = f r(s) − f r(M, s) = 0.1 − 0.03 = 0.07 . Abbiamo così ricato le frequenze congiunte relative delle modalità del carattere “Sesso” con la modalità s del carattere “Peso”. Dall’informazione 3) del testo dell’esercizio abbiamo che f r(S) = 0.35 e sfruttando quanto ricavato in precedenza abbiamo f r(P ) = 1 − (f r(s) + f r(S)) = 1 − 0.1 − 0.35 = 0.55 . Siamo in questo modo riusciti a ricavare l’intera distribuzione di frequenze relative marginali del carattere “Peso”. Abbiamo inoltre che: f r(F |S) = 0.65 . Ricordando che f r(F |S) = f r(F,S) f r(S) abbiamo f r(F, S) = f r(F |S) · f r(S) = 0.65 · 0.35 = 0.2275 1 LA CONNESSIONE 16 e di conseguenza f r(M, S) = f r(S) − f r(F, S) = 0.35 − 0.2275 = 0.1225 . Siamo in questo modo riusciti a ricavare le frequenze congiunte relative delle modalità del carattere “Sesso” con la modalità S del carattere “Peso”. Le frequenze congiunte relative che risultano ancora incognite sono f r(M, P ) e f r(F, P ). Il loro valore è calcolabile, sfruttando quanto in precedenza ricavato, nel seguente modo: f r(M, P ) = f r(M ) − f r(M, s) − f r(M, S) = 0.4 − 0.03 − 0.1225 = 0.2475 f r(F, P ) = f r(F ) − f r(F, s) − f r(F, S) = 0.6 − 0.07 − 0.2275 = 0.3025 In definitiva, la distribuzione di fequenze congiunte relative è riportata nelle seguente tabella: Sesso\P eso s P S Tot M 0.03 0.2475 0.1225 0.4 F 0.07 0.3025 0.2275 0.6 Tot 0.1 0.55 0.35 1 La distribuzione di frequenze assolute congiunte può essere a questo punto ricavata semplicemente moltiplicando per N = 400 le frequenze relative congiunte appena calcolate. Tale distribuzione è riportata nella tabella seguente: Sesso\P eso M F Tot s 12 28 40 P 99 121 220 S 49 91 140 Tot 160 240 400 Svolgimento punto b) Iniziamo con il ricavare la distribuzione di frequenze condizionate di “Peso” relative alla modalità M di “Sesso”. f r(s|M ) = n(M, s) 0.03 12 f r(M, s) = = = = 0.075 f r(M ) n(M ) 0.4 160 f r(P |M ) = f r(M, P ) n(M, P ) 0.2475 99 = = = = 0.6188 f r(M ) n(M ) 0.4 160 f r(S|M ) = f r(M, S) n(M, S) 0.1225 49 = = = = 0.3063 f r(M ) n(M ) 0.4 160 Procedendo in modo analogo possiamo ricavare la distribuzione di frequenze condizionate di “Peso” relative alla modalità F di “Sesso”. I risultati di questi calcoli e di quelli già fatti in precedenza sono riportati nella seguente tabella. Sesso\P eso M F – s 0.0750 0.1167 0.1 P 0.6188 0.5042 0.55 S 0.3062 0.3791 0.35 Tot 1.000 1.000 1.000 1 LA CONNESSIONE 17 Svolgimento punto c) Per calcolare le contingenze ricaviamo dapprima le frequenze congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo che il valore di tale frequenze è dato da: n̂ij = ni. · n.j N i = 1, ..., r; j = 1, ..., c. Il loro calcolo è riportato nella seguente tabella: Sesso\P eso M F Tot s 16 24 40 P 88 132 220 S 56 84 140 Tot 160 240 400 Di seguito sono riportati i valori delle contingenze Cij = nij − n̂ij : Sesso\P eso M F Tot s -4 4 0 P 11 -11 0 S -7 7 0 Tot 0 0 0 Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli. Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni: • C11 = −4: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e s del carattere “Peso”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso” e s del carattere “Peso” ’ vi è repulsione in quanto la frequenza congiunta che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C21 = 4: la frequenza congiunta effettiva associata alle modalità F del carattere “Sesso” e s del carattere “Peso”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso” e s del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C12 = 11: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e P del carattere “Peso”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere “Sesso” e P del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C22 = −11: la frequenza congiunta effettiva associata alle modalità F del carattere “Sesso” e P del carattere “Peso”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere 1 LA CONNESSIONE 18 “Sesso” e P del carattere “Peso” vi è repulsione in quanto la frequenza congiunta che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C13 = −7: la frequenza congiunta effettiva associata alle modalità M del carattere “Sesso” e S del carattere “Peso”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere “Sesso” e S del carattere “Peso” vi è repulsione in quanto la frequenza congiunta che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; • C23 = 7: la frequenza congiunta effettiva associata alle modalità F del carattere “Sesso” e S del carattere “Peso”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso” e S del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; Svolgimento punto d) Per completezza calcoliamo sia l’indice di connessione di Mortara che l’indice quadratico di connessione di K.Pearson. Al fine di agevolare il calcolo dell’indice di connessione di Mortara, riportiamo di seguito la tabella delle contingenze in valore assoluto |Cij |. Sesso\P eso M F Tot s 4 4 8 P 11 11 22 S 7 7 14 Tot 22 22 44 L’indice di connessione di Mortara è dato da: r c 1 XX M1 (|ρ|) = |Cij | N i=1 j=1 44 = 0.11 400 Il valore appena individuato informa che, in media, le frequenze effettive differiscono da quelle teoriche del 11% del valore di quest’ultime. C2 Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili per il calcolo dell’indice quadratico di connessione di K. Pearson. = Sesso\P eso M F Tot s 1.000 0.667 1.667 P 1.375 0.917 2.292 S 0.875 0.583 1.458 Tot 3.250 2.167 5.417 L’indice quadratico di connessione di K.Pearson è dato da: v u X c u1 r X Cij2 t M2 (|ρ|) = N i=1 j=1 n̂ij 1 LA CONNESSIONE 19 r = 5.417 = 0.1164 400 Il valore appena individuato informa che, in media quadratica, le frequenze effettive differiscono da quelle teoriche del 11.64% del valore di quest’ultime. Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricorriamo all’indice normalizzato: M2 (|ρ|) C= 1 (k − 1) 2 dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel nostro caso k = 2 da cui: C = M2 (|ρ|) 1 (2 − 1) 2 0.1164 √ = 1 = 0.1164 L’indice quadratico di connessione di Pearson, è pari al 11.64% del suo massimo valore (che corrisponde al caso di massima connessione). Si può quindi concludere che tra i due caratteri “Sesso” e “Peso” vi è un basso grado di connessione.