STATISTICA: esercizi svolti su RAPPORTI STATISTICI E NUMERI
by user
Comments
Transcript
STATISTICA: esercizi svolti su RAPPORTI STATISTICI E NUMERI
STATISTICA: esercizi svolti su RAPPORTI STATISTICI E NUMERI INDICI 1 1 RAPPORTI STATISTICI E NUMERI INDICI 1 2 RAPPORTI STATISTICI E NUMERI INDICI 1. La seguente tabella riporta il numero di studenti iscritti ai corsi di laurea della facoltà di statistica di due città nell’anno accademico 1992/93: Corso S. Stat. Dem. S. Stat. Att. S. Stat. Econ. Roma 802 443 1194 Trieste 228 189 534 Si valuti l’importanza numerica relativa dei diversi corsi di laurea, si confrontino i risultati e si commentino. Si indichi inoltre quale tipo di rapporto statistico è stato utilizzato. Svolgimento Al fine di valutare l’importanza numerica relativa dei diversi corsi di laurea presso la facoltà di statistica di Roma, è opportuno utilizzare dei rapporti di composizione (o di parte al tutto). Per il calcolo di quest’ultimi è necessario disporre del numero totale di iscritti ai corsi di laurea della facoltà di statistica di Roma. Dalla tabella fornita dal testo dell’esercizio otteniamo: Corso S. Stat. Dem. S. Stat. Att. S. Stat. Econ. Tot. Roma 802 443 1194 2439 I rapporti di composizione desiderati risultano quindi essere: 802 = 0.3288 per quanto riguarda il corso in Scienze Statistiche e Demogra2439 fiche; 443 • = 0.1816 per quanto riguarda il corso in Scienze Statistiche ed Attuariali; 2439 1194 • = 0.4895 per quanto riguarda il corso in Scienze Statistiche ed Economiche 2493 • I risultati ottenuti ci dicono che presso la facoltà di statistica di Roma, il 32.88% degli studenti è iscritto al corso di laurea in Scienze Statistiche e Demografiche, il 18.16% degli studenti è iscritto al corso di laurea in Scienze Statistiche ed Attuariali mentre il restante 48.95% è iscritto al corso di laurea in Scienze Statistiche ed Economiche. Procedendo nello stesso modo anche per la facoltà di statistica di Trieste si ottiene: Corso S. Stat. Dem. S. Stat. Att. S. Stat. Econ. Tot. Trieste 228 189 534 951 1 RAPPORTI STATISTICI E NUMERI INDICI 3 I rapporti di composizione desiderati risultano essere: 228 = 0.2397 per quanto riguarda il corso in Scienze Statistiche e Demografiche; 951 189 • = 0.1987 per quanto riguarda il corso in Scienze Statistiche ed Attuariali; 951 534 • = 0.5615 per quanto riguarda il corso in Scienze Statistiche ed Economiche 951 • I risultati ottenuti ci dicono che presso la facoltà di statistica di Trieste, il 23.97% degli studenti è iscritto al corso di laurea in Scienze Statistiche e Demografiche, il 19.97% degli studenti è iscritto al corso di laurea in Scienze Statistiche ed Attuariali mentre il restante 56.15% è iscritto al corso di laurea in Scienze Statistiche ed Economiche. In generale osserviamo che, in entrambe le facoltà, il corso di laurea con un’importanza numerica relativa maggiore è quello in Scienze Statistiche ed Economiche seguito dal corso in Scienze Statisitche e Demografiche. Il corso in Scienze Statistiche ed attuariali risulta invece essere quello con un’importanza numerica relativa minore in entrambe le facoltà. Osserviamo anche che l’importanza numerica relativa del corso in Scienze statistiche e Demografiche è più alta presso la facoltà di Roma mentre i corsi in Scienze Statistiche ed Attuariali e in scienze Statistiche ed Economiche hanno un’importanza numerica relativa più elevata nella facoltà di Trieste. 2. La seguente tabella riporta il numero di esami sostenuti nell’anno 2002 per il conseguimento delle patenti di guida (A-B-C-D-E-Speciali) nelle province di Milano e di Roma e il numero di esaminandi risultati idonei (Fonte Ministero delle Infrastrutture e dei Trasporti): Provincia Esami Idonei Milano 124398 93820 Roma 166641 130300 Si valuti in quale delle due province l’esito degli esami è stato migliore. Si riconosca la natura del rapporto 124398/166641 e se ne interpreti il risultato. Svolgimento Per valutare in quale delle due provincie si è avuto il miglior esito degli esami, è opportuno calcolare i seguenti rapporti di composizione: n◦ n◦ di idonei in provincia di Milano di esami svolti in provincia di Milano n◦ n◦ di idonei in provincia di Roma . di esami svolti in provincia di Roma Sulla base delle informazioni contenute nella tabella fornita dal testo dell’esercizio i rapporti di composizione desiderati risultano essere: 93820 = 0.7542 per quanto riguarda la provincia di Milano; 124398 130300 • = 0.7819 per quanto riguarda per quanto riguarda la provincia di Roma. 166641 • 1 RAPPORTI STATISTICI E NUMERI INDICI 4 I risultati ottenuti ci dicono che, nella provincia di Milano, il 75.42% degli esaminati sono risultati idonei. Nella provincia di Roma tale percentuale sale invece al 78.19%. Possiamo quindi concludere che l’esito degli esami è stato migliore nella provincia di Roma. Il rapporto statistico 124398 n◦ di esami svolti in provincia di Milano = = 0.7465 ◦ n di esami svolti in provincia di Roma 166641 è un rapporto di coesistenza e ci informa che per ogni 100 esami sostenuti a in provincia di Roma, ne sono stati sostenuti circa 75 in provincia di Milano. 3. La seguente tabella riporta per alcune regioni il numero di incidenti stradali verificatesi in un anno e la lunghezza della rete stradale in chilometri: Regioni Piemonte Lombardia Friuli V.G. Emilia Romagna Umbria Lazio Campania Basilicata Sicilia Sardegna Incidenti 18840 47387 10268 31379 4520 53130 14251 1218 10283 5562 Lungh. Rete Stradale 30907 27943 5885 29038 6639 19063 16828 6415 20833 12132 Calcolare in quale regione si è avuta una maggiore densità di incidenti stradali e confrontarlo con l’analogo indice per la nazione, sapendo che in Italia si sono verificati nell’anno considerato 292762 incidenti e che la lunghezza della rete stradale è pari a 303365 Km. Svolgimento Al fine di individuare la regione in cui si è avuta una maggiore densità di incidenti stradali, è opportuno calcolare, relativamente ad ogni regione, il rapporto di densità: n◦ di incidenti . lunghezza della rete stradale Ad esempio, nel caso della regione Piemonte, tale rapporto è dato da 18840 = 0.6096 30907 1 RAPPORTI STATISTICI E NUMERI INDICI 5 e ci indica che in Piemonte, in un anno, si sono verificati 0.6096 incidenti stradali per km di strada. Nel caso della regione Friuli Venezia Giulia il rapporto è dato da 10268 = 1.7448 5885 e ci indica che in Friuli Venezia Giulia, in un anno, si sono verificati 1.7448 incidenti per km di strada. Procedendo analogamente per le restanti regioni si ottiene: Regioni Piemonte Lombardia Friuli V.G. Emilia Romagna Umbria Lazio Campania Basilicata Sicilia Sardegna Incidenti 18840 47387 10268 31379 4520 53130 14251 1218 10283 5562 Lungh. Rete Stradale 30907 27943 5885 29038 6639 19063 16828 6415 20833 12132 Rapporto di densità 0.6096 1.6958 1.7448 1.0806 0.6808 2.7871 0.8469 0.1899 0.4936 0.4585 Osservando i risultati riportati nella tabella concludiamo che la regione nella quale si è avuta una maggiore densità di incidenti stradali è il Lazio. In tale regione, in un anno, si sono verificati 2.7871 incidenti stradali per km di strada. Per quanto riguarda l’Italia, il rapporto di densità è dato da 292762 = 0.9650 303365 e ci indica che in Italia, in un anno, si sono verificati 0.9650 incidenti per km di strada. Questo risultato mostra che la densità di incidenti stradali in Lazio è circa tre volte più alta di quella dell’Italia. 4. La seguente tabella riporta il numero di nati vivi nel 2004 ripartiti per sesso: Sesso Nati Vivi Maschi 288850 Femmine 273749 Totale 562599 a) Sapendo che nel 2004 la popolazione in Italia era di 57888300 unità calcolare il quoziente di natalità; b) calcolare quanti maschi e femmine nascono ogni cento nati in Italia; c) calcolare quanti maschi sono nati nel 2004 per ogni 100 femmine (indice di mascolinità); calcolare quante femmine sono nate nel 2004 per ogni 100 maschi (indice 1 RAPPORTI STATISTICI E NUMERI INDICI 6 di femminilità). Svolgimento Svolgimento punto a). derivazione dato da: Ricordiamo che il quoziente di natalità è un rapporto di n◦ di nati vivi (avvenuti nell’anno) Totale popolazione (rilevata nell’anno) Sulla base dei dati forniti dal testo dell’esecizio, il quoziente di natalità per l’Italia nel 2004 è pari a 562599 = 0.009719 . 57888300 Solitamente questo indice viene moltiplicato per 1000. In tal caso esso assume valore pari a 9.719. Concludendo: in Italia, nel 2004, si sono avuti 9.719 nati vivi ogni mille abitanti. Svolgimento punto b). Al fine di calcolare quanti maschi e quante femmine nascono ogni 100 nati vivi in Italia, è opportuno calcolare i seguenti rapporti di composizione percentuali: 288850 maschi nati vivi · 100 = = 51.34 totale nati vivi 562599 273749 femmine nate vive · 100 = = 48.66 totale nati vivi 562599 Tali rapporti ci dicono che in Italia, nel 2004, sono nati circa 51 maschi ogni 100 nati vivi e circa 49 femmine ogni 100 nati vivi. Svolgimento punto c). Gli indici di mascolinità e di femminilità sono dei rapporti di coesistenza percentuali rispettivamente dati da: 288850 n◦ di maschi nati vivi · 100 = · 100 = 105.52 ◦ n di femmine nate vive 273749 n◦ di femmine nate vive 273749 · 100 = · 100 = 94.77 ◦ n di maschi nati vivi 288850 L’indice di mascolinità ci dice che in Italia, nel 2004, sono nati circa 106 maschi ogni 100 nate femmine. L’indice di femminilità ci dice invece che in Italia, nel 2004, sono nate circa 95 femmine ogni 100 nati maschi. 5. La popolazione residente (in migliaia) nel comune di Milano dal 1991 al 1996 ha avuto il seguente andamento: 1991 1368 1992 1359 1993 1334 1994 1322 1995 1306 1996 1304 Si costruiscano le serie dei numeri indici a base fissa (1991=100), base fissa (1999=100) e base mobile. Si commentino i risultati ottenuti. 1 RAPPORTI STATISTICI E NUMERI INDICI 7 Svolgimento Si indichino con P91 , P92 , ..., P96 rispettivamente la popolazione residente nel comune di Milano negli anni 1991, 1992, ..., 1996. Secondo questa notazione, la serie dei numeri indici percentuali a base fissa (1991=100) e a base fissa (1993=100) sono date rispettivamente da: Ij,91 · 100 = Pj · 100 P91 j = (91, 92, .., 96) Pj · 100 j = (91, 92, .., 96) P93 Utilizzando i dati riportati nel testo dell’esercizio abbiamo ad esempio che: Ij,93 · 100 = I92,91 · 100 = 1359 · 100 = 99.3421 1368 1334 · 100 = 97.5146 1368 L’indice I92,91 · 100 ci dice che la popolazione residente a Milano nel 1992 è diminuita dello 0, 65% rispetto all’anno 1991. L’indice I93,91 · 100 ci dice che la popolazione residente a Milano nel 1993 è diminuita del 2.48% rispetto all’anno 1991. Per quanto riguarda i numeri indici a base fissa (1993=100) abbiamo ad esempio che: I93,91 · 100 = I91,93 · 100 = 1368 · 100 = 102.5487 1334 1359 · 100 = 101.8741 1334 L’indice I91,93 · 100 ci dice che la popolazione residente a Milano nel 1991 è più alta del 2.5487% rispetto all’anno 1993. L’indice I92,93 · 100 ci dice che la popolazione residente a Milano nel 1992 è più alta dell’1.8741% rispetto all’anno 1991. I92,93 · 100 = Secondo la notazione introdotta in precedenza, la serie dei numeri indici a base mobile è data da: Pj Ij,j−1 · 100 = · 100 j = (91, 92, .., 96) Pj−1 Sulla base dei dati a nostra disposizione abbiamo ad esempio che: I92,91 · 100 = 1359 · 100 = 99.3421 1368 1334 · 100 = 98.1604 1359 Il commento relativo a I92,91 · 100 è già stato riportato in precendenza. L’indice I93,92 · 100 ci dice che la popolazione residente a Milano nel 1993 è diminuita dell’1.8396% rispetto all’anno precedente. I93,92 · 100 = Nella tabella seguente riportiamo tutti gli indici di cui era richiesto il calcolo. 1 RAPPORTI STATISTICI E NUMERI INDICI anno 1991 1992 1993 1994 1995 1996 8 popolazione NI(1991=100) 1368 100 1359 99.3421 1334 97.5146 1322 96.6374 1306 95.4678 1304 95.3216 NI(1993=100) 102.5487 1018741 100 99.1004 97.9010 97.7511 NI (bm) — 99.3421 98.1604 99.1004 98.7897 99.8469 6. La seguente tabella riporta i numeri indici dei prezzi al consumo per l’intera collettività (fonte ISTAT 2005). 2000 112.8 2001 115,9 2002 118.8 2003 122.0 2004 124.7 Sapendo che la base degli indici è il 1995, commentare la serie dei numeri indici. Svolgimento a) 112.8: i prezzi al consumo per l’intera collettività del 2000 sono più alti del 12.8% rispetto a quelli del 1995. b) 115.9: i prezzi al consumo per l’intera collettività del 2001 sono più alti del 15.9% rispetto a quelli del 1995. c) 118.8: i prezzi al consumo per l’intera collettività del 2002 sono più alti del 18.8% rispetto a quelli del 1995. d) 122.0: i prezzi al consumo per l’intera collettività del 2003 sono più alti del 22.0% rispetto a quelli del 1995. e) 124.7: i prezzi al consumo per l’intera collettività del 2004 sono più alti del 24.7% rispetto a quelli del 1995. 7. I numeri indici a base mobile della popolazione censita dal 1861 al 1981 sono riportati nella seguente tabella: 1861 — 1871 106.9 1881 105.8 1901 113.3 1911 109.3 1921 102.5 1931 108.4 1936 103.3 1951 112.0 1961 106.5 1971 106.9 1981 103.8 Commentare i numeri indici e calcolare i numeri indici a base fissa 1861 = 100 e 1981 = 100. Svolgimento Commentiamo i numeri indici a base mobile forniti dal testo dell’esercizio: 1 RAPPORTI STATISTICI E NUMERI INDICI 9 • la popolazione censita nel 1871 è più alta del 6.9% rispetto a quella censita nel 1861; • la popolazione censita nel 1881 è più alta del 5.8% rispetto a quella censita nel 1871; • la popolazione censita nel 1901 è più alta del 13.3% rispetto a quella censita nel 1881; • la popolazione censita nel 1911 è più alta del 9.3% rispetto a quella censita nel 1901; • la popolazione censita nel 1921 è più alta del 2.5% rispetto a quella censita nel 1911; • la popolazione censita nel 1931 è più alta dell’8.4% rispetto a quella censita nel 1921; • la popolazione censita nel 1936 è più alta del 3.3% rispetto a quella censita nel 1931; • la popolazione censita nel 1951 è più alta del 12% rispetto a quella censita nel 1936; • la popolazione censita nel 1961 è più alta del 6.5% rispetto a quella censita nel 1951; • la popolazione censita nel 1971 è più alta del 6.9% rispetto a quella censita nel 1961; • la popolazione censita nel 1981 è più alta del 3.8% rispetto a quella censita nel 1971. Ricaviamo ora i numeri indici a base fissa 1861 = 100. • I1871.1861 = 1.069: la popolazione censita nel 1871 è più alta del 6.9% rispetto a quella censita nel 1861; • I1881.1861 = I1881.1871 · I1871.1861 = 1.058 · 1.069 = 1.131: la popolazione censita nel 1881 è più alta del 13.3% rispetto a quella censita nel 1861; • I1901.1861 = I1901.1881 · I1881.1861 = 1.133 · 1.131 = 1.281: la popolazione censita nel 1901 è più alta del 28.1% rispetto a quella censita nel 1861; • I1911.1861 = I1911.1901 · I1901.1861 = 1.093 · 1.281 = 1.400: la popolazione censita nel 1911 è più alta del 40% rispetto a quella censita nel 1861; • I1921.1861 = I1921.1911 · I1911.1861 = 1.025 · 1.400 = 1.436: la popolazione censita nel 1921 è più alta del 43.6% rispetto a quella censita nel 1861; 1 RAPPORTI STATISTICI E NUMERI INDICI 10 • I1931.1861 = I1931.1921 · I1921.1861 = 1.084 · 1.436 = 1.556: la popolazione censita nel 1931 è più alta del 55.6% rispetto a quella censita nel 1861; • I1936.1861 = I1936.1931 · I1931.1861 = 1.033 · 1.556 = 1.607: la popolazione censita nel 1936 è più alta del 60.7% rispetto a quella censita nel 1861; • I1951.1861 = I1951.1936 · I1936.1861 = 1.12 · 1.607 = 1.800: la popolazione censita nel 1951 è più alta dell’80% rispetto a quella censita nel 1861; • I1961.1861 = I1961.1951 · I1951.1861 = 1.065 · 1.800 = 1.917: la popolazione censita nel 1961 è più alta del 91.7% rispetto a quella censita nel 1861; • I1971.1861 = I1971.1961 · I1961.1861 = 1.069 · 1.917 = 2.05: la popolazione censita nel 1971 è più alta del 105% rispetto a quella censita nel 1861; • I1981.1861 = I1981.1971 · I1971.1861 = 1.038 · 2.05 = 2.128: la popolazione censita nel 1981 è più alta del 112.8% rispetto a quella censita nel 1861. Ricaviamo ora i numeri indici a base fissa 1861 = 100, tralasciando, per brevità, i relativi commenti. • I1971.1981 x1971 I1971.1861 2.05 x1971 x = 0.963 . = x1861 = = = 1981 x1861 I1981.1861 2.128 x1861 In modo analogo si ricavano gli indici: • I1961.1981 = • I1951.1981 = • I1936.1981 = • I1931.1981 = • I1921.1981 = • I1911.1981 = • I1901.1981 = I1961.1861 I1981.1861 I1951.1861 I1981.1861 I1936.1861 I1981.1861 I1931.1861 I1981.1861 I1921.1861 I1981.1861 I1911.1861 I1981.1861 I1901.1861 I1981.1861 = = = = = = = 1.917 2.128 1.8 2.128 1.607 2.128 1.556 2.128 1.436 2.128 1.400 2.128 1.281 2.128 = 0.901; = 0.846; = 0.755; = 0.731; = 0.675; = 0.658; = 0.602; 1 RAPPORTI STATISTICI E NUMERI INDICI I1881.1861 1.131 = = 0.531; I1981.1861 2.128 1.069 I1871.1861 = = 0.502; = I1981.1861 2.128 I1861.1861 1 = = = 0.470. I1981.1861 2.128 • I1881.1981 = • I1871.1981 • I1861.1981 11 STATISTICA esercizi svolti su: TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 1 2 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 1.1 Esercizi Numero d’ordine della famiglia Settore di attività economica del capofamiglia (C.F.) Titolo di godimento dell’abitazione Titolo di studio del C.F. Numero di figli Reddito annuo lordo (euro) Età del C.F. 1 Industria Affitto Diploma 3 19841 29 2 Industria Affitto Laurea 2 18830 29 3 Agricoltura Proprietà Licenza Media 3 15971 26 4 Industria Proprietà Diploma 1 17361 31 5 Altra Attività Proprietà Laurea 0 23426 60 6 Industria Affitto Licenza Media 2 17220 30 7 Industria Altro titolo Licenza Media 3 17540 30 8 Industria Affitto Diploma 4 16980 45 9 Agricoltura Proprietà Senza titolo 5 15340 69 10 Agricoltura Proprietà Licenza Media 1 18270 56 11 Industria Proprietà Licenza Media 1 30733 50 12 Altra Attività Affitto Laurea 1 28760 55 13 Altra Attività Altro titolo Diploma 2 25320 52 14 Agricoltura Affitto Laurea 2 19221 57 15 Altra Attività Proprietà Laurea 2 27320 65 16 Industria Proprietà Laurea 0 23420 59 17 Industria Affitto Laurea 1 20280 48 18 Altra Attività Affitto Licenza Elem. 3 27531 59 19 Industria Proprietà Licenza Media 5 18330 46 20 Industria Proprietà Diploma 0 19750 48 3 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Con riferimento ai dati della tabella precedente: 1. Definire la popolazione di riferimento e le unità statistiche. Svolgimento La popolazione di riferimento è l’insieme delle famiglie prese in esame e ciascuna di esse rappresenta quindi una unità statistica. 2. Individuare i caratteri rilevati dall’indagine statistica e per ciascuno di essi indicare di che tipo si tratta, elencare le modalità con cui si manifesta e la scala di misura di tali modalità. Svolgimento É possibile riassumere il tutto nella seguente tabella: Carattere Modalità Settore di attività del capofamiglia Titolo di godimento dell’abitazione Industria Agricoltura Altra Attività Affitto Proprietà Altro titolo Senza Titolo Licenza elementare Licenza media Diploma Laurea Titolo di studio del capofamiglia Numero di figli Reddito annuo lordo (in euro) Età del capofamiglia (in anni) 0, 1, 2, 3, 4, 5 (25000, 31000) {25, ..., 70} Tipo di carattere Scala di misurazione delle modalità Qualitativo Nominale Qualitativo Nominale Qualitativo Ordinale Quantitativo Discreto Quantitativo Continuo Quantitativo Discreto Scala di rapporti Scala di rapporti Scala di rapporti 3. Classificare i casi per ogni carattere individuato al punto precedente predisponendo le tabelle delle frequenze assolute, relative, cumulate e retrocumulate (se opportuno) di ognuno di essi. Effettuare la rappresentazione grafica delle frequenze assolute e relative di ogni carattere. (NB: Per il carattere reddito ed il carattere età scegliere opportune classi di modalità, giustificando la scelta). 4 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Svolgimento Analizziamo ora ciascun carattere individuato. • “Settore di attività del capofamiglia” Settore di attività del nj = freq. assolute capofamiglia Agricoltura Industria Altra Attività Totale nj = freq. relative N 4 11 5 20 0.2 0.55 0.25 1 In Figura (1) vediamo rappresentate le frequenze assolute, mentre in Figura (2) e in Figura (3) le frequenze relative del carattere in esame. 11 5 4 A. I. A. A. Fig. 1: Grafico delle frequenze assolute del carattere “Settore di attività del capofamiglia”. 0.55 0.25 0.2 A. I. A. A. Fig. 2: Grafico delle frequenze relative del carattere “Settore di attività del capofamiglia”. 5 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE A. A. 0.55 0.25 I. A. 0.2 Fig. 3: Aerogramma delle frequenze relative del carattere “Settore di attività del capofamiglia”. Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è nominale. • “Titolo di godimento dell’abitazione” Titolo di godimento nj = freq. assolute dell’abitazione Affitto Proprietà Altro Titolo Totale nj = freq. relative N 8 10 2 20 0.4 0.5 0.1 1 In Figura (4) vediamo rappresentate le frequenze assolute, mentre in Figura (5) e in Figura (6)le frequenze relative del carattere in esame. 8 A. 10 P. 2 A. T. Fig. 4: Grafico delle frequenze assolute del carattere “Titolo di godimento dell’abitazione”. 6 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 0.4 A. 0.5 0.1 A. T. P. Fig. 5: Grafico delle frequenze relative del carattere “Titolo di godimento dell’abitazione”. 0.5 A. P. 0.4 A. T. 0.1 Fig. 6: Aerogramma delle frequenze relative del carattere “Titolo di godimento dell’abitazione”. Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è nominale. • “Titolo di studio del capofamiglia” Titolo di studio del nj = freq. assolute capofamiglia Senza Titolo Licenza elementare Licenza media Diploma Laurea Totale nj = freq. relative N 1 1 6 5 7 20 0.05 0.05 0.3 0.25 0.35 1 In Figura (7) vediamo rappresentate le frequenze assolute, mentre in Figura (8) le frequenze relative del carattere in esame. 7 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 7 1 5 6 1 S.T. Lic. El. Lic. M. L D Fig. 7: Grafico delle frequenze assolute del carattere “Titolo di studio del capofamiglia”. 0.05 0.05 0.3 0.25 S.T. Lic. El. Lic. M. 0.35 L D Fig. 8: Grafico delle frequenze relative del carattere “Titolo di studio del capofamiglia”. In questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in quanto la scala di misurazione del carattere è ordinale. Completiamo perciò la seguente tabella. Titolo di studio del capofamiglia Senza Titolo Licenza elementare Licenza media Diploma Laurea Cj = freq. cumulate Rj = freq. retrocumulate 1 2 8 13 20 20 19 18 12 7 • “Numero di figli” Numero di nj = freq. assolute figli 0 1 2 3 4 5 Totale nj = freq. relative N 3 5 5 4 1 2 20 0.15 0.25 0.25 0.20 0.05 0.10 1 8 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE In Figura (9) vediamo rappresentate le frequenze assolute, mentre in Figura (10) le frequenze relative del carattere in esame. nj 5 4 3 2 1 1 2 3 4 5 0 figli Fig. 9: Grafico delle frequenze assolute del carattere “Numero di figli”. fj 0.25 0.20 0.15 0.10 0.05 0 1 2 3 4 5 figli Fig. 10: Grafico delle frequenze relative del carattere “Numero di figli”. Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in quanto la scala di misurazione del carattere è ordinale. Vediamole nella seguente tabella. Numero di figli 0 1 2 3 4 5 Cj = freq. cumulate Rj = freq. retrocumulate 3 8 13 17 18 20 20 17 12 7 3 2 9 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE • “Reddito annuo lordo (in Euro)” Come suggerito dal testo, raggruppiamo il carattere in classi. Un modo possibile, cercando di equilibrare le frequenze delle classi, è il seguente: Reddito annuo nj = freq. assolute lordo fino a 17000 17000 ⊣ 18500 18500 ⊣ 20000 20000 ⊣ 26000 oltre 26000 Totale nj = freq. relative N 3 5 4 4 4 20 0.15 0.25 0.20 0.20 0.20 1 Per rappresentare graficamente il carattere “Reddito annuo lordo” è necessario andare a calcolare le frequenze specifiche (fs ) e quindi si ha bisogno dell’ampiezza di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto opportuno “chiudere” la prima classe a 15000, mentre l’ultima a 33000. Reddito annuo Ampiezza della classe lordo 15000 ⊣ 17000 2000 17000 ⊣ 18500 1500 18500 ⊣ 20000 1500 20000 ⊣ 26000 6000 26000 ⊣ 33000 7000 fs = freq. specifiche 0.0015 0.003̄ 0.0026̄ 0.0006̄ 0.00057 In Figura (11) riportiamo il grafico del carattere “Reddito annuo lordo”. 10 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE fs 0.003 0.0026 0.0015 0.0006 0.00057 0 15000 17000 19000 21000 23000 26000 29000 31000 33000 € Fig. 11: Grafico delle frequenze assolute del carattere “Reddito annuo lordo”. Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in quanto la scala di misurazione del carattere è una scala di rapporti. Vediamole nella seguente tabella. Reddito annuo Cj = freq. cumulate lordo 15000 ⊣ 17000 3 17000 ⊣ 18500 8 18500 ⊣ 20000 12 20000 ⊣ 26000 16 26000 ⊣ 33000 20 Rj = freq. retrocumulate 20 17 12 8 4 La seconda frequenza cumulata (8) significa che 8 famiglie tra le 20 considerate hanno un reddito annuo lordo minore o uguale a 18500 euro. La seconda frequenza retrocumulata (17) significa che 17 famiglie tra le 20 considerate hanno un reddito annuo lordo maggiore a 17000 euro. • “Età del capofamiglia” Come suggerito dal testo, raggruppiamo il carattere in classi. Un modo possibile è il seguente: 11 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Età del nj = freq. assolute capofamiglia fino a 30 31|−|49 50|−|55 56|−|60 oltre 60 Totale nj = freq. relative N 5 5 3 5 2 20 0.25 0.25 0.15 0.25 0.1 1 Per rappresentare graficamente il carattere “Età del capofamiglia” è necessario andare a calcolare le frequenze specifiche (fs ) e quindi si ha bisogno dell’ampiezza di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto opportuno “chiudere” la prima classe a 26, mentre l’ultima a 70. Età del Ampiezza della classe capofamiglia 26|−|30 5 31|−|49 19 50|−|55 6 56|−|60 5 61|−|70 10 fs = freq. specifiche 1 0.263 0.5 1 0.2 Possiamo ora disegnare il grafico del carattere “Età del capofamiglia”: lo riportiamo in Figura (12). fs 1 0.5 0.26 0.2 0 25 30 35 40 45 50 55 60 65 70 anni Fig. 12: Grafico delle frequenze assolute del carattere “Età del capofamiglia”. 12 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in quanto la scala di misurazione del carattere è una scala di rapporti. Vediamole nella seguente tabella. Età del Cj = freq. cumulate capofamiglia 26|−|30 5 31|−|49 10 50|−|55 13 56|−|60 18 61|−|70 20 Rj = freq. retrocumulate 20 15 10 7 2 La quarta frequenza cumulata (18) significa che 18 famiglie tra le 20 considerate hanno un capofamglia con un’età minore o uguale a 60 anni. La quarta frequenza retrocumulata (7) significa che 7 famiglie tra le 20 considerate hanno hanno un capofamglia con un’età maggiore o uguale a 56 anni. 4. Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia di caratteri “settore di attività” e “numero di figli” e della coppia “età” e “reddito”. Svolgimento La tabella a doppia entrata delle frequenze assolute dei caratteri “settore di attività” e “numero di figli” è la seguente: Sett.attività A I AA TOTALE Figli 0 1 2 3 4 5 TOTALE 0 1 1 1 0 1 4 2 3 2 2 1 1 11 1 1 2 1 0 0 5 3 5 5 4 1 2 20 Mentre la tabella a doppia entrata delle frequenze relative è: 13 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Sett.attività A I AA TOTALE Figli 0 1 2 3 4 5 TOTALE 0 0.05 0.05 0.05 0 0.05 0.2 0.1 0.15 0.1 0.1 0.05 0.05 0.55 0.05 0.05 0.1 0.05 0 0 0.25 0.15 0.25 0.25 0.2 0.05 0.1 1 La tabella a doppia entrata delle frequenze assolute dei caratteri “età” e “reddito” è la seguente: Età del C.F. 26|−|30 31|−|49 50|−|55 56|−|60 61|−|70 TOTALE Reddito 15000 ⊣ 17000 17000 ⊣ 18500 18500 ⊣ 20000 20000 ⊣ 26000 26000 ⊣ 33000 TOTALE 1 2 2 0 0 5 1 2 1 1 0 5 0 0 0 1 2 3 0 1 1 2 1 5 1 0 0 0 1 2 3 5 4 4 4 20 Mentre la tabella a doppia entrata delle frequenze relative è: Età del C.F. 26|−|30 31|−|49 50|−|55 56|−|60 61|−|70 TOTALE Reddito 15000 ⊣ 17000 17000 ⊣ 18500 18500 ⊣ 20000 20000 ⊣ 26000 26000 ⊣ 33000 TOTALE 0.05 0.1 0.1 0 0 0.25 0.05 0.1 0.05 0.05 0 0.25 0 0 0 0.05 0.1 0.15 0 0.05 0.05 0.1 0.05 0.25 0.05 0 0 0 0.05 0.1 0.15 0.25 0.2 0.2 0.2 1 5. Con riferimento al carattere numero dei figli: a) predisporre la tabella delle frequenze assolute, relative e specifiche supponendo di riclassificare il carattere nelle classi fino ad 1, 2 ⊢⊣ 4 e 5 e oltre ; b) per la distribuzione calcolata al punto a) effettuare la rappresentazione grafica delle frequenze assolute e relative; c) dedurre la percentuale di famiglie con almeno 3 figli e con al più 3 figli per la distribuzione originaria e per la distribuzione riclassificata individuata al punto a). 14 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Svolgimento a) Riclassificando il carattere “Numero di figli”, come indicato, otteniamo la seguente tabella. Numero di nj = freq. assolute figli fino a 1 2|−|4 5 e oltre Totale nj = freq. relative N 8 10 2 20 0.4 0.5 0.1 1 Calcoliamo ora le ampiezze delle classi, le frequenze specifiche assolute (fs ) e le frequenze specifiche relative (frs ), dopo aver specificato gli estremi della prima e dell’ultima classe in modo da avere rispettivamente 0|−|1 e 5|−|6. Numero di figli 0|−|1 2|−|4 5|−|6 Ampiezza della classe 2 3 2 fs = freq. specifiche assolute 4 3.3̄ 1 frs = freq. specifiche relative 0.2 0.16̄ 0.05 b) In Figura (13) vediamo rappresentate le frequenze assolute, mentre in Figura (14) le frequenze relative del carattere in esame. fS 4 3 2 1 0 1 2 3 4 5 6 figli Fig. 13: Grafico delle frequenze assolute del carattere “Numero di figli” raggruppato in classi. 15 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE frs 0.2 0.16 0.05 0 1 2 3 4 5 6 figli Fig. 14: Grafico delle frequenze relative del carattere “Numero di figli” raggruppato in classi. c) Considerando il carattere raggruppato in classi, per calcolare la percentuale di famiglie con almeno 3 figli, basta sommare le lunghezze delle aste in corrispondenza dei valori maggiori o uguali a 3 e poi moltiplicare per 100 (vedi Figura (14)): 0.16̄ + 0.16̄ + 0.05 + 0.05 = 0.43̄ (quindi 43.3̄%). Se invece non consideriamo il raggruppamento in classi, sommando le lunghezze delle aste in corrispondenza dei valori maggiori o uguali a 3 (vedi Figura (10)) e moltiplicando per 100, otteniamo: 0.20 + 0.05 + 0.10 = 0.40 (quindi 40%). Per calcolare invece la percentuale di famiglie con al più 3 figli, dovremo sommare le lunghezze delle aste in corrispondenza dei valori minori o uguali a 3 e poi moltiplicare per 100. Quindi, considerando il carattere raggruppato in classi, (vedi Figura (14)): 0.2 + 0.2 + 0.16̄ + 0.16̄ = 0.73̄ (quindi 73.3̄%) mentre se consideriamo il carattere non raggruppato in classi (vedi Figura (10)): 0.15 + 0.25 + 0.25 + 0.20 = 0.85 (quindi 85%). 6. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 120 abitazioni della provincia di Belluno. numero di stanze nj 1 2 3 4 5 22 32 35 5 6 7 16 7 2 8 1 Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, cumulate relative ed assolute, retrocumulate relative ed assolute. Rappresentare graficamente le frequenze assolute. 16 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE Svolgimento La popolazione statistica è composta dalle 120 abitazioni della provincia di Belluno prese in esame e quindi le unità statistiche sono proprio tali abitazioni. Il carattere “numero di stanze” è un carattere quantitativo discreto e la scala di misurazione delle sue modalità è una scala di rapporti. Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella: numero nj di stanze 1 2 3 4 5 6 7 8 freq. assolute 5 22 32 35 16 7 2 1 nj N freq. relative 0.0416 0.183̄ 0.26̄ 0.2916̄ 0.13̄ 0.0583̄ 0.016̄ 0.0083̄ fj = Cj Fj Rj F̄j freq.cumul. assolute 5 27 59 94 110 117 119 120 freq.cumulate relative 0.0416 0.225 0.4916̄ 0.783̄ 0.916̄ 0.975 0.9916̄ 1 freq.retrocumul. assolute 120 115 93 61 26 10 3 1 freq.retrocumul. relative 1 0.9583̄ 0.775 0.5083̄ 0.216̄ 0.083̄ 0.025 0.083̄ In Figura (15) sono rappresentate le frequenze assolute. nj 35 22 16 7 2 0 1 2 3 4 5 6 7 8 Stanze Fig. 15: Grafico delle frequenze assolute del carattere “numero di stanze”. 17 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 7. La seguente tabella riporta la distribuzione del carattere X fatturato (in milioni di euro) di 1240 calzaturifici italiani nell’anno 1996. Classi di fatturato fino a 0, 5 0, 5 −|1 1 −|5 nj 340 368 480 5 −|10 oltre 10 37 15 Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, specifiche, cumulate relative ed assolute, retrocumulate relative ed assolute. Rappresentare graficamente le frequenze assolute. Svolgimento La popolazione statistica è composta dai 1240 calzaturifici italiani presi in esame e quindi le unità statistiche sono proprio tali calzaturifici. Il carattere “fatturato” è un carattere quantitativo continuo e la scala di misurazione delle sue modalità è una scala di rapporti. Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella: classi nj di fatturato fino a 0.5 0.5 ⊣ 1 1⊣5 5 ⊣ 10 oltre 10 freq. assolute 340 368 480 37 15 nj N freq. relative 0.274 0.297 0.387 0.030 0.012 fj = Cj Fj Rj F̄j freq. cumul. assolute 340 708 1188 1225 1240 freq.cumulate relative 0.274 0.571 0.958 0.988 1 freq.retrocumul. assolute 1240 900 532 52 15 freq.retrocumul. relative 1 0.726 0.429 0.041 0.012 Per rappresentare graficamente il carattere, essendo raggruppato in classi, è necessario calcolare le frequenze specifiche. Riteniamo opportuno “chiudere” la prima e l’ultima classe rispettivamente con i valori 0 e 15. Si ottengono dunque le classi 0 ⊣ 0.5 e 10 ⊣ 15: classi Ampiezza di nj della fatturato classe 0 ⊣ 0.5 340 0.5 0.5 ⊣ 1 368 0.5 1⊣5 480 4 5 ⊣ 10 37 5 10 ⊣ 15 15 5 fs frequenze specifiche 680 736 120 7.4 3 In Figura (16) sono rappresentate le frequenze assolute. In Figura (16), si è utilizzato il tratteggio per evidenziare il fatto che il grafico non è in scala. 18 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE fs 736 680 120 7.4 3 0 1 5 10 15 fatturato Fig. 16: Grafico delle frequenze assolute del carattere “fatturato”. 8. Gli esercizi alberghieri della provincia di Belluno sono stati classificati in base al numero di camere per esercizio. I risultati dell’indagine sono riportati nella seguente tabella: numero di camere numero esercizi fino a 5 6|−|9 10|−|13 14|−|17 18|−|22 23|−|30 totale 20 20 20 24 25 16 125 Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, specifiche, cumulate relative ed assolute, retrocumulate relative ed assolute. Rappresentare graficamente le frequenze assolute. Svolgimento La popolazione statistica è composta dai 125 esercizi alberghieri della provincia di Belluno presi in esame e quindi le unità statistiche sono proprio tali esercizi alberghieri. Il carattere “numero di camere” è un carattere quantitativo discreto e la scala di misurazione delle sue modalità è una scala di rapporti. Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella: 19 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE numero nj di camere fino a 5 6|−|9 10|−|13 14|−|17 18|−|22 23|−|30 freq. assolute 20 20 20 24 25 16 nj N freq. relative 0.16 0.16 0.16 0.192 0.2 0.128 fj = Cj Fj Rj F̄j freq.cumul. assolute 20 40 60 84 109 125 freq.cumulate relative 0.16 0.32 0.48 0.672 0.872 1 freq.retrocumul. assolute 125 105 85 65 41 16 freq.retrocumul. relative 1 0.84 0.68 0.52 0.328 0.128 Per rappresentare graficamente il carattere, essendo raggruppato in classi, è necessario calcolare le frequenze specifiche (si è ritenuto opportuno “chiudere” la prima classe a 0): numero di camere 0|−|5 6|−|9 10|−|13 14|−|17 18|−|22 23|−|30 nj 20 20 20 24 25 16 Ampiezza della classe 6 4 4 4 5 8 fs frequenze specifiche 3.3̄ 5 5 6 5 2 In Figura (17) sono rappresentate le frequenze assolute. fs 6 5 3.3 2 0 5 10 15 20 25 30 camere Fig. 17: Grafico delle frequenze assolute del carattere “numero di camere”. 20 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 9. I correntisti di una banca in possesso di titoli e senza titoli sono stati classificati in base al loro saldo finale in migliaia di euro al 31/03/04 ottenendo la seguente tabella: Classi di Saldo Finale 0⊢5 5 ⊢ 10 10 ⊢ 50 50 e oltre Totale Clienti con un conto titoli 100 40 30 10 180 Clienti senza un conto titoli 40 160 80 20 300 Dopo aver indicato la tipologia del carattere saldo finale e la relativa scala di misurazione, si confrontino in un unico grafico le due distribuzioni di frequenze. Svolgimento Il carattere “saldo finale” è un carattere quantitativo continuo e la scala di misurazione delle sue modalità è una scala di rapporti. Per rappresentare in un unico grafico le distribuzioni di frequenze, dato che le numerosità dei due gruppi (clienti con un conto titoli e clienti senza un conto titoli) sono differenti, è necessario calcolare le frequenze relative, rapportando ciascuna frequenza con il suo totale di colonna. Clienti con un conto titoli fj 0.5̄ 0.2̄ 0.16̄ 0.05̄ 1 Classi di Saldo Finale 0⊢5 5 ⊢ 10 10 ⊢ 50 50 e oltre Totale Clienti senza un conto titoli fj 0.13̄ 0.53̄ 0.26̄ 0.06̄ 1 A questo punto possiamo calcolare le frequenze specifiche relative per le due distribuzioni. Saldo Finale Ampiezza della classe 0⊢5 5 ⊢ 10 10 ⊢ 50 50 ⊢ 60 5 5 40 10 Clienti con un conto titoli frs 0.1̄ 0.04̄ 0.00416̄ 0.005̄ Clienti senza un conto titoli frs 0.026̄ 0.106̄ 0.006̄ 0.006̄ Le due distribuzioni di frequenze (relative) sono rappresentate in Figura (18). 21 1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE f rs 0.1 = Clienti con un conto titoli = Clienti senza un conto titoli 0.04 0.026 0.005 0 5 10 15 20 25 30 35 40 45 50 55 60 migliaia di € Fig. 18: Grafico delle due distribuzioni di frequenze. STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI 1 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 1 2 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 1. Viene rilevato il tempo X (in secondi) necessario per l’esecuzione di 6 diverse procedure su uno stesso tipo di calcolatore: Procedura A B C D E F Tempo (X) 33,6 34,2 35,0 30,6 30,2 31,4 Calcolare moda, mediana e primo quartile del carattere X. Svolgimento La distribuzione riportata dal testo dell’esecizio è una distribuzione di unità in cui non si presenta alcuna ripetizione delle intensità , di conseguenza la moda non esiste. Per quanto riguarda il calcolo della mediana, si procede anzitutto ad ordinare in senso non decrescente gli N = 6 valori forniti dal testo dell’esercizio. Si ottiene: x(1) = 30, 2; x(2) = 30, 6; x(3) = 31, 4; x(4) = 33, 6; x(5) = 34, 2; x(6) = 35. Dato che N è pari, si hanno le due posizioni centrali: N =3 2 N + 1 = 4. 2 A questo punto la mediana è data da: x(3) + x(4) 31, 4 + 33, 6 = = 32, 5. 2 2 Il valore assunto dalla mediana ci dice che nel 50% dei casi circa, il tempo necessario per l’esecuzione di una procedura è inferiore a 32.5 secondi. Analogamente, nel 50% dei casi circa, il tempo necessario per l’esecuzione di una procedura è superiore a 32.5 secondi. Passiamo ora al calcolo del primo quartile. Q1 = x(1, N+1 ) = x(1,75) 4 = x(1) + 0, 75(x(2) − x(1) ) = 30, 2 + 0, 75(30, 6 − 30, 2) = 30, 5 Il valore assunto dal primo quartile ci dice che nel 25% dei casi circa, il tempo necessario per l’esecuzione di una procedura è inferiore a 30.5 secondi. Dunque nel 75% dei casi il tempo di esecuzione è superiore a 30.5 secondi. 2. In un asilo nido si è verificata un’epidemia di influenza. La distribuzione del carattere giorni effettivi di assenza dall’asilo per la malattia sui 20 bambini colpiti dall’infezione è riportata nella tabella sottostante dove il carattere è stato raggruppato in classi. Numero giorni 1 ⊢⊣ 3 Frequenza 4 4 ⊢⊣ 5 6 6 ⊢⊣ 8 10 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 3 Calcolare la moda della distribuzione. Svolgimento Nel caso di distribuzioni con dati raggruppati in classi la determinazione della moda si riduce all’individuazione della classe modale la quale si ha in corrispondenza della frequenza specifica più elevata. E’ dunque necessario calcolare le frequenze specifiche: Numero giorni Frequenza ampiezza classe frequenza specifica 1 ⊢⊣ 3 4 3 1, 33 4 ⊢⊣ 5 6 2 3 6 ⊢⊣ 8 10 3 3, 33 Dal confronto delle frequenze specifiche si conclude che la classe modale è 6 ⊢⊣ 8. 3. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 120 abitazioni della provincia di Belluno. numero di stanze ni 1 2 3 4 5 22 32 35 5 6 7 16 7 2 8 1 Calcolare moda e mediana della distribuzione. Commentare i risultati ottenuti. Quante sono le abitazioni con al più due camere? Che percentuale rappresentano? Quante sono le abitazione con almeno tre camere? Che percentuale rappresentano? Calcolare i quartili, il secondo e il settimo decile e il 59-mo centile della distribuzione. Commentare i risultati ottenuti. Svolgimento Riportiamo di seguito alcune calcoli che ci saranno utili nello svolgimento dell’esecizio. Numero di stanze ni 1 5 2 22 3 32 4 35 5 16 6 7 7 2 8 1 tot 120 ni N 0, 0416 0, 1833 0, 2666 0, 2916 0, 1333 0, 0583 0, 0166 0, 0083 1 Freq. Cumulate Freq. Retrocum. 5 120 27 115 59 93 94 61 110 26 117 10 119 3 120 1 − − Dalla tabella sopra riportata appare chiaro che la moda si ha in corrispondenza di X = 4. Si osservi che la moda ha una frequenza relativa pari a 0, 2916. Di conseguenza essa non può ritenersi una buona sintesi in quanto rappresenta solo il 29% circa delle abitazioni. Per quanto riguarda il calcolo della mediana, osserviamo che N è pari e di conseguenza abbiamo due posizioni centrali: N = 60 2 N + 1 = 61. 2 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 4 Osservando le frequenze cumulate, si possono individuare le osservazioni che occupano le posizioni centrali. Sulla base di queste osservazioni la mediana risulta essere: x(60) + x(61) 4+4 = = 4. 2 2 La mediana bi-ripartisce l’insieme delle abitazioni in due gruppi: il primo composto da abitazioni che hanno un numero di stanze minore o uguale a 4, il secondo composto da abitazioni che hanno un numero di stanze maggiore o uguale 4. Nel dettaglio, il avalore assunto dalla mediana ci dice che: • circa il 50% delle abitazioni considerate ha un numero di stanze al più pari a 4; • circa il 50% delle abitazioni considerate ha un numero di stanze almeno pari a 4. Il numero di abitazioni con al più due camere ci viene fornito dalla seconda frequenza cumulata che è pari a 27. Esse rappresentano una quota delle abitazioni pari a 27 = 0, 225 120 che coincide con il 22, 5% delle abitazioni. Il numero di abitazioni con almeno tre camere ci viene fornito dalla terza frequenza retrocumulata che è pari a 93. Esse rappresentano una quota delle abitazioni pari a 93 = 0, 775 120 che coincide con il 77, 5% delle abitazioni. Passiamo al calcolo dei quartili. Q1 = x( 120+1 ) = x(30,25) 4 = x(30) + 0, 25[x(31) − x(30) ] = 3 + 0, 25[3 − 3] = 3 Q2 = Me = x( 120+1 ) = x(60,5) 2 = x(60) + 0, 5[x(61) − x(60) ] = 4 + 0, 5[4 − 4] = 4 Q3 = x(3· 120+1 ) = x(90,75) 4 = x(90) + 0, 75[x(91) − x(90) ] = 4 + 0, 75[4 − 4] = 4 Il valore assunto da Q1 ci informa che circa il 25% delle abitazioni considerate ha un numero di stanze al più pari a 3 e dunque circa il 75% delle abitazioni ha un numero 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 5 di stanze almeno pari a 3. Il valore assunto da Q2 ci informa che circa il 50% delle abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 75% delle abitazini considerate ha un numero di stanze almeno pari a 4. Tale informazione è la medesima che ci viene fornita dalla mediana. Il valore assunto da Q3 ci informa che circa il 75% delle abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 25% delle abitazioni ha un numero di stanze almeno pari a 4. Il secondo ed il settimo decile della distribuzione sono dati da: D2 = x( 120+1 ) = x(24,2) 5 = x(24) + 0, 2[x(25) − x(24) ] = 2 + 0, 2[2 − 2] = 2 D7 = x(7· 120+1 ) = x(84,7) 10 = x(84) + 0, 7[x(85) − x(84) ] = 4 + 0, 7[4 − 4] = 4 Il valore assunto da D2 ci informa che circa il 10% delle abitazioni considerate ha un numero di stanze al più pari a 2 e dunque circa il 90% delle abitazioni ha un numero di stanze almeno pari a 2. Il valore assunto da D7 ci informa che circa il 70% delle abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 30% delle abitazioni ha un numero di stanze almeno pari a 4. Il cinquantanovesimo centile della distribuzione è dato da: C59 = x(59· 120+1 ) = x(71,39) 100 = x(71) + 0, 39[x(72) − x(71) ] = 4 + 0, 39[4 − 4] = 4 Il valore assunto da C59 ci informa che circa il 59% delle abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 41% delle abitazioni ha un numero di stanze pari almeno pari a 4. 4. La seguente tabella riporta la distribuzione del carattere X fatturato (in miliardi di lire) di 1240 calzaturifici italiani nell’anno 1996. classi di fatturato fino a 0, 5 0, 5 ⊣ 1 ni 340 368 1⊣5 480 5 ⊣ 10 oltre 10 37 15 Calcolare moda e mediana della distribuzione. Commentare i risultati ottenuti. Quanti calzaturifici hanno avuto un fatturato minore o uguale a un miliardo? Che percentuale ha avuto un fatturato di almeno un miliardo? Quanti calzaturifici hanno avuto un fatturato compreso tra 3 e 6,5 miliardi? Calcolare i quartili, i primi cinque decili e i primi 3 centili della distribuzione. Commentare i risultati ottenuti. 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 6 Svolgimento Osserviano innanzi tutto che la distribuzione di frequenze in considerazione riguarda un carattere quantitativo continuo con modalità raggruppate in classi. Riportiamo di seguito alcuni calcoli che ci saranno utili nello svolgimento dell’esercizio. Fatturato fino a 0, 5 0, 5 ⊣ 1 1⊣5 5 ⊣ 10 oltre 10 ni ni Fr. Cum. N 340 0,2741 340 368 0,2967 708 480 0,387 1188 37 0,029 1225 15 0,012 1240 Fr. Retrocum. Ampiezza Fr. Spec. 1240 0,5 680 900 0,5 736 532 4 120 52 5 7,4 15 10 1,5 Dalla tabella sopra riportata si osserva che la classe di fatturato in corrispondenza della quale si ha la frequenza specifica più alta è 0, 5 ⊣ 1. Tale classe di fatturato coincide con la classe modale. Per quanto riguarda il calcolo della mediana, osserviamo che N = 1240 è un numero pari e di conseguenza abbiamo due posizioni centrali N = 620 2 N + 1 = 621 2 le quali, come evidenziano le frequenze cumulate, cadono entrambe nella classe 0, 5 ⊣ 1. Dato che il carattere quantitativo fatturato è continuo con modalità raggruppate in classi, la mediana viene calcolata nel modo seguente1 : N aj − Me = lj + − Cj−1 2 nj 0, 5 = 0, 88 = 0, 5 + [620 − 340] 368 Il valore assunto dalla mediana ci informa che circa il 50% dei calzaturifici ha un fatturato minore o uguale a 0, 88 miliardi di lire. Di conseguenza, il rimanente 50% circa ha un fatturato maggiore o uguale a 0.88 miliardi di lire. Il numero di calzaturifici che hanno avuto un fatturato minore o uguale ad un miliardo di lire ci viene fornito dalla seconda frequenza cumulata che è pari a 708. Il numero di calzaturifici cha hanno avuto un fatturato di almeno un miliardo di lire ci viene fornito dalla terza frequenza retrocumulata che è pari a 532. Possiamo quindi concludere che la percentuale di calzaturifici che hanno avuto almeno un miliardo di fatturato è pari a 532 · 100 = 42.8%. 1240 I calzaturifici che hanno avuto un fatturato compreso tra 3 e 6, 5 miliardi sono dati da: (5 − 3)120 + (6, 5 − 5)7, 4 = 251, 1 1 Zenga M. ; Lezioni di statistica descrittiva; pagina 99. 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 7 Tale risultato si basa sull’ipotesi che, all’interno di ogni classe di reddito, le frequenze si distribuiscano in modo uniforme. Graficamente, il numero di cazaturifici che hanno avuto un fatturato compreso tra 3 e 6, 5 miliardi coincide con l’area evidenziata nel grafico: fs 736 680 120 7.4 3 0 1 3 5 6.5 10 15 fatturato Fig. 1: Grafico delle frequenze specifiche del carattere “Fatturato”. Per quanto riguarda il calcolo dei quartili, determiniamo innanzi tutto le loro posizioni: 1241 1241 P os(Q1 ) = = 310, 25 P os(Q2 ) = 2 · = 620, 5 4 4 1241 P os(Q3 ) = 3 · = 930, 75. 4 In base alle frequenze cumulate, le classi del primo, secondo e terzo quartile risultano essere rispettivamente: fino a 0, 5; 0, 5 ⊣ 1; 1 ⊣ 5. Nel caso della prima classe, sembra opportuno fissare a 0 il suo estremo inferiore. I quartili risultano dunque essere: Q1 = 0 + [310, 25 − 0 − 0, 5] · 0, 5 = 0, 46 340 Q2 = Me = 0, 88 4 = 2, 852 480 Il valore assunto da Q1 ci informa che all’incirca il 25% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 46 miliardi di lire. Il rimanente 75% circa ha avuto un fatturato maggiore o uguale a 0, 46 miliardi di lire. Q2 coincide con la mediana ed ha dunque il suo stesso significato. Il valore assunto da Q3 ci informa che il 75% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 2, 852 miliardi di lire. Il rimanente 25% circa ha avuto un fatturato maggiore o uguale a 2, 852 miliardi di lire. Q3 = 1 + [930, 75 − 708 − 0, 5] · 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 8 Per quanto rigiarda il calcolo dei primi cinque decili, determiniamo innanzi tutto le loro posizioni: P os(D1 ) = 1241 = 124, 1 10 P os(D3) = 3 · 1241 = 372, 3 10 P os(D2) = 2 · 1241 = 248, 2 10 P os(D4 ) = 4 · 1241 = 496, 4 10 1241 = 620, 5 10 Osservando le frequenze cumulate, le classi associate a tali posizioni sono rispettivamente: fino a 0, 5; fino a 0, 5; 0, 5 ⊣ 1; 0, 5 ⊣ 1; 0, 5 ⊣ 1. Utilizzando 0 come estremo inferiore della prima classe, i primi cinque decili risultano essere: P os(D5 ) = 5 · D1 = 0 + [124, 1 − 0 − 0, 5] 0.5 = 0, 182 340 0.5 = 0, 36 340 0.5 D3 = 0, 5 + [372, 3 − 340 − 0, 5] = 0, 543 368 0.5 D1 = 0, 5 + [496, 4 − 340 − 0, 5] = 0, 712 368 D1 = Me = 0, 88 D2 = 0 + [248, 2 − 0 − 0, 5] Il valore assunto da D1 ci informa che il 10% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 182 miliardi di lire. Il restante 90% circa ha avuto un fatturato maggiore o uguale a 0, 182 miliardi di lire. Il valore assunto da D2 ci informa che il 20% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 36 miliardi di lire. Il restante 80% circa ha avuto un fatturato maggiore o uguale a 0, 36 miliardi di lire. Il valore assunto da D3 ci informa che il 30% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 543 miliardi di lire. Il restante 70% circa ha avuto un fatturato maggiore o uguale a 0, 543 miliardi di lire. Il valore assunto da D4 ci informa che il 40% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 712 miliardi di lire. Il restante 90% circa ha avuto un fatturato maggiore o uguale a 0, 712 miliardi di lire. D5 coincide con la mediana ed ha dunque il suo stesso significato. Per quanto riguarda il calcolo dei primi tre centili, determiniamo innanzitutto le loro posizioni: P os(C1 ) = 1241 = 12, 41 100 P os(C3) = 3 · P os(C2) = 2 · 1241 = 37, 23 100 1241 = 24, 82 100 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 9 Osservando le frequenze cumulate, la classe associata a tali posizioni è: fino a 0, 5. Utilizzando 0 come estremo inferiore della prima classe, i primi tre centili risultano essere: 0.5 C1 = 0 + [12, 41 − 0 − 0, 5] = 0, 0175 340 0.5 C2 = 0 + [24, 82 − 0 − 0, 5] = 0, 0358 340 0.5 C3 = 0, 5 + [37, 23 − 0 − 0, 5] = 0, 0540 340 Il valore assunto da C1 ci informa che l’1% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 0175 miliardi di lire. Il rimanente 99% circa ha avuto un fatturato maggiore o uguale a 0, 0175. Il valore assunto da C2 ci informa che il 2% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 0358 miliardi di lire. Il rimanente 98% circa ha avuto un fatturato maggiore o uguale a 0, 0358. Il valore assunto da C3 ci informa che il 3% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 0540 miliardi di lire. Il rimanente 97% circa ha avuto un fatturato maggiore o uguale a 0, 0540. 5. Gli esercizi alberghieri della provincia di Belluno sono stati classificati in base al numero di camere per esercizio. I risultati dell’indagine sono riportati nella seguente tabella: numero di camere numero esercizi fino a 5 20 6 ⊢⊣ 9 20 10 ⊢⊣ 13 20 14 ⊢⊣ 17 24 18 ⊢⊣ 22 25 23 ⊢⊣ 30 16 totale 125 Calcolare la moda della distribuzione e commentare. Svolgimento La tabella fornita dal testo dell’esercizio riporta la distribuzione di frequenze di un carattere quantitativo discreto con dati raggruppati in classi. In tal caso il calcolo della moda si riduce all’individuazione della classe modale che si identifica in quella con frequenza specifica maggiore. Nel caso della prima classe, sembra opportuno fissare ad 1 il suo estremo inferiore. Alla luce di ciò calcoliamo le frequenze specifiche. numero di camere numero esercizi ampiezza classe freq. specifiche fino a 5 20 5 4 6 ⊢⊣ 9 20 4 5 10 ⊢⊣ 13 20 4 5 14 ⊢⊣ 17 24 4 6 18 ⊢⊣ 22 25 5 5 23 ⊢⊣ 30 16 8 2 totale 125 La classe modale risulta quindi essere: 14 ⊢⊣ 17. 6. La seguente tabella riporta le distribuzioni degli impiegati civili dello stato secondo la qualifica funzionale: Qualifica ni II III IV V VI VII VIII Totale 58038 308249 287707 71974 52232 28081 12259 818540 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 10 Calcolare i quartili, i decili, il 96-esimo centile della distribuzione. Commentare i risultati. Svolgimento La distribuzione di frequenze in considerazione riguarda un carattere qualitativo rilevato su scala ordinale. Al fine di calcolare i percentili richiesti dal testo dell’esercizio, ricaviamo le frequenze cumulate. Qualifica II III IV V VI VII VIII ni Freq. Cumulate 58038 58038 308249 366287 287707 653994 71974 725968 52232 778200 28081 806281 12259 818540 Le posizioni dei quartili sono date da: N +1 P os(Q1 ) = = 204635, 25 4 N +1 = 409270, 5 P os(Q2) = 2 · 4 N +1 = 613905, 75 P os(Q1 ) = 3 · 4 Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che: Q1 = III; Q2 = Me = IV ; Q3 = IV. Tali valori ci dicono che: • All’incirca il 25% degli impiegati civili dello stato ha una qualifica al più pari a III. Pertanto il rimanente 75% circa ha una qualifica almeno pari a III. • All’incirca il 50% degli impiegati civili dello stato ha una qualifica al più pari a IV . Pertanto il rimanente 50% circa ha una qualifica almeno pari a IV . • All’incirca il 75% degli impiegati civili dello stato ha una qualifica al più pari a IV . Pertanto il rimanente 25% circa ha una qualifica almeno pari a IV . Le posizioni dei decili sono date da: N +1 P os(D1 ) = = 81854 10 N +1 P os(D3) = 3 · = 245562 10 N +1 P os(D2 ) = 2 · = 163708 10 N +1 P os(D4 ) = 4 · = 327416 10 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 11 P os(D5) = 5 · 81854 = 409270 P os(D6 ) = 6 · 81854 = 491124 P os(D7) = 7 · 81854 = 572978 P os(D8 ) = 8 · 81854 = 654832 P os(D9 ) = 9 · 81854 = 736686 Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che: D1 = III D2 = III D6 = IV D3 = III D7 = IV D4 = III D8 = V D5 = Me = IV D9 = V I Tali valori ci dicono che: • All’incirca il 10% degli impiegati civili dello stato ha una qualifica al più pari a III. Il rimanente 90% circa ha una qualifica almeno pari a III. • All’incirca il 20% degli impiegati civili dello stato ha una qualifica al più pari a III. Il rimanente 80% circa ha una qualifica almeno pari a III. • All’incirca il 30% degli impiegati civili dello stato ha una qualifica al più pari a III. Il rimanente 70% circa ha una qualifica almeno pari a III. • All’incirca il 40% degli impiegati civili dello stato ha una qualifica al più pari a III. Il rimanente 60% circa ha una qualifica almeno pari a III. • All’incirca il 50% degli impiegati civili dello stato ha una qualifica al più pari a IV . Il rimanente 50% circa ha una qualifica almeno pari a IV . • All’incirca il 60% degli impiegati civili dello stato ha una qualifica al più pari a IV . Il rimanente 40% circa ha una qualifica almeno pari a IV . • All’incirca il 70% degli impiegati civili dello stato ha una qualifica al più pari a IV . Il rimanente 30% circa ha una qualifica almeno pari a IV . • All’incirca il 80% degli impiegati civili dello stato ha una qualifica al più pari a V . Il rimanente 20% circa ha una qualifica almeno pari a V . • All’incirca il 90% degli impiegati civili dello stato ha una qualifica al più pari a V I. Il rimanente 10% circa ha una qualifica almeno pari a V I. La posizione del 96◦ percentile è data da: P os(C96 ) = 96 · N +1 = 96 · 8185, 4 = 785798, 4 100 In base alle frequenze cumulate abbiamo che C96 = V II. Questo risultato ci dice che circa il 96% degli impiegati civili dello stato ha una qualifica al più pari a V II. Il rimanente 4% circa ha una qualifica almeno pari a V II. 7. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 129 abitazioni di un quartiere milanese. Numero di stanze ni 1 2 3 4 10 35 40 21 5 6 7 10 6 4 8 9 2 1 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 12 Calcolare la moda, i quartili, il primo e il nono decile, il 73-esimo centile della distribuzione. Commentare i risultati ottenuti. Svolgimento La distribuzione in considerazione riguarda un carattere quantitativo discreto rilevato su scala di rapporti. Al fine del calcolo dei percentili richiesti dall’esercizio, calcoliamo le frequenze cumulate. Numero di stanze 1 2 3 4 5 6 7 8 9 tot ni Freq. Cumulate 10 10 35 45 40 85 21 106 10 116 6 122 4 126 2 128 1 129 129 – Dato che N = 129 è dispari, la posizione mediana è data da: P os(Me) = 129 + 1 = 65. 2 Basandoci sulle frequenze cumulate calcolate in precedenza possiamo concludere che Me = 3. Tale valore ci dice che circa il 50% delle abitazioni del quartiere milanese in considerazione, hanno un numero di stanze minore o uguale a 3. Analogamente, il valore della mediana ci dice che circa il 50% delle abitazioni del quartire milanese in considerazione, hanno un numero di stanze maggiore o uguale a 3. Le posizioni dei quartili sono date da: N +1 P os(Q1 ) = = 32, 5 4 N +1 P os(Q2 ) = 2 · = 65 4 N +1 P os(Q3 ) = 3 · = 97, 5 4 Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che: Q1 = 2; Q2 = Me = 3; Q3 = 4. Tali valori ci dicono che: • All’incirca il 25% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 2. Il restante 75% circa ha un numero di stanze maggiore o uguale a 2. 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 13 • All’incirca il 50% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 3. Il restante 50% circa ha un numero di stanze maggiore o uguale a 3. • All’incirca il 75% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 4. Il restante 25% circa ha un numero di stanze maggiore o uguale a 4. Le posizioni del primo e nono decile sono date da: P os(D1 ) = N +1 = 13 10 P os(D9 ) = 9 · N +1 = 117 10 Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che D1 = 2 e D9 = 6. Tali risultati ci dicono che: • All’incirca il 10% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 2. Il restante 90% circa ha un numero di stanze maggiore o uguale a 2. • All’incirca il 90% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 6. Il restante 10% circa ha un numero di stanze maggiore o uguale a 6. La posizione del 73-esimo centile è data da: P os(C73 ) = 73 · N +1 = 73 · 1, 3 = 94, 9 100 Sulla base delle frequenze cumulate abbiamo che C73 = 4. Tale valore ci dice che circa il 73% delle abitazioni del quartiere milanese in considerazione ha un numero di stanze minore o uguale a 4. Il restante 27% circa ha un numero di stanze maggiore o uguale a 4. 8. La seguente tabella riporta il numero di incidenti stradali subiti dai possessori di patente di un comune negli anni 1983 e 1984. Numero incidenti Frequenze fino a 2 380 3⊢⊣4 305 5⊢⊣8 285 9⊢⊣11 84 12⊢⊣16 67 17⊢⊣19 24 20⊢⊣24 5 totale 1150 Calcolare la moda e commentare. Svolgimento La tabella fornita dal testo dell’esercizio riporta la distribuzione di frequenze di un carattere quantitativo discreto con dati raggruppati in classi. In tal caso il calcolo della moda si riduce all’individuazione della classe modale che si identifica in quella con frequenza specifica maggiore. Calcoliamo dunque le frequenze specifiche dopo 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 14 aver evidentemente fissato in 0 l’estremo inferiore della prima classe. Num. Incidenti fino a 2 3⊢⊣4 5⊢⊣8 9⊢⊣11 12⊢⊣16 17⊢⊣19 20⊢⊣24 ni Ampiezza 380 3 305 2 285 4 84 3 67 5 24 3 5 5 Freq. Specifiche 126,67 152,5 71,25 28 13,4 8 1 La Classe modale risulta quindi essere 3⊢⊣4. Si può quindi affermare che il numero di incidenti che, più comunemente, subiscono i possessori di patente nel comune in considerazione è pari a 3 o a 4. Si osservi che la classe modale rappresenta solo il 26, 5% circa dell’intera popolazione ed è di conseguenza scarsamente rappresentativa della stessa. 9. I dati nella tabella riportano la distribuzione di frequenza delle entrate provenienti dai redditi soggetti ad imposta di una certa categoria di lavoratori del Canada (dati espressi in migliaia di dollari $): entrate frequenze 0⊣2 250 2⊣4 1589 4⊣6 1768 6⊣8 1473 8⊣10 1172 10⊣15 1298 15⊣20 306 20⊣50 200 50⊣100 21 100⊣200 3 totale 8080 Calcolare: i) la percentuale di entrate minori di 5000$; ii) la percentuale delle entrate maggiori di 12000$; iii) i quartili; iv) l’entrata di reddito che è superata solo dal 10% delle entrate. Svolgimento Al fine dello svolgimento dell’esercizio saranno utili i risultati riportati nella seguente tabella. Entrate Frequenze 0⊣2 250 2⊣4 1589 4⊣6 1768 6⊣8 1473 8⊣10 1172 10⊣15 1298 15⊣20 306 20⊣50 200 50⊣100 21 100⊣200 3 totale 8080 Freq. Cumulate 250 1839 3607 5080 6252 7550 7856 8056 8077 8080 – Freq. Retrocum. Freq. Spec. 8080 125 7830 794.5 6241 884 4473 736.5 3000 586 1828 259.6 530 61.2 224 6.6̄ 24 0.42 3 0.03 – i) Il numero di entrate minori di 5000$ è dato dalla somma delle: 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 15 • entrate minori o uguali a 4000$; • entrate maggiori di 4000$ e minori o di 5000$. Il valore del primo addendo ci viene fornito dalla seconda frequenza cumulata: 1839. Il valore del secondo addendo viene individuato ipotizzando che le frequenze si distribuiscano uniformemente all’interno di ogni classe. Con questa ipotesi la frequenza x associata alla sottoclasse 4-5 è sostanzialmente ottenuta ricorrendo alla frequenza specifica della classe 4⊣6. La frequenza specifica associata alla classe 4⊣6 è pari a 884 e ci indica la fequenza che corrisponde ad ogni intervallo unitario della classe 4⊣6 (e dunque anche all’intervallo 4-5). Il numero di entrate maggiori di 4000 e minori o di 5000 è dunque pari a 884 e di conseguenza il numero di entrate minori di 5000 è 2723. La percentuale di entrate minori di 5000$ è quindi pari a 2723 · 100 = 33, 7%. 8080 ii) il numero di entrate maggiori di 12000$ è dato dalla somma delle: • entrate maggiori di 15000$; • entrate maggiori di 12000$ e minori o uguali a 15000$. Il valore del primo addendo ci viene fornito dalla settima frequenza retrocumulata: 530. Il valore del secondo addendo viene individuato ipotizzando che le frequenze si distribuiscano uniformemente all’interno di ogni classe. Con questa ipotesi la frequenza x associata alla sottoclasse 12⊣15 è sostanzialmente ottenuta ricorrendo alla frequenza specifica della classe 10⊣15. tale frequenza specifica è data da 259, 6 così che la frequenza associata alla sottoclasse (di ampiezza 3) è data da: 3 · 259, 6 = 778, 8. Il numero di entrate maggiori di 12000$ è quindi pari a 530 + 778, 8 = 1308, 8. La percentuale di entrate maggiori a 12000$ è pari a 1308, 8 · 100 = 16, 2%. 8080 iii) Le posizioni delle tre entrate quartili sono date da: P os(Q1 ) = 8081 = 2020, 25 4 8081 = 4040, 50 4 8081 P os(Q3 ) = 3 · = 6060, 75 4 Osservando le frequenze cumulate si può dunque stabilire che: P os(Q2 ) = 2 · Q1 = x(2020,25) = 4 + (2020, 25 − 1839 − 0, 5) · 2 = 4, 2045. 1768 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 16 2 = 6, 5879. 1473 2 = 8 + (6060, 75 − 5080 − 0, 5) · = 9, 6728. 1172 Q2 = x(4040,5) = 6 + (4040, 5 − 3607 − 0, 5) · Q3 = x(6060,75) iv) L’entrata del reddito che è superata solo dal 10% delle entrate coincide con D9 . La posizione del nono decile è data da: P os(D9 ) = 9 · 8081 = 7272, 9. 10 D9 = x(7272,9) = 10 + (7272, 9 − 6252 − 0, 5) 5 = 13, 9366. 1298 STATISTICA: esercizi svolti sulla MEDIA ARITMETICA 1 1 MEDIA ARITMETICA 1 2 MEDIA ARITMETICA 1. La seguente tabella riporta il numero di persone divise per sesso che si sono presentate durante l’anno 1997 presso un laboratorio d’analisi mediche per rilevare il livello di colesterolemia nel sangue. maschi femmine Gen 180 150 Feb 168 146 Mar 160 150 Apr Mag 160 158 149 143 Giu Lug 120 80 104 40 Ago 23 21 Set 132 122 Ott Nov Dic 102 156 96 104 147 98 Si calcoli la media mensile dei pazienti maschi e dei pazienti femmine che si sono presentati al laboratorio. Svolgimento Il numero totale di pazienti maschi presentatisi nel 1997 per la rilevazione del livello di colesterolemia è dato da: 180 + 168 + 160 + 158 + 120 + 80 + 23 + 132 + 102 + 156 + 96 = 1535. La media mensile del numero di maschi presentatisi al laboratorio per l’esame in questione è quindi data da: 1535 = 127.92 12 In media, nell’anno 1997, si sono presentati al laboratorio, per la rilevazione del livello di colesterolemia, 127.92 pazienti maschi ogni mese. Più precisamente 127.92 indica il numero ipotetico di pazienti maschi che si sarebbero presentati al laboratorio in un mese, nell’ipotesi in cui il numero di pazienti maschi fosse stato uguale per tutti i mesi. Il numero totale di pazienti di sesso femminile presentatisi nel 1997 per la rilevazione del livello di colesterolemia è dato da: M1 (maschi) = 150 + 146 + 150 + 149 + 143 + 104 + 40 + 21 + 122 + 104 + 147 + 98 = 1374. La media mensile del numero di femmine presentatisi al laboratorio per l’esame in questione è quindi data da: 1374 = 114.5 12 In media, nell’anno 1997, si sono presentati al laboratorio, per la rilevazione del livello di colesterolemia, 114.5 pazienti femmine ogni mese. Più precisamente 114.5 indica il numero ipotetico di pazienti di sesso femminile che si sarebbero presentati al laboratorio in un mese, nell’ipotesi in cui il numero di pazienti di sesso femminile fosse stato uguale per tutti i mesi. Dal confronto tra le due medie osserviamo che, relativamente alla rilevazione del livello di colesterolemia, nel 1997, mediamente presso il laboratorio d’analisi si sono presentati ogni mese più maschi che femmine. M1 (f emmine) = 1 MEDIA ARITMETICA 3 2. Le temperature della neve in gradi Celsius di una nota località sciistica nel mese di gennaio sono state le seguenti: tj gj -4 6 -3 5 -2 8 -1 6 0 4 1 2 dove tj è la temperatura rilevata in gradi Celsius e gj è il numero di giorni in cui si è registrata la temperatura tj . Si calcoli la temperatura media: in gradi Celsius, in gradi assoluti dove Tass = 273.15 + TCelsius e in gradi Fahrenheit, dove TF ahr = 32 + 1.8 TCelsius . Svolgimento La seguente tabella riporta alcuni conti che ci saranno utili per lo svolgimento dell’esercizio. tj gj tj · gj -4 6 -24 -3 5 -15 -2 8 -16 -1 6 -6 0 4 0 1 2 2 tot 31 -59 La temperatura media in gradi Celsius è data da: P6 M1 (TCelsius ) = j=1 tj P6 j=1 = · gj gj −59 = −1.903 31 Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari −1.903 C ◦ . Più precisamente, −1.903 C ◦ indica la temperatura che si sarebbe dovuta osservare nell’intero mese di gennaio nel caso in cui si fosse avuta la stessa temperatura in ogni giorno. Si osservi che le relazioni che ci permettono di passare dalle temperature in gradi Celsius a quelle in gradi Fahrenheit e assoluti, sono lineari. In forza della proprietà di linearità della media aritmetica1 le medie ricercate risultano: M1 (TF ahrenheit ) = 32 + 1.8 · M1 (TCelsius ) = 32 + 1.8 · (−1.903) = 28.574 Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari a 28.574 gradi Fahrenheit. Più precisamente, 28.574 indica la temperatura in gradi Fahrenheit che si sarebbe dovuta osservare nell’intero mese di 1 Zenga M., Lezioni di statistica descrittiva, pag. 122 (Quarta proprietà di M1 ). 1 MEDIA ARITMETICA 4 gennaio nel caso in cui si fosse avuta la stessa temperatura in ogni giorno. M1 (Tassoluti ) = 273.15 + M1 (TCelsius ) = 273.15 + (−1.903) = 271.247 Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari a 271.247 gradi assoluti. Più precisamente, 271.247 indica la temperatura in gradi assoluti che si sarebbe dovuta osservare nell’intero mese di gennaio nel caso in cui si fosse avuta la stessa temperatura in ogni giorno. 3. La distribuzione del reddito annuo in euro dei 1000 abitanti di un comune è la seguente: classi di reddito redditieri 1000 ` 5000 100 5000 ` 15000 400 15000 ` 35000 300 35000 ` 75000 200 Si calcoli il reddito medio degli abitanti del comune. Svolgimento Si tratta di calcolare la media aritmetica per una distribuzione di frequenza con dati raggruppati in classi. In questo caso la media aritmetica viene calcolata ipotizzando che la frequenza di ogni classe si concentri nel valore centrale della classe stessa. classi di reddito 1000 ` 5000 5000 ` 15000 15000 ` 35000 35000 ` 75000 tot redditieri (nj ) 100 400 300 200 1000 Val. Centrale (xj ) 3000 10000 25000 55000 – nj · xj 300000 4000000 7500000 11000000 22800000 Il reddito medio è dato da: 4 M1 = 1 X xj · nj 1000 j=1 22800000 = 22800 1000 Gli abitanti del comune in considerazione percepiscono in media un reddito annuo pari a 22800. Più precisamente, 22800 indica il reddito che spetterebbe a ciscuno dei residenti nel comune in considerazione nell’ipotesi in cui il reddito totale di tutti i residenti nel comune fosse ripartito in parti uguali, ossia nell’ipotesi in cui ciascun residente avesse lo stesso reddito. = 1 MEDIA ARITMETICA 5 4. Le 500 imprese di un settore sono state classificate in base al numero di addetti come segue: classi di addetti 1`a9 n. aziende 25 n. addetti per classe 175 10`a19 56 890 20`a49 189 7175 50`a199 168 20328 200`a499 51 11357 ≥ 500 11 7514 Calcolare il numero medio di addetti del settore, sia ricorrendo all’informazione fornita dalla terza riga della tabella, sia non ricorrendovi. Svolgimento Supponiamo dapprima di essere in possesso dell’informazione fornita dalla terza riga della tabella. In tal caso possiamo risalire al numero complessivo di addetti all’interno del settore industriale allo studio: 175 + 890 + 7175 + 20328 + 11357 + 7514 = 47439. Alla luce di ciò, il numero medio di addetti per azienda impegnata nel settore risulta pari a: 47439 = 94.878 . M1 = 500 M1 = 94.878 indica il numero di addetti che sarebbero impiegati in ciascuna azienda nell’ipotesi in cui il numero totale di addetti venisse ripartito in parti uguali tra tutte le aziende del settore in considerazione, ossia nell’ipotesi in cui ciascuna azienda abbia lo stesso numero di addetti. In alternativa, saremmo potuti giungere al medesimo risultato calcolando in primo luogo le medie del numero di addetti nelle aziende appartenenti a ciascuna delle classi considerate ed in secondo luogo sfruttando la proprietà associativa 2 della media aritmetica. A tal fine costruiamo la seguente tabella: classi nj 1`a9 10`a19 20`a49 50`a199 200`a499 ≥ 500 25 56 189 168 51 11 totale addetti per classe(xj · nj ) 175 890 7175 20328 11357 7514 Numero medio di addetti per azienda (xj ) 7 15.893 37.963 121 222.688 653.091 Nella tabella sopra riportata, ad esempio, M1 (1) = 7 ci indica che, in media, all’interno delle 25 aziende con un numero di addetti tra 1 e 9, si hanno 7 addetti. Più precisamente, 7 indica il numero di addetti che sarebbero impiegati all’interno delle aziende appartenenti alla classe 1`a9 , nell’ipotesi in cui il numero totale di addetti relativi a questa categoria di imprese fosse ripartito in parti uguali tra le imprese 2 Zenga M., Lezioni di statistica descrittiva, pag. 120 (Terza proprietà di M1 ). 1 MEDIA ARITMETICA 6 stesse, ossia nell’ipotesi in cui tutte le aziende appartenenti alla categoria in considerazione avessero lo stesso numero di addetti. Analogamente, M1 (4) = 121 ci indica che mediamente, le 168 aziende aventi un numero di addetti compreso tra 50 e 199, hanno 121 addetti. Più precisamente, 121 indica il numero di addetti che sarebbero impiegati all’interno delle aziende con un numero di addetti tra 50 e 199, nell’ipotesi in cui il numero totale di addetti relativi a questa categoria di imprese fosse ripartito in parti uguali tra le imprese stesse, ossia nell’ipotesi in cui tutte le aziende appartenenti alla categoria in considerazione avessero lo stesso numero di addetti. In forza della proprietà associativa della media aritmetica abbiamo che: M1 = = (7 · 25) + (15.893 · 56) + (37.963 · 189) + (121 · 168) + (222.688 · 51) + (683.091 · 11) 500 47439 = 94.878 500 che coincide con quanto ricavato in precedenza. Si osservi che le medie aritmetiche di ogni classe, xj , possono costituire un valore rappresentativo delle classi, come avviene per i valori centrali (utilizzati ad esempio nell’esercizio precedente e utili nei contesti in cui non si dispone di ulteriori informazioni sulle classi). Come sopra precisato, se si suppone di non disporre dell’informazione fornita dalla terza riga della tabella riportata dal testo dell’esercizio, dobbiamo calcolare la media aritmetica per una distribuzione di frequenza con dati raggruppati in classi utilizzando i valori centrali delle classi stesse. In questo caso ipotizziamo cioè che le aziende appartenenti alla medesima classe abbiano un’ugual numero di addetti, pari al valore centrale della classe. E’ dunque necessario calcolare tali valori centrali e a tal fine scegliamo di chiudere l’ultima classe con il valore 1000. classi nj 1`a9 10`a19 20`a49 50`a199 200`a499 500`a1000 25 56 189 168 51 11 Val. centrale di classe 5 14.5 34.5 124.5 349.5 750 A questo punto la media artmetica risulta essere data da: (5 · 25) + (14.5 · 56) + (34.5 · 189) + (124.5 · 168) + (349.5 · 51) + (750 · 11) 500 54448 = = 108.896 500 M1 = Si osservi che l’ipotesi che le aziende di ogni classe abbiano un’ugual numero di addetti, pari al valore centrale della classe a cui appartengono, ci ha portato ad individuare un numero teorico complessivo di addetti pari a 54448, tale valore non coincide con il totale effettivo 47439. Ignorando l’informazione contenuta nella terza riga della 1 MEDIA ARITMETICA 7 tabella del testo dell’esercizio, concludiamo che, mediamente, il numero di addetti per azienda risulta pari a 108.896. Più precisamente 108.869 indica il numero di addetti che sarebbero impiegati in ogni azienda nell’ipotesi in cui il numero teorico complessivo di addetti venisse ripartito in parti uguali tra tutte le 500 aziende del settore in considerazione, ossia nell’ipotesi in cui tutte le aziende del settore in considerazione avessero lo stesso numero di addetti. 5. Le medie aritmetiche dei voti riportati agli esami di maturità (in sessantesimi) in quattro classi di un istituto superiore sono le seguenti sezioni voto medio n. studenti A 54 30 B 46 27 C 40 20 D 52 18 Totale 95 Si determini la media aritmetica dei voti di maturità per l’intero istituto. Svolgimento Sfruttando la proprietà associativa delle media aritmetica, la media dei voti di maturità per l’intero istituto risulta essere: (54 · 30) + (46 · 27) + (40 · 20) + (52 · 18) 95 4598 = 48.4 = 95 M1 = Mediamente, il voto di maturità degli studenti dell’istituto in considerazione è pari a 48.4 sessantesimi. Se tutti i 95 studenti avessero meritato lo stesso voto, dunque, ciascuno avrebbe idealmente un voto pari a 48.4 sessantesimi. 6. La seguente tabella riporta la distribuzione del numero di alberghi delle due località turistiche A e B di un comprensorio, secondo le classi di fatturato annuale X (in milioni di Euro): classi di fatturato N.ro di alberghi in A (nA j ) B N.ro di alberghi in B (nj ) fino a 1 15 25 1`3 24 51 3`5 85 67 5`10 48 59 10`20 40 31 20`40 29 31 Si calcoli il fatturato medio degli alberghi dell’intero comprensorio. Si verifichi che per tale media vale la proprietà associativa, relativamente alle due località A e B. Svolgimento Dobbiamo calcolare la media aritmetica per una distribuzione di frequenze con dati raggruppati in classi. Al fine dello svolgimento dell’esercizio, sembra ragionevole 1 MEDIA ARITMETICA 8 chiudere la prima classe con il valore 0. Nella seguente tabella riportiamo dei calcoli che ci saranno utili in seguito. B Classi nA nB Val. Centr. nj = nA xcj · nj xcj · nA xcj · nB j j j + nj j j di fatturato xcj 0`1 15 25 0.5 40 20 7.5 12.5 1`3 24 51 2 75 150 48 102 3`5 85 67 4 152 608 340 268 5`10 48 59 7.5 107 802.5 360 442.5 10`20 40 31 15 71 1065 600 465 20`40 29 31 30 60 1080 870 930 tot 241 264 – 505 4445.5 2225.5 2220 Il fatturato medio aritmetico degli alberghi dell’intero comprensorio è dato da: M1 = 4445.5 = 8.803. 505 Il valore 8.803 indica il fatturato di ogni albergo del comprensorio nell’ipotesi in cui il fatturato di tutti gli alberghi venga ripartito in parti uguali tra gli alberghi. Il fatturato medio aritmetico degli alberghi della località turistica A è dato da: M1A = 2225.5 = 9.234. 241 Il valore 9.234 indica il fatturato di ogni albergo della località A nell’ipotesi in cui il fatturato di tutti gli alberghi della località A venga ripartito in parti uguali tra quelli della località stessa. Il fatturato medio artmetico degli alberghi del della località turistica B è dato da: M1B = 2220 = 8.409. 264 Il valore 8.409 indica il fatturato di ogni albergo della località B nell’ipotesi in cui il fatturato di tutti gli alberghi della località B venga ripartito in parti uguali tra quelli della località stessa. Verifichiamo ora la proprietà associativa della media aritmetica la quale ci assicura che il fatturato medio aritmetico degli alberghi dell’intero comprensorio è calcolabile come media aritmetica ponderata dei fattuati medi aritmetici degli alberghi delle località A e B con pesi pari alla numerosità degli alberghi nelle due località. In formule: (9.234 · 241) + (8.409 · 264) M1 = = 8.803 505 che coincide esattamente con il valore ricavato in precedenza. 7. Un carattere quantitativo X è stato rilevato sulle unità di una popolazione. La più piccola modalità osservata è x(1) = 3, la più elevata modalità è x(n) = 30. Si risponda, con opportune motivazioni, alle seguenti domande: 1 MEDIA ARITMETICA 9 a) è possibile che M1 (X) = 2.5 ? b) Se Y è un altro carattere quantitativo legato ad X dalla relazione Y = 0.7 + 5X quale tra le seguenti medie aritmetiche: 10, 100, 152, si ritiene che sia possibile per Y ? Svolgimento Svolgimento punto a) Per la proprietà di internalità della media artimentica abbiamo che x(1) ≤ M1 ≤ x(n) . Nel nostro caso si dovrebbe avere che 3 ≤ M1X ≤ 30 (1) e di conseguenza M1 non può assumere il valore 2.5. Svolgimento punto b) In forza della proprietà di linearità della media aritmetica abbiamo che M1Y = 0.7 + 5M1X e di conseguenza M1Y − 0.7 . 5 l’espressione appena ricavata abbiamo: M1X = Riscrivendo la (1) sostituendo a M1X 3≤ M1Y − 0.7 ≤ 30. 5 Isolando M1Y nell’espressione appena riportata, otteniamo che la media del carattere Y deve soddifare le seguenti disuguaglianze: (3 · 5) + 0.7 ≤ M1Y ≤ (30 · 5) + 0.7 15.7 ≤ M1Y ≤ 150.7. Grazie alle disuguaglianze sopra riportate concludiamo che tra i valori 10, 100, 152, l’unico possibile per M1Y è 100. STATISTICA: esercizi svolti su MEDIA GEOMETRICA MEDIA ARMONICA e MEDIA QUADRATICA 1 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 1 2 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 1. Calcolare la media aritmetica dei logaritmi dei seguenti valori: 2; 4; 8; 16; 32; 64; 128. Dedurne quindi la media geometrica. Svolgimento Per calcolare la media aritmetica dei logaritmi dei valori indicati dal testo dell’esercizio, predisponiamo la seguente tabella (in cui si è fatto uso dei logaritmi naturali): xi 2 4 8 16 32 64 128 tot log(xi ) 0.6931 1.3863 2.0794 2.7725 3.4657 4.1589 4.8520 19.4081 Abbiamo dunque che: M1 (log X) = 19.4081 = 2.7726. 7 Ricordiamo che la media aritmetica dei logaritmi di N valori positivi coincide con il logaritmo della media geometrica1 , in formule: M1 (log X) = log(M0 (X)). Di conseguenza: M0 (X) = eM1 (log X) . Grazie a quest’ultima espressione abbiamo che: M0 (X) = e2.7726 = 16. La media geometrica dei valori riportati dal testo dell’esercizio è di conseguenza pari a 16. Quale verifica della correttezza dei calcoli appena svolti, ricaviamo il valore di M0 (X) utilizzando anche il procedimento diretto. v u 7 uY 7 xi M0 (X) = t i=1 1 Zenga M., Lezioni di statistica descrittiva, pag 131: prima proprietà della media geometrica. 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 3 √ 7 = 2 · 4 · 8 · 16 · 32 · 64 · 128 √ 7 = 2 · 22 · 23 · 24 · 25 · 26 · 27 √ 7 = 228 28 = 2 7 = 24 = 16. Che coincide con quanto ricavato in precedenza. 2. Le temperature della neve in gradi centigradi di una nota località sciistica nel mese di agosto sono state le seguenti: xj nj 6 2 5 4 4 6 3 5 2 8 1 6 dove nj è il numero di giorni in cui si è registrata la temperatura xj in gradi centigradi. Calcolare la media geometrica della distribuzione. Svolgimento Il numero totale di giorni in cui è stata rilevata la temperatura della neve nella località sciistica è dato da: N = 2 + 4 + 6 + 5 + 8 + 6 = 31. Indicando con k il numero delle modalità del carattere “temperatura in gradi centigradi” che si sono effettivamente osservate, la media geometrica della distribuzione è data da: v u k uY nj N xj M0 = t √ 31 j=1 = 62 · 54 · 46 · 35 · 28 · 16 = 2.5796 Possiamo dunque concludere dicendo che la media geometrica delle temperature della neve rilevate durante mese d’agosto nella nota località sciistica è pari a 2.5796 C ◦ . 3. Una classe di studenti che hanno frequentato il liceo insieme si trova alla cena di classe ad un paio d’anni dalla maturità. Sia X il numero di esami sostenuti durante i primi due anni di iscrizione all’università: X 0 `a 1 n studenti 6 T otale esami sostenuti 4 ◦ 2 `a 4 10 27 5 `a 7 8 52 8 `a 9 4 33 Si valuti la media geometrica della distribuzione, sia ricorrendo all’informazione fornita dalla terza riga della tabella, sia non ricorrendovi. 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 4 Svolgimento Si supponga in primo luogo di essere in possesso dell’informazione fornita dalla terza riga della tabella riportata nel testo dell’esercizio. In tal caso è ragionevole sintetizzare ciascuna classe in cui è raggruppato il carattere “numero di esami sostenuti” mediante la media aritmetica degli esami sostenuti dagli studenti che appartengono a ciascuna delle classi stesse. Queste medie (xj ), insieme ad altri calcoli che ci saranno utili nel seguito, sono riportate nella seguente tabella: X 0 `a 1 2 `a 4 5 `a 7 8 `a 9 tot. n◦ studenti nj 6 10 8 4 28 Tot. esami xj · nj 4 27 52 33 – xj 0.6667 2.7 6.5 8.25 – val. centrale cj 0.5 3 6 8.5 – La media geometrica calcolata sfruttando le informazioni della terza riga della tabella è data da: v u 4 uY nj 0 t x M0 = 28 j j=1 p 28 = (0.6667)6 · (2.7)10 · (6.5)8 · (8.25)4 = 3.0165 Supponendo invece di non essere in possesso delle informazioni contenute nella terza riga della tabella, è ragionevole sintetizzare ciascuna classe mediante i loro valori centrali cj . In questo caso la media geometrica risulta essere data da: v u 4 uY nj 00 t c M0 = 28 j j=1 p 28 = (0.5)6 · (3)10 · (6)8 · (8.5)4 = 2.8907 . 4. L’importazione di grano in migliaia di tonnellate negli anni 1991 − 1997 è riportata nella seguente tabella: anno (j) quantità (qj ) 1991 1534 1992 2323 1993 2340 1994 2150 1995 2460 1996 2470 1997 2510 Si calcoli per il periodo considerato la variazione relativa media annua (o tasso di variazione medio annuo) del fenomeno commentando opportunamente. 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 5 Svolgimento Le variazioni relative annuali della quantità di grano importata sono date da: Vj.j−1 = qj qj − qj−1 = − 1 = Ij.j−1 − 1 qj−1 qj−1 j = 1991, 1992, ..., 1997. Il loro calcolo è riportato nella seguente tabella: Anno (j) 1991 1992 1993 1994 1995 1996 1997 quantità (qi ) 1534 2323 2340 2150 2460 2470 2510 Ij.j−1 – 1.5143 1.0073 0.9188 1.1442 1.0041 1.0162 Vj.j−1 – 0.5143 0.0073 -0.0812 0.1442 0.0041 0.0162 Ad esempio, la variazione relativa V1992.1991 , dice che le importazioni di grano del 1992 sono state maggiori del 51.43% rispetto a quelle del 1991. V1994.1993 dice che le importazioni di grano del 1994 sono state minori dell’8.12% rispetto a quelle del 1993. In modo analogo si commentano le altre variazioni relative annuali. La variazione relativa media annua (o tasso di variazione medio annuo) della quantità di grano importata, è data da: ( 1997 ) 61 Y −1 V̄ = (1 + Vj.j−1 ) j=1991 ( = 1997 Y ) 16 Ij.j−1 −1 j=1991 = I¯ − 1 dove, come è possibile osservare, si è indicato con I¯ la media geometrica dei numeri indici a base mobile Ij.j−1 . Osserviamo inoltre che: 1997 Y Ij.j−1 = I1997.1991 = j=1991 q1997 . q1991 La media geometrica I¯ dei numeri indici a base mobile, di conseguenza, è data da: 61 1 2510 I¯ = (I1997.1991 ) 6 = = 1.0855 1534 Abbiamo dunque che: V̄ = 2510 1534 16 − 1 = 1.0855 − 1 = 0.0855 . 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 6 La variazione relativa media annua della quantità di grano importata, risulta essere pari a 0.0855. Essa ci indica che, mediamente, negli anni dal 91 al 97, si è osservata una crescita annuale delle importazioni di grano pari all’ 8.55%. 5. La seguente tabella riporta il numero di autovetture nuove immatricolate nel periodo gennaio-settembre 2005 (Fonte: Ministero delle Infrastrutture e dei Trasporti): M ese immatric. Genn. 212568 Feb. 195518 Marzo 228104 Aprile 195388 Maggio 149229 Giugno 233901 Luglio 211227 Agosto 97048 Sett. 186759 Si calcoli la variazione relativa media mensile (o tasso di variazione medio mensile) del fenomeno per il periodo considerato. Svolgimento La variazione relativa media mensile è data da V̄ = I¯ − 1 dove con I¯ si è indicata la media geometrica dei numeri indici a base mobile la quale risulta essere pari a: 1 186759 8 ¯ = 0.9839 . I= 212568 La variazione relativa media mensile risulta quindi: V̄ = 186759 212568 18 − 1 = 0.9839 − 1 = −0.0161 . Concludendo, la variazione relativa media mensile del numero di immatricolazioni, risulta essere pari a −0.0161. Essa indica che, mediamente, nei mesi da gennaio a settembre del 2005, si è osservata una diminuzione mensile delle immatricolazioni di auto pari all’1.61%. 6. Su un collettivo di 5 addetti vengono analizzati il carattere X =‘numero di ore lavorate nell’ultimo mese’ ed il carattere Y =‘numero di pezzi prodotti nell’ultimo mese’: Addetto 1 2 3 4 5 X 222 243 225 206 248 Y 1506 1602 1501 1493 1655 Si determini la media geometrica del numero di pezzi prodotti in un’ora. Svolgimento E’ necessario, partendo dai dati forniti dal testo dell’esercizio, calcolare il numero 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 7 medio zi di pezzi prodotti in un ora di lavoro da ciascuno dei cinque addetti. Il calcolo di tali valori è riportato nella seguente tabella. Addetto 1 2 3 4 5 xi 222 243 225 206 248 yi 1506 1602 1501 1493 1655 zi = yi \xi 6.78 6.59 6.67 7.25 6.67 La media geometrica del numero di pezzi prodotti in un’ora è data dunque da: p M0 (Z) = 5 (6.78) · (6.59) · (6.67) · (7.25) · (6.67) = 6.79 In alternativa avremmo potuto ricavare il valore di M0 (Z) sfruttando la seguente proprietà2 della media geometrica: M0 (Y ) Y . M0 = X M0 (X) Nel nostro caso abbiamo: p M0 (Y ) = 5 (1506) · (1602) · (1501) · (1493) · (1655) = 1550.048 p M0 (X) = 5 (222) · (243) · (225) · (206) · (248) = 228.293. Concludendo, abbiamo che 1550.048 Y )= = 6.79 X 228.293 che coincide con il risultato ottenuto in precedenza. M0 (Z) = M0 ( 7. Un carattere quantitativo viene rilevato su 5 individui ottenendo le seguenti osservazioni: 13, 5, 7, 26, 19. Si calcolino la media armonica e la media quadratica della distribuzione. Svolgimento Nella seguente tabella sono riportati cizio. xi 13 5 7 26 19 tot 2 alcuni calcoli utili per lo svolgimento dell’eser1\xi 0.0769 0.2 0.1428 0.0385 0.0526 0.5109 x2i 169 25 49 676 361 1280 Zenga M., Lezioni di statistica descrittiva, pag. 134: seconda proprietà della media geometrica. 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 8 La media armonica della distribuzione è data da: 5 5 = 9.7872. M−1 = P5 1 = 0.5109 i=1 x i La media quadratica della distribuzione è data da: v u 5 u1 X M2 = t x2 5 i=1 i r 1280 = 5 √ 256 = 16. = 8. Si calcolino la media armonica e la media quadratica della seguente distribuzione: xj 5 20 40 60 90 . nj 20 40 60 50 30 Si calcolino inoltre media aritmetica e media geometrica verificando numericamente la relazione di ordinamento: M−1 ≤ M0 ≤ M1 ≤ M2 . Svolgimento Nella seguente tabella sono riportati alcuni calcoli utili per lo svolgimento dell’esercizio. xj 5 20 40 60 90 Tot nj 20 40 60 50 30 200 xj · nj 100 800 2400 3000 2700 9000 x−1 j 0.2 0.05 0.025 0.01667 0.0111 – log(xj ) log(xj ) · nj 1.6094 32.1887 2.9957 119.8293 3.6889 221.3328 4.0943 204.7172 4.4998 134.9943 – 713.0623 x−1 j · nj 4 2 1.5 0.8333 0.3333 8.6667 La media aritmetica del carattere rilevato è data da: 5 1 X 9000 M1 = xj · nj = = 45. 200 j=1 200 La media goemetrica del carattere rilevato è data da: 5 M0 = exp 1 X log(xj ) · nj 200 j=1 713.0623 = e 200 = e3.5653 = 35.3505. ! x2j 25 400 1600 3600 8100 – x2j · nj 500 16000 96000 180000 243000 535500 1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA 9 La media armonica del carattere rilevato è data da: 200 −1 j=1 xj · nj 200 = = 23.0769. 8.6667 M−1 = P5 La media quadratica del carattere rilevato è data da: v u 5 u 1 X t M2 = x2 · nj 200 j=1 j r 535500 = 51.7446. = 200 E’ facile osservare che i valori medi appena ricavati soddifano la relazione d’ordine riportata dal testo dell’esercizio. Infatti: (M−1 = 23.0769) ≤ (M0 = 35.3505) ≤ (M1 = 45) ≤ (M2 = 51.7446) . STATISTICA esercizi svolti sul PRINCIPIO DI INVARIANZA DI CHISINI 1 1 PRINCIPIO DI INVARIANZA DI CHISINI 1 2 PRINCIPIO DI INVARIANZA DI CHISINI 1.1 Esercizi 1. Una banca ha applicato negli ultimi 12 anni ad un deposito vincolato i seguenti tassi di interesse composto: 8.2% per 1 anno, 12.5% per 3 anni, 10.7% per 4 anni, 11.4% per 2 anni e 9% per 2 anni. Determinare il tasso medio annuo che lascia inalterato il valore del deposito al termine dei 12 anni. Svolgimento Calcolare il tasso medio annuo che lascia inalterato il valore del deposito al termine dei 12 anni significa trovare il tasso che, se fosse stato applicato per tutti i 12 anni, avrebbe portato ad ottenere lo stesso capitale (montante) finale. É noto che, dato un capitale iniziale C0 e n tassi di interesse x1 , x2 , ..., xn applicati in altrettanti periodi, il capitale (montante) finale CF in regime di capitalizzazione composta è dato da n Y CF = C0 (1 + x1 )(1 + x2 ) · · · (1 + xn ) = C0 (1 + xi ). i=1 É noto inoltre che, considerato un generico tasso xi , la quantità 1 + xi si dice fattore di capitalizzazione. Pertanto il problema considerato può essere equivalentemente riformulato ricercando il fattore di capitalizzazione medio annuo. Il fattore di capitalizzazione medio annuo (1+ x̄) che lascia inalterato il capitale finale devi quindi soddisfare la relazione C0 · N Y i=1 N Y (1 + xi ) = C0 · (1 + x̄) i=1 cioè (1 + x̄)N = N Y (1 + xi ) i=1 1 + x̄ = da cui si ricava che " N Y i=1 # N1 (1 + xi ) # N1 N Y − 1. x̄ = (1 + xi ) " i=1 1 PRINCIPIO DI INVARIANZA DI CHISINI 3 # N1 N Y Dalla relazione 1 + x̄ = è facile riconoscere che il fattore di capitaliz(1 + xi ) " i=1 zazione medio annuo è la media geometrica dei fattori di capitalizzazione annui. Nel nostro caso, abbiamo tassi di interesse (e quindi fattori di capitalizzazione) applicati per più anni: mostreremo dunque che è necessario considerare la media geometrica ponderata dei fattori di capitalizzazione, con pesi pari agli anni di applicazione. Si completa perciò la seguente tabella, calcolando i fattori di capitalizzazione annui e il numero di anni nei quali sono stati applicati. X = fattore di capitalizzazione annuo 1+0.082=1.082 1+0.125=1.125 1+0.107=1.107 1+0.114=1.114 1+0.09=1.09 TOTALE ni = anni di applicazione 1 3 4 2 2 12 Il capitale (montante) finale è pertanto: CF = C0 · 5 Y i=1 (1+xi )ni = C0 ·[(1.082)1 ·(1.125)3 ·(1.107)4 ·(1.114)2 ·(1.09)2 ] = C0 ·3.412. La relazione che deve soddisfare il fattore di capitalizzazione medio annuo (1 + x̄) è 5 5 Y Y ni C0 · (1 + xi ) = C0 · (1 + x̄)ni i=1 cioè i=1 5 Y (1 + xi )ni = (1 + x̄)12 i=1 da cui si ricava v u 5 uY 12 1 + x̄ = t (1 + xi )ni i=1 vale a dire la media geometrica ponderata dei fattori di capitalizzazione, con pesi pari agli anni di applicazione. Nel nostro caso, quindi 1 + x̄ = √ 12 3.412 1 PRINCIPIO DI INVARIANZA DI CHISINI 4 e quindi 1 + x̄ = 1.10768. A questo punto possiamo ricavare il tasso di interesse medio annuo: x̄ = 1.10768 − 1 = 0.10768 (= 10.768%). 2. Durante una mattinata, vengono rilevati gli incassi x1 , . . . , x5 (espressi in euro) di cinque caselli autostradali. Il prezzo del pedaggio è unico e pari a 1.5 euro. a) Si determini l’espressione generale dell’incasso medio che lascia invariato il numero di pedaggi complessivamente pagati. Si riconosca il tipo di media determinata; b) L’incasso medio dei cinque caselli risulta pari a 150 euro. Viene fatta poi una rilevazione su altri dieci caselli per i quali l’incasso medio risulta pari a 425 euro. Qual è l’incasso medio dei 15 caselli considerati congiuntamente? c) In riferimento ai 5 caselli precedentemente considerati, si dica, giustificando la risposta, se la seguente affermazione sia o meno plausibile: “la media quadratica degli incassi dei cinque caselli è pari a 136 euro”. Svolgimento a) Calcoliamo per prima cosa, l’espressione generale del numero di pedaggi dell’i-esimo casello, ovvero xi 1.5 e di conseguenza, il numero di pedaggi complessivi dei 5 caselli, è dato da 5 X xi . 1.5 i=1 Si vuole quindi cercare il valore dell’incasso medio x̄ tale che: 5 5 X X xi x̄ = 1.5 1.5 i=1 i=1 cioè 5 X i=1 da cui 5 X i=1 xi = 5 X x̄ i=1 xi = 5 · x̄. Dall’ultima relazione, è possibile quindi ricavare l’espressione generale di x̄: 5 1 X xi x̄ = · 5 i=1 1 PRINCIPIO DI INVARIANZA DI CHISINI 5 ed è possibile quindi affermare che la media aritmetica degli incassi dei 5 caselli è il tipo di media cercato. b) Per calcolare l’incasso medio dei 15 caselli considerati congiuntamente, si può utilizzare la proprietà associativa della media aritmetica che afferma che la media aritmetica totale è pari alla media aritmetica ponderata delle medie aritmetiche parziali, con pesi uguali alle numerosità dei gruppi. Si ottiene quindi: 150 · 5 + 425 · 10 5 + 10 5000 = 333.3̄ (euro). = 15 M1 (tot) = c) Per rispondere, basta ricordare che M−1 ≤ M0 ≤ M1 ≤ M2 e quindi, sapendo che M1 = 150 deve verificarsi necessariamente che M2 ≥ 150, ragion per cui non è possibile che la media quadratica degli incassi dei 5 caselli sia pari a 136 euro. 3. Un’auto percorre 5 tratti di strada, ciascuno dei quali lungo 150 km con velocità rispettivamente pari a v1 = 50 km/h, v2 = 100 km/h, v3 = 60 km/h, v4 = 120 km/h, v5 = 90 km/h. a) Qual’ è la velocità media che lascia inalterato il tempo complessivo impiegato a percorrere tutti e 5 i tratti di strada? b) Qual’ è la velocità media che lascia inalterato il consumo totale di carburante sapendo che il consumo per km, c è legato alla velocità v dalla relazione c = k v 2 , dove k è una costante positiva? Svolgimento a) Il tempo impiegato dall’auto per percorrere l’i-esimo tratto di strada è ti = 150 . vi 1 PRINCIPIO DI INVARIANZA DI CHISINI 6 Il tempo totale impiegato per percorrere tutti e 5 i tratti sarà quindi dato da ttot = 5 X ti = i=1 5 X 150 i=1 vi 5 X 1 = 150 · . v i=1 i La velocità media v̄ che lascia inalterato il tempo utilizzato per percorrere tutti i tratti di strada, deve pertanto soddisfare la seguente relazione 5 5 X X 1 1 = 150 · 150 · v v̄ i=1 i=1 i cioè 5 X 1 1 =5· . v v̄ i=1 i Dalla precedente relazione si ricava v̄ = 5 5 X i=1 1 vi . Si può quindi affermare che la velocità media v̄ che lascia inalterato il tempo utilizzato per percorrere tutti i tratti di strada è la media armonica delle velocità. Nel nostro caso si ha pertanto 5 1 1 1 1 1 + + + + 50 100 60 120 90 = 75.63. v̄ = b) Ricordando che la lunghezza di ogni tratto è 150 km, è possibile calcolare il consumo di carburante per l’i-esimo tratto di strada (ci ): ci = 150 k vi2 . Il consumo totale è pertanto dato da ctot = 5 X i=1 ci = 5 X i=1 150 k vi2 = 150 k · 5 X vi2 . i=1 La velocità media (v̄) che lascia inalterato il consumo totale deve soddisfare la relazione 5 5 X X 2 150 k · vi = 150 k · v̄ 2 i=1 i=1 1 PRINCIPIO DI INVARIANZA DI CHISINI cioè 7 5 X vi2 = 5 · v̄ 2 . v̄ = s i=1 Dalla relazione precedente si ricava P5 i=1 5 vi2 . É facile riconoscere che la velocità media cercata è la media quadratica delle velocità. Nel nostro caso si ha: r 502 + 1002 + 602 + 1202 + 902 5 = 87.86. v̄ = 4. Su un gruppo di cinque clienti di un piccolo negozio che hanno effettuato acquisti pagando mediante carta di credito, si rileva il carattere X= “somma spesa (in Euro)”: x1 = 52.70 x2 = 48.30 x3 = 105.80 x4 = 152.75 x5 = 45.00. Supponendo che il negoziante paghi, per ogni transazione, una commissione bancaria pari al 3% dell’importo, si determini l’espressione e il valore numerico della media di x1 , ..., x5 che lascia invariato il totale delle commissioni pagate dal negoziante. Si indichi inoltre il tipo di media ottenuta. Svolgimento La commissione pagata dal negoziante per l’i-esimo pagamento tramite carta di credito è data da 3 c i = xi · 100 e quindi il totale delle commissioni pagate dal negoziante è ctot = 5 X i=1 5 5 X 3 3 X ci = xi · = · xi . 100 100 i=1 i=1 Il valor medio x̄ di x1 , ..., x5 che lascia inalterato il totale delle commissioni pagate dal negoziante deve soddisfare la relazione 5 5 3 X 3 X · · xi = x̄ 100 i=1 100 i=1 1 PRINCIPIO DI INVARIANZA DI CHISINI cioè 8 5 X i=1 xi = 5 · x̄. Dalla precedente relazione si ricava l’espressione x̄ = 5 1 X · xi . 5 i=1 Il valor medio x̄ di x1 , ..., x5 che lascia inalterato il totale delle commissioni pagate dal negoziante è quindi la media aritmetica dei valori x1 , ..., x5 . Nel nostro caso si ha quindi: x̄ = 52.7 + 48.3 + 105.8 + 152.72 + 45 = 80.904. 5 5. Un risparmiatore investe un capitale di C euro ogni giorno per 50 giorni nell’acquisto di azioni dello stesso tipo le cui quotazioni sono riportate in tabella: qi gi 2 15 3 5 5 10 6 20 dove qi indica la quotazione (prezzo in euro dell’azione) e gi il numero di giorni in cui è stata rilevata la quotazione qi . Calcolare la quotazione media che lascia inalterato il totale delle azioni acquistate durante i 50 giorni. Svolgimento Il numero di azioni acquistate dal risparmiatore in un giorno in cui è valida la quotazione qi è C . qi Pertanto il numero di azioni acquistate in totale nei 50 giorni è 4 X C i=1 qi · gi . Dobbiamo quindi trovare la quotazione media q̄ che lascia inalterato il totale delle azioni acquistate: 4 4 X X C C · gi · gi = q q̄ i=1 i i=1 cioè 4 C X · gi = · gi qi q̄ i=1 4 X C i=1 1 PRINCIPIO DI INVARIANZA DI CHISINI da cui si ottiene 9 4 X C 1 · gi = · 50 C· q q̄ i=1 i q̄ = 50 4 X i=1 1 · gi qi ovvero q̄ è la media armonica ponderata delle quotazioni dell’azione con pesi pari ai giorni. Perciò: 50 1 1 1 1 · 15 + · 5 + · 10 + · 20 2 3 5 6 = 3.448. q̄ = STATISTICA esercizi svolti sulla VARIABILITA’ 1 1 VARIABILITA’ 1 2 VARIABILITA’ 1.1 Esercizi 1. La seguente tabella riporta il tempo (in giorni) impiegato da sei individui per il consumo di una confezione di pasta da 250 grammi: 1 3 5 6 15 30 . Si calcolino: lo scostamento medio dalla mediana, lo scostamento medio dalla media aritmetica e lo scarto quadratico medio, commentando i risultati ottenuti. Svolgimento Per prima cosa, notiamo che i valori forniti dal testo sono già ordinati: per maggiore chiarezza, comunque li riportiamo di seguito: x(1) = 1 x(2) = 3 x(3) = 5 x(4) = 6 x(5) = 15 x(6) = 30. Dato che il loro numero è pari (N = 6), si hanno due posizioni centrali: N =3 2 , N + 1 = 4. 2 La mediana è pertanto: x(3) + x(4) 5+6 = = 5.5. 2 2 Il valore assunto dalla mediana dice che nel 50% dei casi circa, la durata di un pacchetto di pasta è minore di 5.5 giorni. Analogamente, nel 50% dei casi circa, la durata di un pacchetto di pasta è superiore a 5.5 giorni. La media aritmetica è data da 6 1X 1 + 3 + 5 + 6 + 15 + 30 M1 = = 10. xi = 6 i=1 6 Per calcolare lo scostamento medio dalla mediana e dalla media aritmetica e lo scarto quadratico medio, è necessario completare la seguente tabella: xi 1 3 5 6 15 30 Totale |xi − M e| 4.5 2.5 0.5 0.5 9.5 24.5 42 |xi − M1 | (xi − M1 )2 9 81 7 49 5 25 4 16 5 25 20 400 50 596 1 VARIABILITA’ 3 Si ha quindi che lo scostamento medio dalla mediana è 6 SM e 42 1X |xi − M e| = =7 = 6 i=1 6 e indica che mediamente le durate del pacchetto di pasta differiscono (si discostano) dalla durata mediana di 7 giorni. Lo scostamento medio dalla media aritmetica è: 6 SM 1 1X 50 = = 8.3̄ |xi − M1 | = 6 i=1 6 e indica che mediamente le durate del pacchetto di pasta differiscono (si discostano) dalla durata media di 8.3̄ giorni. Lo scarto quadratico medio è: v r u 6 u1 X 596 σ=t = 9.967 (xi − M1 )2 = 6 i=1 6 e indica che mediamente le durate del pacchetto di pasta differiscono dalla durata media di 9.967 giorni. 2. La seguente tabella fornisce il reddito annuo di sette individui: individui A B C D E reddito (in migliaia di euro) 15 20 12 10 18 F 30 G . 35 Calcolare lo scostamento medio dalla mediana, lo scostamento medio dalla media aritmetica, lo scarto quadratico medio, la devianza e la varianza. Svolgimento Per prima cosa, ordiniamo in ordine crescente i valori forniti dal testo: x(1) = 10 x(2) = 12 x(3) = 15 x(4) = 18 x(5) = 20 x(6) = 30 x(7) = 35. Dato che il loro numero è dispari (N = 7), la posizione mediana è data da: N +1 8 = = 4. 2 2 La mediana è pertanto: x(4) = 18. Il valore assunto dalla mediana dice che circa il 50% dei redditi (dei 7 individui presi in esame) è minore di 18 (migliaia di euro). Analogamente, circa il 50% dei redditi 1 VARIABILITA’ 4 (dei 7 individui presi in esame) è maggiore di 18 (migliaia di euro). La media aritmetica è data da 7 1X 15 + 20 + 12 + 10 + 18 + 30 + 35 = 20. M1 = xi = 7 i=1 7 Per calcolare lo scostamento dalla mediana e dalla media aritmetica e lo scarto quadratico medio, è necessario completare la seguente tabella: |xi − M e| 3 2 6 8 0 12 17 48 xi 15 20 12 10 18 30 35 TOTALE |xi − M1 | (xi − M1 )2 5 25 0 0 2 4 10 100 8 64 10 100 15 225 50 518 Si ha quindi che lo scostamento medio dalla mediana è 7 SM e 1X 48 = |xi − M e| = = 6.857 7 i=1 7 e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono (si discostano) dal reddito mediano di 6.857 migliaia di euro. Lo scostamento medio dalla media aritmetica è: 7 SM 1 = 50 1X = 7.143 |xi − M1 | = 7 i=1 7 e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono (si discostano) dal reddito medio di 7.143 migliaia di euro. Lo scarto quadratico medio è: v r u 7 u1 X 518 σ=t = 8.6023 (xi − M1 )2 = 7 i=1 7 e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono dal reddito medio di 8.6023 migliaia di euro. 1 VARIABILITA’ 5 Avendo calcolato lo scarto quadratico medio, è possibile calcolare la varianza elevandolo al quadrato: 7 518 1X 2 (xi − M1 )2 = = 74. σ = 7 i=1 7 Dalla tabella precedente, si ricava immediatamente anche la devianza: Dev = 7 X i=1 (xi − M1 )2 = 518. 3. La seguente tabella fornisce la distribuzione delle 100 famiglie di un quartiere secondo il carattere X = “numero di figli”: numero di figli frequenze assolute 0 30 1 15 2 20 3 12 4 10 5 9 6 . 4 Determinare: a) il campo di variazione; b) la differenza interquartile; c) la varianza con il metodo indiretto; d) lo scostamento medio dalla media aritmetica; e) lo scostamento medio dalla mediana. Svolgimento Come prima cosa, conviene riscrivere la tabella fornita dal testo nel seguente modo, calcolando anche le frequenze cumulate: N umero di f igli (xj ) nj 0 30 1 15 2 20 3 12 4 10 5 9 6 4 Totale 100 Cj 30 45 65 77 87 96 100 É possibile ora calcolare: a) Il campo di variazione x(N ) − x(1) = x(100) − x(1) = 6 − 0 = 6. Tale valore indica che la lunghezza dell’intervallo in cui sono compresi i valori del carattere X (numero di figli) è pari a 6. 1 VARIABILITA’ 6 b) La differenza interquartile Q3 − Q1 = x(3· N +1 ) − x( N +1 ) = x(75.75) − x(25.25) = 3 − 0 = 3. 4 4 Tale valore indica che il 50% delle famiglie analizzate hanno un numero di figli compreso in un intervallo di ampiezza 3. c) La varianza (con il metodo indiretto) 7 1 X 2 σ = x nj − M12 = M22 − M12 . N j=1 j 2 La seguente tabella xj 0 1 2 3 4 5 6 TOT nj 30 15 20 12 10 9 4 100 x j nj 0 15 40 36 40 45 24 200 x2j 0 1 4 9 16 25 36 x2j nj 0 15 80 108 160 225 144 732 permette di calcolare: 7 1 X 200 M1 = =2 x j nj = 100 j=1 100 e 7 M22 732 1 X 2 x j nj = = 7.32. = 100 j=1 100 Quindi σ 2 = 7.32 − (2)2 = 3.32 d) Lo scostamento medio dalla media aritmetica. La seguente tabella xj 0 1 2 3 4 5 6 TOT nj 30 15 20 12 10 9 4 100 |xj − M1 | |xj − M1 | · nj 2 60 1 15 0 0 1 12 2 20 3 27 4 16 150 1 VARIABILITA’ 7 permette di calcolare lo scostamento medio da M1 : SM 1 = 7 150 1 X · = 1.5. |xj − M1 | · nj = 100 j=1 100 Tale valore indica che mediamente il numero di figli (delle 100 famiglie prese in esame) differisce (si discosta) dal loro valore medio di 1.5 figli. e) Lo scostamento medio dalla mediana. Per prima cosa, si calcola la mediana: ricordando che N = 100 e utilizzando le frequenze cumulate precedentemente calcolate, si ha M e = x( N +1 ) = x(50.5) = 2. 2 In questo caso, quindi M e = M1 = 2: si avrà di conseguenza che SM e = SM1 = 1.5. É possibile quindi affermare che mediamente il numero di figli (delle 100 famiglie prese in esame) differisce (si discosta) dal loro valore mediano di 1.5 figli. 4. La seguente tabella riporta la distribuzione del carattere X= “numero di stanze” di 120 abitazioni della provincia di Belluno: N umero di stanze (xj ) 1 nj 5 2 22 3 32 4 35 5 16 6 7 7 8 . 2 1 Calcolare il campo di variazione, la differenza interquartile, lo scarto quadratico medio e lo scostamento medio dalla media aritmetica. Svolgimento Come prima cosa, conviene riscrivere la tabella fornita dal testo nel seguente modo, calcolando anche le frequenze cumulate: xj 1 2 3 4 5 6 7 8 TOTALE nj 5 22 32 35 16 7 2 1 120 Cj 5 27 59 94 110 117 119 120 1 VARIABILITA’ 8 É possibile ora calcolare: a) Il campo di variazione x(N ) − x(1) = x(120) − x(1) = 8 − 1 = 7. Tale valore indica che la lunghezza dell’intervallo in cui sono compresi i valori del carattere X (numero di stanze) è pari a 7. b) La differenza interquartile Q3 − Q1 = x(3· N +1 ) − x( N +1 ) = x(90.75) − x(30.25) = 4 − 3 = 1. 4 4 Tale valore indica che il 50% delle abitazioni prese in esame hanno un numero di stanze compreso in un intervallo di ampiezza pari a 1. c) Lo scarto quadratico medio e lo scostamento medio dalla media aritmetica. Per prima cosa, è necessario calcolare la media aritmetica. Si completa pertanto la seguente tabella. xj 1 2 3 4 5 6 7 8 TOT nj 5 22 32 35 16 7 2 1 120 x j nj 5 44 96 140 80 42 14 8 429 la quale, permette di calcolare: 8 M1 = 1 X 429 = 3.575 x j nj = 120 j=1 120 Completando la seguente tabella xj 1 2 3 4 5 6 7 8 TOT nj 5 22 32 35 16 7 2 1 120 |xj − M1 | 2.575 1.575 0.575 0.425 1.425 2.425 3.425 4.425 (xj − M1 )2 6.63 2.48 0.33 0.18 2.03 5.88 11.73 19.58 |xj − M1 | · nj 12.875 34.65 18.4 14.875 22.8 16.975 6.85 4.425 131.85 (xj − M1 )2 · nj 33.15 54.56 10.56 6.3 32.48 41.16 23.46 19.58 221.25 1 VARIABILITA’ 9 è possibile calcolare lo scostamento medio da M1 : SM 1 8 131.85 1 X · = 1.09875 |xj − M1 | · nj = = 120 j=1 120 (mediamente il numero di stanze delle 120 abitazioni prese in esame differisce dal valore medio di 1.09875 stanze) e lo scarto quadratico medio: v r u 8 u 1 X 221.25 σ=t · = 1.358 (xj − M1 )2 · nj = 120 j=1 120 (mediamente il numero di stanze delle 120 abitazioni prese in esame differisce dal valore medio di 1.358 stanze). 5. La distribuzione del reddito annuo in euro dei 1000 abitanti di un comune è la seguente: classi di reddito redditieri 1000 |– 5000 100 5000 |– 15000 400 . 15000 |– 35000 300 35000 |– 75000 200 Si determini la varianza del reddito dei 1000 abitanti. Si verifichi numericamente la relazione tra lo scarto quadratico medio e lo scostamento medio dalla media aritmetica. Svolgimento Per prima cosa, è necessario calcolare la media aritmetica, completando la seguente lj− + lj+ tabella, dove xj = indica il valore centrale della j-esima classe: 2 classi di reddito 1000|–5000 5000|–15000 15000|– 35000 35000 |– 75000 TOTALE xj 3000 10000 25000 55000 nj 100 400 300 200 1000 x j · nj 300000 4000000 7500000 11000000 22800000 Si ha quindi che: 4 1 X 22800000 M1 = x j · nj = = 22800. N j=1 1000 Per calcolare la varianza, e lo scostamento medio da M1 è necessario completare la seguente tabella: 1 VARIABILITA’ 10 classi di reddito 1000|–5000 5000|–15000 15000|– 35000 35000 |– 75000 TOTALE xj 3000 10000 25000 55000 nj 100 400 300 200 1000 |xj − M1 | 19800 12800 2200 32200 |xj − M1 | · nj 1980000 5120000 660000 6440000 14200000 (xj − M1 )2 392040000 163840000 4840000 1036840000 (xj − M1 )2 · nj 39204000000 65536000000 1452000000 207368000000 313560000000 Quindi lo scostamento medio dalla media aritmetica è pari a SM 1 = 4 X 1 14200000 · = 14200 |xj − M1 | · nj = 1000 j=1 1000 e tale valore indica che mediamente i redditi dei 1000 abitanti si discostano dal loro valore medio di 14200 euro. La varianza è pari a 4 1 X 313560000000 σ = (xj − M1 )2 · nj = = 313560000 1000 j=1 1000 2 e lo scarto quadratico medio è v r u 4 u 1 X 313560000000 (xj − M1 )2 · nj = = 17707.625 σ=t 1000 j=1 1000 e tale valore indica che mediamente i redditi dei 1000 abitanti si discostano dal loro valore medio di 17707.625 euro. É facile notare che i valori ottenuti verificano la relazione 14200 < 17707.625 e pertanto è soddisfatta la seguente relazione tra scarto quadratico medio e scostamento medio da M1 : SM1 ≤ σ. 6. La distribuzione delle fatture di una grande azienda, emesse in un mese, secondo l’importo in migliaia di euro è riportata nella seguente tabella: classi d’importo n. fatture importo totale di classe 0–|50 8 304 50–|100 70 5600 100–|150 71 8946 . 150–|200 62 10540 200–|250 27 6210 250–|300 7 1960 300–|350 3 960 tot 248 1 VARIABILITA’ 11 Calcolare lo scostamento medio dalla mediana; lo scostamento medio dalla media aritmetica; la varianza e lo scarto quadratico medio. Verificare numericamente la relazione esistente tra SMe , SM1 e σ. Svolgimento Per prima cosa, è necessario calcolare la mediana e la media aritmetica della distribuzione. Completiamo perciò la seguente tabella. Classi d’importo 0–|50 50–|100 100–|150 150–|200 200–|250 250–|300 300–|350 TOTALE nj 8 70 71 62 27 7 3 248 T ot. di classe (Tj ) 304 5600 8946 10540 6210 1960 960 34520 Cj 8 78 149 211 238 245 248 La posizione mediana è data da pos(M e) = N +1 248 + 1 = = 124.5. 2 2 Scorrendo la colonna delle frequenze cumulate, riconosciamo che la classe (100; 150] è la classe mediana. Il valore della mediana è pertanto: M e = x(124.5) = 100 + [124.5 − 78 − 0.5] · (150 − 100) = 132.39. 71 Utilizzando l’informazione relativa ai totali di classe, il calcolo della media aritmetica si può effettuare nel seguente modo: M1 = 304 + 5600 + 8946 + 10540 + 6210 + 1960 + 960 34520 = = 139.19. 248 248 Utilizzando l’informazione sui totali di classe, calcoliamo per ciascuna classe un valore rappresentativo x′j , dividendo ciascun totale di classe per la frequenza della classe. Completiamo la seguente tabella. Classi d’importo 0–|50 50–|100 100–|150 150–|200 200–|250 250–|300 300–|350 TOTALE nj 8 70 71 62 27 7 3 248 Tot. di classe 304 5600 8946 10540 6210 1960 960 x′j 38 80 126 170 230 280 320 |x′j − M e| |x′j − M e| · nj 94.4 755.2 52.39 3667.3 6.39 453.69 37.61 2331.82 97.61 2635.47 147.61 1033.27 187.61 562.83 11439.58 1 VARIABILITA’ 12 Lo scostamento medio dalla mediana è quindi SM e = 7 11439.58 1 X ′ · = 46.127 |xj − M e| · nj = 248 j=1 248 e tale valore indica che mediamente gli importi delle fatture si discostano dal loro valore mediano di 46.127 (migliaia di euro). Completando la seguente tabella Classi 0–|50 50–|100 100–|150 150–|200 200–|250 250–|300 300–|350 TOTALE nj 8 70 71 62 27 7 3 248 x′j 38 80 126 170 230 280 320 |x′j − M1 | 101.19 59.19 13.19 30.81 90.81 140.81 180.81 |x′j − M1 | · nj 809.52 4143.3 936.49 1910.22 2451.87 985.67 542.43 11779.50 (x′j − M1 )2 10239.4161 3503.4561 173.9761 949.2561 8246.4561 19827.4561 32692.2561 (x′j − M1 )2 · nj 81915.33 245241.93 12352.30 58853.88 222654.31 138792.19 98076.77 857886.71 calcoliamo agevolmente lo scostamento medio dalla media aritmetica: SM 1 = 7 11779.50 1 X ′ · = 47.498 |xj − M1 | · nj = 248 j=1 248 e tale valore indica che mediamente gli importi delle fatture si discostano dal loro valore medio di 47.498 (migliaia di euro). La varianza è data da: 7 857886.71 1 X ′ = 3459.22, (xj − M1 )2 · nj = σ = 248 j=1 248 2 lo scarto quadratico medio v r u 7 u 1 X 857886.71 σ=t = 58.815 (x′j − M1 )2 · nj = 248 j=1 248 e possiamo interpretare tale valore dicendo che mediamente gli importi delle fatture differiscono dal loro valore medio di 58.815 (migliaia di euro). É possibile verificare infine che vale la relazione infatti SM e ≤ SM 1 ≤ σ 46.127 < 47.498 < 58.815. 1 VARIABILITA’ 13 7. Sia X un carattere quantitativo con media aritmetica M1 (X) = 5 e scarto quadratico medio σ(X) = 1.5. Sia Y un altro carattere quantitativo tale che Y = 0.5 − 2X. Determinare la media aritmetica e la varianza di Y . Svolgimento Dalla proprietà di linearità della media aritmetica, segue immediatamente che M1 (Y ) = 0.5 − 2 · M1 (X) = 0.5 − 2 · 5 = −9.5. A questo punto, calcoliamo la varianza di X σ 2 (X) = (1.5)2 = 2.25 e ricordiamo la proprietà della varianza che afferma che se tra i caratteri X e Y sussiste una relazione del tipo Y =a+b·X allora tra le varianze di X e Y , vale la relazione: σ 2 (Y ) = b2 · σ 2 (X). Applicando tale proprietà, utilizzando i valori a = 0.5 e b = −2 si ricava la varianza di Y : σ 2 (Y ) = 22 · σ 2 (X) = 4 · 2.25 = 9. 8. In un reparto produttivo, vengono impiegate tre macchine alle quali lavorano, rispettivamente, 4, 5 e 3 operai. La seguente tabella riporta i dati relativi alla produzione oraria (per operaio e per macchina): produzione oraria macchina 1 produzione oraria macchina 2 produzione oraria macchina 3 48 56 52 49 56 51 48 57 51 47 57 55 Determinare la varianza della produzione oraria dell’intero sistema col metodo indiretto; determinare inoltre la varianza fra e nei gruppi e verificare la proprietà di scomposizione della varianza totale. Svolgimento Come prima cosa, dividiamo i 12 operai in K = 3 gruppi, a seconda della macchina a cui lavorano: si avrà quindi il primo gruppo (di numerosità N1 pari a 4) composto dagli operai che lavorano alla prima macchina, il secondo gruppo (di numerosità N2 pari a 5) formato dagli operai che lavorano alla seconda macchina e infine il terzo gruppo (di numerosità N3 pari a 3) a cui appartengono gli operai che lavorano alla terza macchina. A ciascun operaio è associato un numero che rappresenta la sua produzione oraria. 1 VARIABILITA’ 14 É possibile a questo punto calcolare, per ciascun gruppo, la produzione oraria media (ovvero le medie parziali): X̄1 = M1 (1a macchina) = 192 48 + 49 + 48 + 47 = = 48 4 4 59 + 59 + 57 + 57 + 55 281 = = 56.2 5 5 154 52 + 51 + 51 = = 51.3̄. X̄3 = M1 (3a macchina) = 3 3 X̄2 = M1 (2a macchina) = La proprietà associativa della media aritmetica permette di calcolare la media aritmetica totale (ovvero la produzione media oraria complessiva): X̄ = 48 · 4 + 56.2 · 5 + 51.3̄ · 3 X̄1 · N1 + X̄2 · N2 + X̄3 · N3 = 52.25. = N1 + N2 + N3 12 Per determinare la varianza della produzione oraria complessiva con il metodo indiretto è necessario applicare la formula: 2 σtot N 1 X 2 = x − M12 = M22 − M12 . N i=1 i Si completa la seguente tabella: Numero macchina 1 2 3 TOT xi x2i 48 49 48 47 56 56 57 57 55 52 51 51 628 2304 2401 2304 2209 3136 3136 3249 3249 3025 2704 2601 2601 32919 Quindi: 12 M22 1 X 2 32919 = 2743.25. x = = 12 i=1 i 12 1 VARIABILITA’ 15 A questo punto si ricava immediatamente la varianza totale: 2 σtot = 2743.25 − (52.25)2 = 13.1875. Calcoliamo ora la varianza fra le produzioni medie delle singole macchine (ovvero la varianza fra i gruppi). Si ha quindi: σF2 = K 1 X [X̄j − X̄]2 · Nj N j=1 3 2 1 X X̄j − X̄ · Nj = 12 j=1 (48 − 52.25)2 · 4 + (56.2 − 52.25)2 · 5 + (51.3̄ − 52.25)2 · 3 12 152.7833 = = 12.732. 12 = Per determinare la varianza nei gruppi, è necessario innanzitutto calcolare le varianze parziali. Si ha quindi (utilizzando il metodo indiretto per il calcolo della varianza), che la varianza del primo gruppo è: σ12 482 + 492 + 482 + 472 − (48)2 = 0.5 = 4 quella del secondo gruppo: σ22 = 562 + 562 + 572 + 572 + 552 − (56.2)2 = 0.56 5 e infine per il terzo gruppo: σ32 = 522 + 512 + 512 − (51.3̄)2 = 0.2̄. 3 Il calcolo della media aritmetica ponderata delle varianze parziali (varianza nei gruppi), è pertanto: 2 σN = K 3 1 X 2 1 X 2 0.5 · 4 + 0.56 · 5 + 0.2̄ · 3 = 0.4556. σj · Nj = σj · Nj = N j=1 N j=1 12 A questo punto è possibile verificare la scomposizione della varianza totale: 1 VARIABILITA’ 16 2 σN + σF2 = 2 σtot 0.4556 + 12.732 = 13.1876 (∼ = 13.1875) Calcolando i rapporti di composizione: • 2 0.4556 σN = 0.0345 (= 3.45%) = 2 σtot 13.1876 • σF2 12.732 = 0.9655 (= 96.55%) = 2 σtot 13.1876 è possibile notare che la varianza nei gruppi è il 3.45% della varianza totale e che la varianza fra i gruppi è il 96.55% della varianza totale. Da tali considerazioni possiamo concludere che la produzione risulta molto omogenea per ogni macchina (cioè operai che lavorano alla stessa macchina hanno più o meno la stessa produttività) ed eterogenea fra le varie macchine (cioè operai lavoranti a macchine diverse hanno produttività differenti). Le differenze di produttività tra gli operai sono dunque principalmente imputabili al fatto che utilizzano diversi macchinari. 9. La seguente tabella riporta la distribuzione del numero di alberghi delle due località turistiche A e B di un comprensorio, secondo le classi di fatturato annuale (in milioni di Euro): classi di fatturato fino a 1 Numero di Alberghi in A 15 Numero di Alberghi in B 25 1 |– 3 24 51 3 |– 5 85 67 5 |– 10 48 59 10 |– 20 40 31 20 |– 40 29 31 Tot 241 264 Si verifichi la scomposizione della varianza del fatturato annuo degli alberghi del comprensorio, commentando il risultato ottenuto. Svolgimento Per prima cosa, dividiamo in K = 2 gruppi gli alberghi del comprensorio: ovviamente avremo un primo gruppo (di numerosità N1 pari a 241) formato dagli alberghi della località A e un secondo gruppo (di numerosità N2 pari a 264) composto dagli alberghi della località B. Completiamo quindi la seguente tabella per agevolare i calcoli successivi (con nA j e con nB si sono indicate rispettivamente le frequenze degli alberghi della località j A e quelle degli alberghi della località B corrispondenti alla j-esima classe, mentre lj− + lj+ xj = (j = 1, ..., 6) indica il valore centrale di ogni classe). 2 1 VARIABILITA’ 17 Classi di fatturato 0 |– 1 1 |– 3 3 |– 5 5 |– 10 10 |– 20 20 |– 40 Totale xj x2j nA j nB j B nA j + nj 0.5 2 4 7.5 15 30 0.25 4 16 56.25 225 900 15 24 85 48 40 29 241 25 51 67 59 31 31 264 40 75 152 107 71 60 505 A questo punto è possibile calcolare la media aritmetica del fatturato per gli alberghi della località A: 6 1 X 0.5 · 15 + 2 · 24 + 4 · 85 + 7.5 · 48 + 15 · 40 + 30 · 29 X̄1 = x j · nA = 9.234 j = N1 j=1 241 e per gli alberghi della località B: 6 1 X 0.5 · 25 + 2 · 51 + 4 · 67 + 7.5 · 59 + 15 · 31 + 30 · 31 X̄2 = x j · nB = 8.409. j = N2 j=1 264 La media aritmetica del fatturato degli alberghi di tutto il comprensorio è quindi, utilizzando la proprietà associativa della media aritmetica: 9.234 · 241 + 8.409 · 264 = 8.803. X̄ = 241 + 264 É possibile ora calcolare la varianza del fatturato degli alberghi di tutto il comprenB sorio, utilizzando le frequenze totali nA j + nj (ed il procedimento indiretto): 2 σtot 6 1 X 2 B 2 = x · [nA j + nj ] − X̄ N j=1 j 0.25 · 40 + 4 · 75 + 16 · 152 + 56.25 · 107 + 225 · 71 + 900 · 60 − (8.803)2 505 = 78.422. = Calcoliamo ora: • la varianza nei gruppi Si deve innanzitutto calcolare la varianza parziale di ciascun gruppo: σ12 6 1 X 2 A = x · n − X̄12 N1 j=1 j j 0.25 · 15 + 4 · 24 + 16 · 85 + 56.25 · 48 + 225 · 40 + 900 · 29 − (9.234)2 241 39259.75 = − 85.267 = 77.64. 241 = 1 VARIABILITA’ σ22 18 6 1 X 2 B x · n − X̄22 = N2 j=1 j j 0.25 · 25 + 4 · 51 + 16 · 67 + 56.25 · 59 + 225 · 31 + 900 · 31 − (8.409)2 264 39475 − 70.711 = 78.81 = 264 = 2 e quindi la varianza nei gruppi (σN ): 2 σN = σ12 · N1 + σ22 · N2 77.64 · 241 + 78.81 · 264 = 78.252; = N1 + N2 505 • la varianza fra gruppi Il calcolo della varianza fra i gruppi è invece: [(X̄1 − X̄)2 · N1 + (X̄2 − X̄)2 · N2 ] N1 + N2 [(9.234 − 8.803)2 · 241 + (8.409 − 8.803)2 · 264] = 505 85.750 = 0.1698. = 505 σF2 = In base ai risultati ottenuti, si verifica la scomposizione: 2 σN + σF2 = 2 σtot 78.252 + 0.1698 = 78.4218 (∼ = 78.422). Calcolando i rapporti di composizione: 2 σN 78.252 = 0.9978 (= 99.78%) = 2 σtot 78.422 0.1698 σ2 = 0.0022 (= 0.22%) • 2F = σtot 78.422 • è possibile notare che la varianza nei gruppi è il 99.78% della varianza totale e che la varianza fra i gruppi è solo lo 0.22% della varianza totale. Da tali considerazioni possiamo concludere che la distribuzione dei fatturati degli alberghi delle località A e B è omogenea (varianza fra i gruppi molto piccola) e che in entrambe le località esistono alberghi con fatturati molto diversi (varianza nei gruppi molto grande). Le differenze tra i fatturati degli alberghi non sono dunque imputabili alla diversa collocazione geografica (località A o B). 1 VARIABILITA’ 19 10. Nel 1981 gli ospedali in Italia erano 1826 ripartiti per tipo come segue: ospedali generali 1345, ospedali specialistici 295, ospedali psichiatrici 186. Per ogni ospedale è stato rilevato il numero di posti letto ottenendo le informazioni seguenti: n. medio di posti letto scarto quadratico medio dei posti letto osp. generali 318,51 445,96 osp. specialist. 215,58 259,54 osp. psichiatr. 407,22 . 477,84 Si determini il numero medio di posti letto per il complesso di ospedali e la varianza della stessa variabile, commentando il risultato. Svolgimento In questo caso, riconosciamo K = 3 gruppi di numerosità N1 = 1345, N2 = 295 e N3 = 186, formati rispettivamente dagli ospedali generali, dagli ospedali specialistici e dagli ospedali psichiatrici. Avendo le medie della variabile “numeri di posti letto” per ciascun gruppo, è possibile calcolare la media aritmetica totale, utilizzando la proprietà associativa della media aritmetica: X̄ = 3 1 X 318.51 · 1345 + 215.58 · 295 + 407.22 · 186 567734.97 X̄j ·Nj = = = 310.917. N j=1 1345 + 295 + 186 1826 Per calcolare la varianza totale, è necessario utilizzare la sua scomposizione in varianza nei gruppi più varianza fra i gruppi. La varianza nei gruppi è perciò (indicando con σj2 la varianza del j-esimo gruppo): 2 σN 3 1 X 2 σ · Nj = N j=1 j (445.96)2 · 1345 + (259.54)2 · 295 + (477.84)2 · 186 1826 329835109.2 = = 180632.59. 1826 = La varianza fra i gruppi è: σF2 = 3 1 X [X̄j − X̄]2 · Ni N j=1 [318.51 − 310.917]2 · 1345 + [215.58 − 310.917]2 · 295 + [407.22 − 310.917]2 · 186 1826 4483855.323 = = 2455.56. 1826 = La varianza totale è quindi pari a: 1 VARIABILITA’ 20 2 σtot = 2 σN 183088.15 = 180632.59 σF2 + + 2455.56. Calcolando i rapporti di composizione: 2 180632.59 σN = 0.9866 (= 98.66%) • 2 = σtot 183088.15 σ2 2455.56 • 2F = = 0.0134 (= 1.34%) σtot 183088.15 è possibile notare che la varianza nei gruppi è il 98.66% della varianza totale e che la varianza fra i gruppi è l’1.34% della varianza totale. Da tali considerazioni possiamo concludere che ogni gruppo è molto eterogeneo al suo interno (varianza nei gruppi alta): nell’ambito di ciascuna tipologia di ospedale (generale, specialistico, psichiatrico) il numero di posti letto è molto variabile da ospedale a ospedale, mentre vi è una forte omogeneità tra le varie tipologie di ospedale (bassa varianza fra i gruppi). Le differenze tra il numero di posti letto degli ospedali non sono dunque imputabili alla diversa tipologia degli ospedali. 11. Il reddito annuo (in migliaia di euro) di sette individui è rispettivamente pari a 15, 20, 12, 10, 18, 30, 35. Determinare e interpretare la differenza media e con ripetizione del reddito. Svolgimento Per agevolare i conti, completiamo la seguente tabella scrivendo nella cella (i, j), la quantità |xi − xj |: xj xi 15 20 12 10 18 30 35 15 20 12 10 18 30 35 0 5 3 5 3 15 20 5 0 8 10 2 10 15 3 8 0 2 6 18 23 5 10 2 0 8 20 25 3 2 6 8 0 12 17 15 10 18 20 12 0 5 20 15 23 25 17 5 0 464 Si ottiene in questo modo che: N X N X S 1 1 ∆= = · · 464 = 11.048 |xi − xj | = N (N − 1) N (N − 1) i=1 j=1 7·6 1 VARIABILITA’ 21 e tale valore indica che mediamente i redditi dei sette individui differiscono tra loro per 11.048 migliaia di euro. Inoltre N N S 1 XX 1 ∆R = 2 = 2 · |xi − xj | = 2 · 464 = 9.469. N N i=1 j=1 7 e tale valore indica che mediamente i redditi dei sette individui differiscono tra loro (e con loro stessi) per 9.469 migliaia di euro. Un ulteriore modo per calcolare il numeratore S delle differenze medie è dato da: S =2· N X i X i=1 j=1 |x(i) − x(j) |. Illustriamo il calcolo del numeratore S attraverso quest’ultima formula. Per prima cosa, è necessario ordinare i valori xj : x(1) = 10 x(2) = 12 x(3) = 15 x(4) = 18 x(5) = 20 x(6) = 30 x(7) = 35 e completare la parte sotto la diagonale principale della seguente tabella, scrivendo nella cella (i, j) la quantità |x(i) − x(j) |. x(j) x(i) 10 12 15 18 20 30 35 10 12 15 18 20 30 35 0 2 5 8 10 20 25 0 3 6 8 18 23 0 3 5 15 20 0 2 12 17 0 10 15 0 5 0 Somme parziali per riga 0 2 8 17 25 75 105 232 Si ha pertanto che S =2· N X i X i=1 j=1 |x(i) − x(j) | = 2 · 232 = 464 e quindi, come volevasi dimostrare: ∆= 464 S = = 11.048 N (N − 1) 7·6 1 VARIABILITA’ 22 ∆R = 464 S = = 9.469. N2 72 Giusto per completezza, viene riportato un ulteriore metodo di calcolo per il numeratore S. Completando la seguente tabella: j 1 2 3 4 5 6 7 x(j) 10 12 15 18 20 30 35 2j − N − 1 x(j) (2j − N − 1) -6 -60 -4 -48 -2 -30 0 0 2 40 4 120 6 210 232 possiamo calcolare S nel seguente modo: S =2· 7 X j=1 x(j) (2j − N − 1) = 2 · 232 = 464 e quindi ritrovare gli stessi valori calcolati precedentemente per ∆ e ∆R . 12. La distribuzione del prezzo del pane al chilogrammo nei capoluoghi di 27 province nel 1970 e nel 1989 è riportata nella seguente tabella: prezzo lire al kg. 1970 frequenze prezzo lire al kg. 1989 frequenze 700 1 2100 2 800 4 2500 3 900 2 2600 2 950 3 2950 4 1000 7 3000 6 1200 10 3600 10 tot 27 . tot 27 a) Determinare la differenza media semplice e con ripetizione del prezzo del pane nel 1970; b) Si può dire che dal 1970 al 1989 ci sia stato un aumento della variabilità del fenomeno? Svolgimento a) Ricordando che in questo caso N = 27, completiamo la seguente tabella che agevolerà il calcolo delle differenze medie. 1 VARIABILITA’ 23 xj 700 800 900 950 1000 1200 Totale nj 1 4 2 3 7 10 27 Cj 1 5 7 10 17 27 2Cj − N − nj -26 -21 -15 -10 0 17 nj (2Cj − N − nj ) -26 -84 -30 -30 0 170 xj nj (2Cj − N − nj ) -18200 -67200 -27000 -28500 0 204000 63100 Utilizzando la formula per il calcolo del numeratore S, la differenza media semplice è quindi data da: 6 X S 2 2 ∆= = · ·63100 = 179.77. xj nj (2Cj −N −nj ) = N (N − 1) N (N − 1) j=1 27 · 26 Tale valore indica che i prezzi del pane nei 27 capoluoghi nel 1970 differiscono mediamente tra loro di 179.77 lire. La differenza media con ripetizione è data da: ∆R = 6 2 X 2 S = · · 63100 = 173.11. x n (2C − N − n ) = j j j j N2 N 2 j=1 (27)2 Tale valore indica che i prezzi del pane nei 27 capoluoghi nel 1970 differiscono mediamente tra loro (e con loro stessi) di 173.11 lire. b) Osservando i valori del prezzo del pane nei due anni presi in esame, è facile rendersi conto che l’ordine di grandezza è differente, ragion per cui per confrontare le variabilità dei prezzi del pane nei due anni (1970 e 1989) è necessario ricorrere a indici relativi di variabilità. Poichè al punto precedente abbiamo calcolato sulla distribuzione dei prezzi del 1970 gli indici ∆ e ∆R , la scelta più ovvia è quella di confrontare la variabilità dei prezzi del 1970 e del 1989 con gli indici relativi: ∆ ∆R o . M1 M1 Per completezza, tuttavia, calcoliamo anche gli altri indici relativi noti: σ SM 1 SM e , e . M1 M1 M1 Calcoliamo perciò la mediana e la media aritmetica relative all’anno 1970: M e(1970) = x( N +1 ) = x( 27+1 ) = x(14) = 1000 2 2 (1970) M1 = 700 · 1 + 800 · 4 + 900 · 2 + 950 · 3 + 1000 · 7 + 1200 · 10 = 1020.37 27 1 VARIABILITA’ 24 e la mediana e la media aritmetica relative all’anno 1989: M e(1989) = x( N +1 ) = x( 27+1 ) = x(14) = 3000 2 2 2100 · 2 + 2500 · 3 + 2600 · 2 + 2950 · 4 + 3000 · 6 + 3600 · 10 = 3062.96 27 Si completa la seguente tabella, relativa all’anno 1970: (1989) M1 xj 700 800 900 950 1000 1200 Totale = nj 1 4 2 3 7 10 27 |xj − M e| 300 200 100 50 0 200 |xj − M e|nj 300 800 200 150 0 2000 3450 |xj − M1 | 320.37 220.37 120.37 70.37 20.37 179.63 |xj − M1 |nj 320.37 881.48 240.74 211.11 142.59 1796.3 3592.59 (xj − M1 )2 102636.94 48562.93 14488.94 4951.94 414.94 32266.94 (xj − M1 )2 nj 102636.94 194251.72 28977.88 14855.82 2904.58 322669.4 666296.34 grazie alla quale è possibile calcolare (1970) SM e 6 1 X 3450 = 127.7̄ = |xj − M e(1970) | · nj = N j=1 27 6 1 X 3592.59 (1970) = |xj − M1 | · nj = = 133.059 N j=1 27 v r u 6 u1 X 666296.34 (1970) 2 (xj − M1 ) · nj = = 159.07. =t N j=1 27 (1970) SM 1 σ (1970) Completiamo l’analoga tabella relativa all’anno 1989: xj 2100 2500 2600 2950 3000 3600 Totale nj 2 3 2 4 6 10 27 |xj − M e| 900 500 400 50 0 600 |xj − M e|nj 1800 1500 800 200 0 6000 10300 |xj − M1 | 962.96 562.96 462.96 112.96 62.96 537.04 |xj − M1 |nj 1925.92 1688.88 925.92 451.84 377.76 5370.4 10740.72 (xj − M1 )2 927291.96 316923.96 214331.96 12759.96 3963.96 288411.96 grazie alla quale è possibile calcolare (1989) 6 1 X 10300 = 381.48 |xj − M e(1989) | · nj = N j=1 27 SM e = (1989) SM 1 6 1 X 10740.72 (1989) = 397.8 = |xj − M1 | · nj = N j=1 27 (xj − M1 )2 nj 1854583.92 950771.88 428663.92 51039.84 23783.76 2884119.6 6192962.92 1 VARIABILITA’ 25 σ (1989) v r u 6 u1 X 6192962.92 (1989) = 478.92. (xj − M1 )2 · nj = =t N j=1 27 Ricordiamo infine di aver calcolato, per l’anno 1970, ∆(1970) = 179.77 e (1970) ∆R = 173.11. Completiamo l’analoga tabella (relativa all’anno 1989): xj 2100 2500 2600 2950 3000 3600 nj 2 3 2 4 6 10 Cj 2 5 7 11 17 27 2Cj − N − nj -25 -20 -15 -9 1 17 xj nj · (2Cj − N − nj ) -105000 -150000 -78000 -106200 18000 612000 190800 grazie alla quale possiamo calcolare ∆(1989) = 6 X 1 S 2 · 190800 = ·2 = 543.59 xj nj ·(2Cj −N −nj ) = N (N − 1) N (N − 1) j=1 27 · 26 e (1989) ∆R 6 X S 1 2 · 190800 = 2 = 2 ·2 = 523.45. xj nj · (2Cj − N − nj ) = N N 272 j=1 Riassumiamo nella seguente tabella i valori calcolati sia per l’anno 1970 che per l’anno 1989: Me M1 SM e SM 1 σ ∆ ∆R Anno 1970 1000 1020.37 127.7̄ 133.059 157.09 179.77 173.11 Anno 1989 3000 3062.96 381.48 397.805 478.92 543.59 523.45 É possibile a questo punto calcolare i seguenti indici relativi di variabilità: 1 VARIABILITA’ 26 Anno 1970 Anno 1989 SM e : M1 127.7̄ = 0.1252 > 1020.37 381.48 = 0.1245 3062.96 SM 1 : M1 133.059 = 0.1304 > 1020.37 397.805 = 0.1299 3062.96 157.09 = 0.1540 < 1020.37 478.92 = 0.1564 3062.96 ∆ : M1 179.77 = 0.1762 < 1020.37 543.59 = 0.1774 3062.96 ∆R : M1 173.11 = 0.1696 < 1020.37 523.45 = 0.1708 3062.96 CV = σ : M1 Il valore 0.1252 indica che lo scostamento dalla mediana del prezzo del pane nel 1970 è pari al 12.52% della media aritmetica. Il valore 0.1245 indica che lo scostamento dalla mediana del prezzo del pane nel 1989 è pari al 12.45% della media aritmetica. Il valore 0.1304 indica che lo scostamento dalla media aritmetica del prezzo del pane nel 1970 è pari al 13.04% della media aritmetica. Il valore 0.1299 indica che lo scostamento dalla media aritmetica del prezzo del pane nel 1989 è pari al 12.99% della media aritmetica. Il valore 0.1540 indica che lo scarto quadratico medio del prezzo del pane nel 1970 è pari al 15.40% della media aritmetica. Il valore 0.1564 indica che lo scarto quadratico medio del prezzo del pane nel 1989 è pari al 15.64% della media aritmetica. Il valore 0.1762 indica che la differenza media semplice del prezzo del pane nel 1970 è pari al 17.62% della media aritmetica. Il valore 0.1774 indica che la differenza media semplice del prezzo del pane nel 1989 è pari al 17.74% della media aritmetica. Il valore 0.1696 indica che la differenza media con ripetizione del prezzo del pane nel 1970 è pari al 16.96% della media aritmetica. Il valore 0.1708 indica che la differenza media con ripetizione del prezzo del pane nel 1989 è pari al 17.08% della media aritmetica. Attraverso il confronto dei valori assunti dagli indici relativi di variabilità calcolati, si può concludere che la variabilità del prezzo del pane dei 27 capoluoghi 1 VARIABILITA’ 27 presi in esame nel 1989 non è sensibilmente aumentata rispetto al 1970. 13. La classificazione di due gruppi di ditte produttrici di olio d’oliva, che vendono rispettivamente il proprio prodotto a peso (gruppo A) e a volume (gruppo B), ha dato luogo alle seguenti distribuzioni di frequenze: gruppo A prezzo euro al kg n. ditte gruppo B prezzo euro al litro n. ditte 2–|3 40 2–|3 100 3–|3,5 90 3–|3,5 80 3,5–|4 200 3,5–|4 70 4–|4,5 110 4–|4,5 30 4,5–|5 60 . 4,5–|5 20 Quale delle due distribuzioni presenta maggiore variabilità? Si effettui il confronto utilizzando indici basati sullo scostamento medio dalla media aritmetica, sullo scostamento medio dalla mediana, sullo scarto quadratico medio e sulla differenza media semplice. Svolgimento Per prima cosa, completiamo la seguente tabella per agevolare il calcolo della mediaB na e della media aritmetica per ciascuno dei due gruppi (si indicano con nA j e nj le frequenze dei gruppi A e B, inoltre con N A si è indicata la numerosità complessiva del lj− + lj+ B gruppo A e con N quella del gruppo B, infine xj = indica il valore centrale 2 di ogni classe). classi di prezzo 2–|3 3–|3.5 3.5–|4 4–|4.5 4.5–|5 Totale xj 2.5 3.25 3.75 4.25 4.75 nA j 40 90 200 110 60 500 nB j 100 80 70 30 20 300 CjA 40 130 330 440 500 CjB 100 180 250 280 300 x j nA j 100 293 750 468 285 1895 x j nB j 250 260 263 128 95 995 É possibile ora calcolare la mediana per ciascuno dei due gruppi: 0.5 M eA = x N A +1 = x( 500+1 ) = x(250.5) = 3.5 + [250.5 − 130 − 0.5] · = 3.8 2 2 200 0.5 M eB = x N B +1 = x( 300+1 ) = x(150.5) = 3 + [150.5 − 130 − 0.5] · = 3.3125 2 2 80 e le medie aritmetiche: M1A 5 1895 1 X x j nA = 3.79 = A j = N j=1 500 1 VARIABILITA’ 28 M1B 5 1 X 995 = B x j nB = 3.316̄. j = N j=1 300 Completiamo quindi la tabella relativa al gruppo A: xj 2.5 3.25 3.75 4.25 4.75 Totale nA j 40 90 200 110 60 500 |xj − M eA | 1.3 0.55 0.05 0.45 0.95 |xj − M eA |nA j 52 49.5 10 49.5 57 218 |xj − M1A | 1.29 0.54 0.04 0.46 0.96 |xj − M1A |nA j 51.6 48.6 8 50.6 57.6 216.4 x2j 6.25 10.5625 14.0625 18.0625 22.5625 x2j nA j 250 950.625 2812.5 1986.875 1353.75 7353.75 da cui ricaviamo A SM e 5 1 X 218 = A |xj − M eA | · nA = 0.436 j = N j=1 500 A SM = 1 5 216.4 1 X A A |x − M | · n = = 0.4328 j 1 j N A j=1 500 v r u 5 X u √ 1 7353.75 A 2 2 = 0.3434 = 0.586. − [M ] = x2j · nA − (3.79) σA = t A 1 j N j=1 500 Completiamo anche la seguente tabella (sempre relativa al gruppo A): xj 2.5 3.25 3.75 4.25 4.75 nA j 40 90 200 110 60 CjA 40 130 330 440 500 2CjA − N A − nA j -460 -330 -40 270 440 A A A x j nA j · (2Cj − N − nj ) -46000 -96525 -30000 126225 125400 79100 grazie alla quale possiamo calcolare 5 X 1 S 2 · 79100 A A A = A A ·2 = 0.6341. ∆ = A A x j nA j ·(2Cj −N −nj ) = N (N − 1) N (N − 1) j=1 500 · 499 A Calcoliamo ora le stesse grandezze per il gruppo B: 1 VARIABILITA’ xj 2.5 3.25 3.75 4.25 4.75 Totale 29 nB j 100 80 70 30 20 500 |xj − M eB | 0.813 0.063 0.438 0.938 1.438 |xj − M eB |nB j 81.3 5.04 30.66 28.14 28.76 173.9 |xj − M1B | −0.816̄ 0.06̄ 0.43̄ 0.93̄ 1.43̄ |xj − M1B |nB j 81.6̄ 5.3̄ 30.3̄ 28 28.6̄ 174 x2j 6.25 10.5625 14.0625 18.0625 22.5625 x2j nB j 625 845 984.375 541.875 451.25 3447.5 da cui ricaviamo B SM e 5 173.9 1 X |xj − M eB | · nB = 0.579 = B j = N j=1 300 B SM 1 5 174 1 X |xj − M1B | · nB = 0.58 = B j = N j=1 300 v r u 5 X u √ 1 3447.5 B 2 2 = x2j · nB − [M ] = σB = t B − (3.31 6̄) 0.4914 = 0.701. 1 j N j=1 300 Completiamo anche la seguente tabella (sempre relativa al gruppo B): xj 2.5 3.25 3.75 4.25 4.75 nB j 100 80 70 30 20 CjB 100 180 250 280 300 2CjB − N B − nB j -200 -20 130 230 280 B B B x j nB j · (2Cj − N − nj ) -50000 -5200 34125 29325 26600 34850 grazie alla quale possiamo calcolare 5 X S 1 2 · 34850 B B B ∆ = B B = B B ·2 = 0.777. x j nB j ·(2Cj −N −nj ) = N (N − 1) N (N − 1) j=1 300 · 299 B É possibile a questo punto calcolare i seguenti indici relativi di variabilità: 1 VARIABILITA’ 30 Gruppo A SM e : M1 SM 1 : M1 CV = σ : M1 ∆ : M1 Gruppo B < 0.579 = 0.1746 3.316̄ 0.4328 = 0.1142 < 3.79 0.58 = 0.1749 3.316̄ 0.586 = 0.1546 3.79 < 0.701 = 0.2114 3.316̄ 0.6341 = 0.1673 < 3.79 0.777 = 0.2343 3.316̄ 0.436 = 0.115 3.79 Confrontando i valori degli indici relativi di variabilità, si può concludere che presenta maggiore variabilità la distribuzione delle ditte del gruppo B. 14. Nella seguente tabella sono riportate le distribuzioni per destinazione dei viaggi di vacanza (V ) e dei viaggi di lavoro (W ) effettuati dagli italiani nel 1998 (dati in migliaia): Destinazione V W Italia 67682 10944 Paesi UE 7238 1984 . Resto d’Europa 1989 378 Resto del mondo 2236 501 Si valuti, con un opportuno indice basato sulle differenze medie, quale delle due distribuzioni V e W presenta la variabilità più elevata. Si interpretino i valori assunti dall’indice per le due distribuzioni. Svolgimento Riconosciamo innanzitutto che abbiamo a che fare con una distribuzione di unità e che la popolazione statistica è costituita da 4 unità (N = 4). Per calcolare la differenza media per i viaggi di vacanza (V ), completiamo la seguente tabella, in cui le osservazioni sono state ordinate in modo crescente secondo i valori del carattere. Destinazione Resto d’Europa Resto del mondo Paesi EU Italia Totale i 1 2 3 4 v(i) 1989 2236 7238 67682 79145 2i − N − 1 v(i) · (2i − N − 1) -3 -5967 -1 -2236 1 7238 3 203046 202081 1 VARIABILITA’ 31 Possiamo pertanto calcolare la differenza media: 4 X 2 2 · · 202081 = 33680.17, v(i) · (2i − N − 1) = ∆(V ) = N (N − 1) i=1 4·3 la media aritmetica: 4 1X 79145 M1 (V ) = = 19786.25 vi = 4 i=1 4 e quindi l’indice relativo di variabilità: ∆(V ) 33680.17 = = 1.702 M1 (V ) 19786.25 che indica che la differenza media semplice del numero di viaggi di vacanza è il 170.2% della corrispondente media aritmetica. Consideriamo ora il carattere W : Destinazione Resto d’Europa Resto del mondo Paesi EU Italia Totale i 1 2 3 4 w(i) 378 501 1984 10944 13807 2i − N − 1 w(i) · (2i − N − 1) -3 -1134 -1 -501 1 1984 3 32832 33181 Possiamo pertanto calcolare la differenza media: ∆(W ) = 4 X 2 2 · · 33181 = 5530.16̄, w(i) · (2i − N − 1) = N (N − 1) i=1 4·3 la media aritmetica: 4 1X 13807 M1 (W ) = = 3451.75 wi = 4 i=1 4 e quindi l’indice relativo di variabilità: 5530.16 ∆(W ) = = 1.602. M1 (W ) 3451.75 che indica che la differenza media semplice del numero di viaggi di lavoro è il 160.2% della corrispondente media aritmetica. Riconoscendo che ∆(V ) ∆(W ) = 1.702 > 1.602 = M1 (V ) M1 (W ) si può concludere che la distribuzione V presenta maggiore variabilità. 1 VARIABILITA’ 32 15. Una fabbrica produce tubi catodici televisivi di due tipi. Per il tipo A si ha una durata media di 1495 ore e uno scarto quadratico medio di 280 ore. Per il tipo B si ha una durata media di 1875 ore ed uno scarto quadratico medio di 310 ore. Fornire una misura della variabilità relativa e commentare il risultato. Svolgimento Un indice di variabilità relativa per i tubi di tipo A è dato da: 280 σA = = 0.19 A 1495 M1 e tale valore indica che lo scarto quadratico medio della durata dei tubi del tipo A è il 19% della corrispondente durata media. Per quanto riguarda i tubi del tipo B si ha: σB 310 = 0.17. = B 1875 M1 e tale valore indica che lo scarto quadratico medio della durata dei tubi del tipo B è il 17% della corrispondente durata media. Riconoscendo che σB σA = 0.19 > 0.17 = M1A M1B si può concludere che la distribuzione delle durate dei tubi catodici del gruppo A presenta maggiore variabilità rispetto a quella del gruppo B. STATISTICA esercizi svolti sulla CONCENTRAZIONE 1 1 CONCENTRAZIONE 1 2 CONCENTRAZIONE 1.1 Esercizi 1. Il reddito annuo (in migliaia di euro) di 7 fratelli è il seguente: individui A reddito (in migliaia di euro) 15 B 20 C 12 D 10 E 18 F 30 G . 35 Tracciare il diagramma di Lorenz e interpretare il punto della spezzata di coordinate (p3 ; q3 ). Determinare il rapporto di concentrazione R di Gini commentando opportunamente il risultato ottenuto. Svolgimento Per determinare le coordinate della spezzata di Lorenz, è necessario completare la seguente tabella, in cui sono stati ordinati i valori xi in ordine non decrescente ed è stata aggiunta la prima riga corrispondente al punto fittizio (0; 0). Per facilitare il completamento della tabella, conviene anche calcolare: T = 7 X xj = 10 + 12 + 15 + 18 + 20 + 30 + 35 = 140. i=1 i 0 1 2 3 4 5 6 7 xi 0 10 12 15 18 20 30 35 140 Pi 0 1 2 3 4 5 6 7 Qi 0 10 22 37 55 75 105 140 pi = PNi 0 0.143 0.286 0.429 0.571 0.714 0.851 1 qi = QTi 0 0.071 0.157 0.264 0.393 0.536 0.750 1 3.171 In Figura (1) è rappresentato il diagramma di Lorenz per la distribuzione dei redditi dei 7 fratelli. É possibile interpretare il punto di coordinate (p3 ; q3 ) = (0.429; 0.264), affermando che al 42.9% dei fratelli con reddito minore spetta il 26.4% del reddito totale (dei sette fratelli). Per calcolare il rapporto di concentrazione di Gini, si ricorda che N −1 N −1 X X 2 2 R= · · (pi − qi ) = 1 − qi . N − 1 i=1 N − 1 i=1 1 CONCENTRAZIONE 3 q 1 0.5 (p3 ;q 3) 0.5 0 1 p Fig. 1: Diagramma di Lorenz per la distribuzione dei redditi dei 7 fratelli. Dalla precedente tabella si ricava che N X qi = 3.171, pertanto i=1 N −1 X qi = 3.171 − 1 = 2.171, i=1 e quindi R=1− N −1 X 2 2 · · 2.171 = 0.2763̄. qi = 1 − N − 1 i=1 7−1 Tale valore indica che la concentrazione è pari al 27.63̄% del valore massimo teorico. 2. L’ufficio metereologico dell’aeronautica ha fornito i seguenti dati relativi alla piovosità mensile (in mm) in Italia nel periodo che va da dicembre 1991 a novembre 1992: mesi D G F M A M G L A S O N . mm pioggia 81 66 53 120 78 60 45 30 10 45 104 108 Tracciare il diagramma di Lorenz; determinare e commentare il rapporto di concentrazione R di Gini. Svolgimento É necessario completare la seguente tabella, in cui sono stati ordinati (in ordine non 1 CONCENTRAZIONE 4 decrescente) i valori xi ed è stata aggiunta la prima riga per il punto fittizio (0, 0). Per facilitare il completamento della tabella, conviene anche calcolare: T = 12 X xi = 81 + 66 + 53 + 120 + 78 + 60 + 45 + 30 + 10 + 45 + 104 + 108 = 800 i=1 e riconoscere che N = 12. mm pioggia Pi = i 0 10 30 45 45 53 60 66 78 81 104 108 120 800 0 1 2 3 4 5 6 7 8 9 10 11 12 Qi 0 10 40 85 130 183 243 309 387 468 572 680 800 pi = Pi N 0 0.083 0.167 0.250 0.333 0.417 0.500 0.583 0.667 0.750 0.833 0.917 1 6.5 qi = Qi T 0 0.013 0.050 0.106 0.163 0.229 0.304 0.386 0.484 0.585 0.715 0.850 1 4.885 In Figura (2) è rappresentato il diagramma di Lorenz. Per calcolare il rapporto di concentrazione di Gini, si ricorda che N −1 N −1 X X 2 2 R= · · (pi − qi ) = 1 − qi . N − 1 i=1 N − 1 i=1 Dalla precedente tabella si ricava che N X qi = 4.885, pertanto i=1 N −1 X qi = 4.885 − 1 = 3.885, i=1 e quindi R=1− N −1 X 2 2 · · 3.885 = 0.2936. qi = 1 − N − 1 i=1 12 − 1 Tale valore indica che la concentrazione è pari al 29.36% del valore massimo teorico. 1 CONCENTRAZIONE 5 q 1 0.5 0 0.5 1 p Fig. 2: Diagramma di Lorenz per il carattere “mm di pioggia”. 3. I redditi, espressi in migliaia di euro, di 7 individui sono: x(1) = 20, x(2) = 25, x(3) = 41, x(4) = 46, x(5) = 60, x(6) = 85, x(7) = 120. Indicata con X la variabile reddito, si supponga che lo stato introduca un’imposta pari al: • 2% del reddito per coloro che percepiscono un reddito X ≤ 25; • 15% del reddito per coloro che percepiscono un reddito 25 < X ≤ 60; • 28% del reddito per coloro che percepiscono un reddito X > 60. Confrontare tramite l’ausilio di un adeguato indice, la concentrazione dei redditi prima e dopo il prelievo fiscale. Stabilire inoltre (senza effettuare calcoli) come varia la concentrazione, rispetto alla situazione iniziale, nei casi in cui: a) lo stato introduce un’imposta pari al 15% del reddito; b) lo stato impone una tassa fissa di 5 mila euro. Svolgimento Innanzitutto completiamo la seguente tabella per poter calcolare il rapporto di concentrazione di Gini prima della tassazione. Come di consueto i valori xi sono stati 1 CONCENTRAZIONE 6 ordinati, è stato aggiunto il punto fittizio (0,0) ed è stata calcolata la quantità T (prima) = 7 X xi = 20 + 25 + 41 + 46 + 60 + 85 + 120 = 397. i=1 xi Pi = i Qi 0 20 25 41 46 60 85 120 397 0 1 2 3 4 5 6 7 0 20 45 86 132 192 277 397 pi = Pi N 0 0.143 0.286 0.429 0.571 0.714 0.857 1 4 qi = Qi T 0 0.050 0.113 0.217 0.332 0.484 0.698 1 2.894 p i − qi 0 0.093 0.173 0.212 0.239 0.23 0.159 0 1.106 Per calcolare il rapporto di concentrazione di Gini, si utilizza la seguente formula: R (prima) N −1 X 2 = · (pi − qi ). N − 1 i=1 Dalla precedente tabella si ricava che N −1 X N X (pi − qi ) = (pi − qi ) = 1.106, pertanto i=1 R (prima) i=1 N −1 X 2 2 · · 1.106 = 0.369. (pi − qi ) = = N − 1 i=1 7−1 Tale valore indica che prima della tassazione, la concentrazione è pari al 36.9% del valore massimo teorico. A questo punto, è necessario calcolare i redditi che rimangono ai 7 individui, dopo aver pagato la tassa. Indichiamoli con yi con i = 1, 2, ..., 7: 2 100 2 = 25 − 25 · 100 15 = 41 − 41 · 100 15 = 46 − 46 · 100 y(1) = 20 − 20 · = 19.6 y(2) = 24.5 y(3) y(4) = 34.85 = 39.1 1 CONCENTRAZIONE 7 15 = 51 100 28 = 85 − 85 · = 61.2 100 28 = 120 − 120 · = 86.4 100 y(5) = 60 − 60 · y(6) y(7) Completiamo quindi la seguente tabella, dopo aver calcolato il reddito totale dopo la tassazione: 7 X (dopo) T = yi = 19.6 + 24.5 + 34.85 + 39.1 + 51 + 61.2 + 86.4 = 316.65. i=1 yi Pi = i Qi pi = 0 19.6 24.5 34.85 39.1 51 61.2 86.4 316.65 0 1 2 3 4 5 6 7 0 19.6 44.1 78.95 118.05 169.05 230.25 316.65 Pi N 0 0.143 0.286 0.429 0.571 0.714 0.857 1 4 qi = Qi T 0 0.062 0.139 0.249 0.373 0.534 0.727 1 3.084 p i − qi 0 0.081 0.147 0.18 0.198 0.18 0.13 0 0.916 Per calcolare il rapporto di concentrazione di Gini, si utilizza la seguente formula: R (dopo) N −1 X 2 = · (pi − qi ). N − 1 i=1 Dalla precedente tabella si ricava che N −1 X i=1 (pi − qi ) = N X (pi − qi ) = 0.916, pertanto il i=1 rapporto di concentrazione, dopo la tassazione è dato da R (dopo) N −1 X 2 2 · · 0.916 = 0.3053̄. (pi − qi ) = = N − 1 i=1 7−1 Tale valore indica che dopo la tassazione, la concentrazione è pari al 30.53̄% del valore massimo teorico. Confrontando i valori assunti dal rapporto di concentrazione di Gini prima e dopo la tassazione, si deduce che il valore della concentrazione dei redditi è diminuito dopo la tassazione, infatti R(prima) = 0.369 > 0.3053̄ = R(dopo) . Osserviamo adesso che 1 CONCENTRAZIONE 8 a) se lo stato introduce un’imposta pari al 15% del reddito, i redditi dopo tale tassazione sono equivalenti all’85% dei redditi prima della tassazione. In altre parole, per determinare i redditi dopo tale tassazione, bisogna moltiplicare i redditi iniziali (cioè prima della tassazione) per 0.85. Tale trasformazione è chiaramente una trasformazione di scala. Ricordando ora che un requisito di un indice di concentrazione è l’invarianza per trasformazioni di scala, si può quindi concludere che la concentrazione prima e dopo la tassazione resta invariata. b) Se invece lo stato impone una tassa fissa di 5 mila euro, i redditi dopo la tassazione si ricavano sottraendo a ciascun reddito iniziale (cioè prima della tassazione) una quantità costante pari a 5 mila euro. Ricordando il requisito di un indice di concentrazione che afferma che se tutti i valori xi vengono aumentati di una stessa quantità h > 0, l’indice di concentrazione diminuisce (e di converso se tutti i valori vengono diminuiti di un valore costante h > 0, l’indice aumenta), possiamo affermare che l’applicazione di una tassa del genere porterebbe ad un aumento della concentrazione dei redditi. 4. La rilevazione di un carattere trasferibile X ha dato luogo alla seguente distribuzione di frequenze: xi ni 1 1 2 1 3 1 5 2 6 3 8 1 9 2 10 4 13 1 15 1 22 1 24 1 26 . 1 Supponendo di riclassificare il carattere X nelle classi: 0 ⊣ 3 3 ⊣ 6 6 ⊣ 10 10 ⊣ 20 20 ⊣ 30 si tracci il diagramma di Lorenz e si determini il rapporto di concentrazione con riferimento: a) alla distribuzione originaria; b) alla distribuzione per classi nel caso in cui si ritenga noto l’ammontare in ciascuna classe; c) alla distribuzione per classi nel caso in cui non si ritenga noto l’ammontare in ciascuna classe. Commentare i risultati. Svolgimento Per prima cosa, analizziamo la situazione originaria. Completiamo perciò la seguente tabella, dopo aver calcolato: N= 13 X nj = 20 j=1 e T = 13 X j=1 xj · nj = 200. 1 CONCENTRAZIONE 9 xj nj x j · nj Pj Qj 1 2 3 5 6 8 9 10 13 15 22 24 26 Totale 1 1 1 2 3 1 2 4 1 1 1 1 1 20 1 2 3 10 18 8 18 40 13 15 22 24 26 200 1 2 3 5 8 9 11 15 16 17 18 19 20 1 3 6 16 34 42 60 100 113 128 150 174 200 xj 1 2 3 5 6 8 9 10 13 15 22 24 26 Totale Pj N 0.05 0.1 0.15 0.25 0.4 0.45 0.55 0.75 0.80 0.85 0.90 0.95 1 pj = Qj T 0.005 0.015 0.03 0.08 0.17 0.21 0.3 0.5 0.565 0.64 0.75 0.87 1 qj = (1) (2) (3) (4) nj (pj−1 − qj−1 ) (pj − qj ) (2) + (3) (4) · (1) 1 0 0.045 0.045 0.045 1 0.045 0.085 0.13 0.13 1 0.085 0.12 0.205 0.205 2 0.12 0.17 0.29 0.58 3 0.17 0.23 0.40 1.20 1 0.23 0.24 0.47 0.47 2 0.24 0.25 0.49 0.98 4 0.25 0.25 0.50 2 1 0.25 0.235 0.485 0.485 1 0.235 0.21 0.445 0.445 1 0.21 0.15 0.36 0.36 1 0.15 0.08 0.23 0.23 1 0.08 0 0.08 0.08 20 7.21 Il diagramma di Lorenz per la distribuzione originaria è riportato in Figura (3). 1 CONCENTRAZIONE 10 q 1 0.5 0 0.5 1 p Fig. 3: Diagramma di Lorenz per la distribuzione originaria. É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando la formula: s X 1 R = · [(pj−1 − qj−1 ) + (pj − qj )]nj N − 1 j=1 13 X 1 · [(pj−1 − qj−1 ) + (pj − qj )]nj = 20 − 1 j=1 = 1 · 7.21 = 0.3795. 20 − 1 Tale valore indica che la concentrazione nella situazione originaria è pari al 37.95% del valore massimo teorico. Vediamo ora la situazione in cui il carattere è raggruppato in classi, ritenendo noto l’ammontare in ciascuna classe. Dopo aver determinato le frequenze per ciascuna classe, completiamo la seguente tabella. 1 CONCENTRAZIONE 11 Ammontare di classe 6 28 66 28 72 200 Classi nj 0–| 3 3–| 6 6–| 10 10–| 20 20–| 30 Totale 3 5 7 2 3 20 Classi 0–| 3 3–| 6 6–| 10 10–| 20 20–| 30 Totale (1) (2) nj (pj−1 − qj−1 ) 3 0 5 0.12 7 0.23 2 0.25 3 0.21 20 Pj Qj 3 8 15 17 20 6 34 100 128 200 Pj N 0.15 0.4 0.75 0.85 1 pj = Qj T 0.03 0.17 0.5 0.64 1 qj = (3) (4) (pj − qj ) (2) + (3) (4) · (1) 0.12 0.12 0.36 0.23 0.35 1.75 0.25 0.48 3.36 0.21 0.46 0.92 0 0.21 0.63 7.02 Il diagramma di Lorenz per la distribuzione raggruppata in classi (considerando i totali di classe) è riportato in Figura (4). q 1 0.5 0 0.5 1 p Fig. 4: Diagramma di Lorenz della distribuzione raggruppata in classi, considerando noti i totali di classe. É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando la formula: 5 X 1 1 · · 7.02 = 0.36947. [(pj−1 − qj−1 ) + (pj − qj )]nj = R= N − 1 j=1 20 − 1 1 CONCENTRAZIONE 12 Tale valore indica che tenendo in considerazione l’ammontare di classe, la concentrazione è pari al 36.947% del valore massimo teorico. Vediamo ora la situazione in cui il carattere è raggruppato in classi, ritenendo non noto l’ammontare in ciascuna classe. l− + l+ è il valore centrale della j-esima Completiamo la seguente tabella, in cui xj = 2 classe. Classi xj nj x j · nj Pj Qj 0–| 3 3–| 6 6–| 10 10–| 20 20–| 30 Totale 1.5 4.5 8 15 25 3 5 7 2 3 20 4.5 22.5 56 30 75 188 3 8 15 17 20 4.5 27 83 113 188 Classi 0–| 3 3–| 6 6–| 10 10–| 20 20–| 30 Totale (1) (2) nj (pj−1 − qj−1 ) 3 0 5 0.1261 7 0.2564 2 0.3085 3 0.2489 20 Pj N 0.15 0.4 0.75 0.85 1 pj = Qj T 0.0239 0.1436 0.4415 0.6011 1 qj = (3) (4) (pj − qj ) (2) + (3) (4) · (1) 0.1261 0.1261 0.3783 0.2564 0.3825 1.912 0.3085 0.5649 3.9543 0.2489 0.5574 1.1148 0 0.2489 0.7467 8.1061 Il diagramma di Lorenz per la distribuzione raggruppata in classi (non considerando i totali di classe) è riportato in Figura (5). É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando la formula: R= 5 X 1 1 · · 8.1061 = 0.4266. [(pj−1 − qj−1 ) + (pj − qj )]nj = N − 1 j=1 20 − 1 Tale valore indica che non considerando l’ammontare di classe, la concentrazione è pari al 42.66% del valore massimo teorico. 1 CONCENTRAZIONE 13 q 1 0.5 0 0.5 1 p Fig. 5: Diagramma di Lorenz della distribuzione raggruppata in classi, considerando NON noti i totali di classe. q 1 Totali di classe noti Totali di classe NON noti 0.5 0 0.5 1 p Fig. 6: Confronto dei diagrammi di Lorenz, considerando noti e considerando non noti i totali di classe. In Figura (6) è possibile confrontare i diagrammi di Lorenz per i due casi precedentemente trattati (totali di classe noti e totali di classe non noti). Il grafico sottolinea il risultato già riscontrato: la situazione che presenta maggiore concentrazione corrisponde a quella in cui si considerano non noti i totali di classe. 1 CONCENTRAZIONE 14 5. I clienti di un negozio alimentare sono stati classificati nelle seguenti classi di spesa: spesa (in euro) 0 ⊣ 20 numero clienti 198 20 ⊣ 40 106 40 ⊣ 70 57 70 ⊣ 120 21 totale . 382 Tracciare il diagramma di Lorenz e determinare un opportuno indice di concentrazione. Svolgimento Completiamo la seguente tabella, in cui xj = classe. l− + l+ è il valore centrale della j-esima 2 Classi xj nj x j · nj Pj Qj 0–| 20 20–| 40 40–| 70 70–| 120 Totale 10 30 55 95 198 106 57 21 382 1980 3180 3135 1995 10290 198 304 361 382 1980 5160 8295 10290 Classi 0–| 3 3–| 6 6–| 10 10–| 20 20–| 30 Totale (1) (2) nj (pj−1 − qj−1 ) 3 0 5 0.1261 7 0.2564 2 0.3085 3 0.2489 20 Pj N 0.5183 0.7958 0.9450 1 pj = Qj T 0.1924 0.5015 0.8061 1 qj = (3) (4) (pj − qj ) (2) + (3) (4) · (1) 0.1261 0.1261 0.3783 0.2564 0.3825 1.912 0.3085 0.5649 3.9543 0.2489 0.5574 1.1148 0 0.2489 0.7467 8.1061 Il diagramma di Lorenz è riportato in Figura (7). É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando la formula: s X 1 R = · [(pj−1 − qj−1 ) + (pj − qj )]nj N − 1 j=1 5 X 1 · = [(pj−1 − qj−1 ) + (pj − qj )]nj 20 − 1 j=1 1 · 8.1061 20 − 1 = 0.4266. = 1 CONCENTRAZIONE 15 q 1 0.5 0.5 0 1 p Fig. 7: Diagramma di Lorenz. Tale valore indica che la concentrazione è pari al 42.66% del valore massimo teorico. 6. La spesa per l’abbigliamento X, espressa in euro, di 260 famiglie, registrata nel primo semestre 2003 è stata la seguente: classi di spesa numero di famiglie totale spesa per classe 0 ⊣ 200 20 2200 200 ⊣ 400 30 8400 400 ⊣ 500 40 17600 500 ⊣ 600 50 28000 600 ⊣ 700 70 44800 Rappresentare il diagramma di Lorenz. Calcolare inoltre il rapporto di concentrazione di Gini, utilizzando la relazione con la differenza media semplice. Svolgimento Completiamo la seguente tabella, utilizzando l’informazione relativa ai totali di classe. 700 ⊣ 800 50 . 36500 1 CONCENTRAZIONE 16 Pj N 0.077 0.192 0.346 0.538 0.808 1 pj = Classi di spesa nj T otali di classe Pj Qj 0 ⊣ 200 200 ⊣ 400 400 ⊣ 500 500 ⊣ 600 600 ⊣ 700 700 ⊣ 800 20 30 40 50 70 50 260 2200 8400 17600 28000 44800 36500 137500 20 50 90 140 210 260 2200 10600 28200 56200 101000 137500 Qj T 0.016 0.077 0.205 0.409 0.735 1 qj = Possiamo adesso rappresentare il diagramma di Lorenz: è riportato in Figura (8). q 1 0.5 0 0.5 1 p Fig. 8: Diagramma di Lorenz per il carattere X. Per determinare la differenza media semplice, completiamo la seguente tabella, sempre utilizzando l’informazione relativa ai totali di classe. Classi di spesa 0 ⊣ 200 200 ⊣ 400 400 ⊣ 500 500 ⊣ 600 600 ⊣ 700 700 ⊣ 800 Totali di classe (= xj nj ) 2200 8400 17600 28000 44800 36500 137500 nj Cj 2Cj − N − nj xj nj · [2Cj − N − nj ] 20 30 40 50 70 50 260 20 50 90 140 210 260 -240 -190 -120 -30 90 210 -528000 -1596000 -2112000 -840000 4032000 7665000 6621000 1 CONCENTRAZIONE 17 Calcoliamo ora la differenza media semplice, utilizzando la formula: s X 2 · xj nj · (2Cj − N − nj ) ∆ = N (N − 1) j=1 6 X 2 · = xj nj · (2Cj − N − nj ) 260 · 259 j=1 2 · 6621000 260 · 259 = 196.643. = Per calcolare la media aritmetica, basta calcolare: M1 = 2200 + 8400 + 17600 + 28000 + 44800 + 36500 = 528.846. 260 Possiamo a questo punto calcolare il rapporto di concentrazione di Gini: R= 196.643 ∆ = 0.1859. = 2M1 2 · 528.846 Tale valore indica che la concentrazione è pari al 18.59% del valore massimo teorico. STATISTICA: esercizi svolti sulla ASIMMETRIA 1 1 ASIMMETRIA 1 2 ASIMMETRIA 1. Il reddito annuo (in migliaia di euro) di sette individui è rispettivamente pari a 15, 20, 12, 10, 18, 30, 35. Stabilire se la distribuzione è simmetrica. In caso contrario calcolare le asimmetrie puntuali rispetto alla mediana, fornire un indice del verso di asimmetria. Svolgimento Si ricorda innanzitutto che condizione necessaria (ma non sufficiente) affinché un insieme di valori x1 , x2 , ..., xN sia simmetrico rispetto a M è che: M = M1 = Me . Nel nostro caso, ordinando in senso crescente i valori dei redditi dei sette individui si ha: x(1) = 10; x(2) = 12; x(3) = 15; x(4) = 18; x(5) = 20; x(6) = 30; x(7) = 35 . Essendo N = 7 dispari, si ha che: Me = x( N+1 ) = x(4) = 18 . 2 Di seguito si calcola la media aritmetica dei sette redditi: 7 1X 140 M1 = x(i) = = 20 . 7 i=1 7 Dato che Me = 18 6= 20 = M1 , la condizione necessaria affinché la distribuzione x(1) , x(2) , ..., x(7) sia simmetrica non è soddisfatta. Possiamo quindi concludere che la distribuzione in considerazione è asimmetrica. Per indagare sulle caratteristiche di tale asimmetria, si procede con il calcolo delle asimmetrie puntuali rispetto alla mediana: Aj (Me) = x(j) + x(7−j+1) − 2 · Me j = 1, 2, ..., 7 . A tal fine è utile il seguente prospetto: j x(j) x(7−j+1) 1 10 35 2 12 30 3 15 20 4 18 18 5 20 15 6 30 12 7 35 10 tot 140 140 Aj (Me) 10 + 35 − 36 = +9 12 + 30 − 36 = +6 15 + 20 − 36 = −1 18 + 18 − 36 = 0 20 + 15 − 36 = −1 30 + 12 − 36 = +6 35 + 10 − 36 = +9 28 1 ASIMMETRIA 3 Quale indice del verso di asimmetria, utilizziamo la media aritmetica delle asimmetrie puntuali: 7 28 1X Aj (Me) = = 4 = 2 · (M1 − Me) . M1 {A(Me)} = 7 j=1 7 Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari a 4. In tal caso, le asimmetrie puntuali positive prevalgono su quelle negative e di conseguenza possiamo asserire che la distribuzione dei sette redditi presenta asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria, è utile calcolare l’indice normalizzato di asimmetria: 1≤ M1 − Me ≤1 . SM e Al fine di calcolare SM e , predisponiamo la seguente tabella: xj |xj − Me| 15 3 20 2 12 6 10 8 18 0 30 12 35 17 tot 46 Si ha dunque che: 7 SM e = 1X 46 |xj − Me| = = 6.5714 . 7 j=1 7 M1 − Me 20 − 18 = = 0.3043 . SM e 6.5714 Il valore dell’indice segnala una modesta asimmetria positiva, pari al 30.43% del suo massimo valore (positivo). 1 ASIMMETRIA 4 2. Il numero di giorni di degenza in ospedale per un intervento effettuato su 8 individui sono stati rispettivamente: 12, 9, 10, 15, 8, 13, 20, 9. Si calcolino le asimmetrie puntuali rispetto alla mediana, si valuti il verso e l’intensità di asimmetria attraverso opportuni indici. Svolgimento Ordinando in senso crescente la durata delle degenze otteniamo: x(1) = 8; x(2) = x(3) = 9; x(4) = 10; x(5) = 12; x(6) = 13; x(7) = 15; x(8) = 20 . Per valutare la presenza di asimmetria nella distribuzione dei giorni di degenza e comprenderne la natura, è utile analizzare le asimmetrie puntuali. Quest’ultime vengono ricavate agevolmente predisponendo la seguente tabella: j x(j) x(8−j+1) x(j) + x(8−j+1) − 2 · Me = Aj (Me) 1 8 20 8 + 20 − 22 = +6 2 9 15 9 + 15 − 22 = +2 3 9 13 9 + 13 − 22 = 0 4 10 12 10 + 12 − 22 = 0 5 12 10 12 + 10 − 22 = 0 6 13 9 13 + 9 − 22 = 0 7 15 9 15 + 9 − 22 = +2 8 20 8 20 + 8 − 22 = +6 tot 96 96 16 Si ricorda che la presenza di asimmetria positiva può derivare da due differenti situazioni: • le asimmetrie puntuali dalla mediana sono tutte positive o nulle; • le asimmetrie puntuali dalla mediana di segno positivo prevalgono su quelle di segno negativo. Nel nostro caso, la distribuzione delle 8 degenze presenta asimmetria positiva in quanto tutte le asimmetrie puntuali sono maggiori o uguali a zero. Per valutare l’ordine di grandezza delle asimmetrie puntuali è possibile ricorrere all’indice: M1 {A(Me)} = 2(M1 − Me) . Essendo N = 8 pari, si ha che: o 1n x( N ) + x( N +1) 2 2 2 10 + 12 1 = x(4) + x(5) = = 11 . 2 2 Me = Si ha inoltre che: 8 M1 1X 96 = xj = = 12 . 8 j=1 8 1 ASIMMETRIA 5 Si ha dunque che: M1 {A(Me)} = 2(M1 − Me) = 2(12 − 11) = 2. Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari a 2 e di conseguenza, come mostrato in precedenza, la distribuzione della durata delle 8 degenze presenta asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria, è utile ricorrere all’indice normalizzato di asimmetria: 1≤ M1 − Me ≤1 . SM e Al fine di calcolare SM e , predisponiamo la seguente tabella: xj |xj − Me| 12 1 9 2 10 1 15 4 8 3 13 2 20 9 9 2 tot 24 Si ha dunque che: 8 SM e 1X 24 = |xj − Me| = =3 . 8 j=1 8 M1 − Me 12 − 11 = = 0.3̄ . SM e 3 Il valore dell’indice segnala una modesta asimmetria positiva, pari ad massimo valore (positivo). 1 3 del suo 3. Su 7 famiglie è stato rilevato il numero X di figli e la superficie Y in m2 dell’abitazione ottenendo i seguenti dati: xi yi 2 3 1 5 4 0 2 . 97 110 102 98 65 40 80 a) Si calcolino, per il carattere X, le asimmetrie puntuali dalla mediana e si valuti il verso di asimmetria; b) si calcolino, per il carattere Y , le asimmetrie puntuali dalla mediana e si valuti il verso di asimmetria; 1 ASIMMETRIA 6 c) si confrontino gli indici del verso di asimmetria per le distribuzioni dei due caratteri X e Y . Svolgimento Svolgimento punto a) Ordinando in senso crescente le modalità del carattere X si ottiene: x(1) = 0; x(2) = 1; x(3) = x(4) = 2; x(5) = 3; x(6) = 4; x(7) = 5. La mediana del carattere X è pari a: Me = x( 7+1 ) = x(4) = 2 . 2 Le asimmetrie puntuali relative alla distribuzione del carattere X si ricavano agevolmente predisponendo la seguente tabella: j x(j) x(7−j+1) x(j) + x(7−j+1) − 2 · Me = Aj (Me) 1 0 5 0 + 5 − 4 = +1 2 1 4 1 + 4 − 4 = +1 3 2 3 2 + 3 − 4 = +1 4 2 2 2+2−4 =0 5 3 2 3 + 2 − 4 = +1 6 4 1 4 + 1 − 4 = +1 7 5 0 5 + 0 − 4 = +1 tot 17 17 6 Si osservi che le asimmetrie puntuali risultano essere tutte positive o nulle e di conseguenza la distribuzione del carattere X presenta asimmetria positiva. In particolare: M1 {A(Me)} = 6 = 0.8571 7 I valori assunti da tali indici informano che, le asimmetrie puntuali sono in media pari a 0.8571. Svolgimento punto b) Ordinando in senso crescente le modalità osservate del carattere Y si ottiene: y(1) = 40; y(2) = 65; y(3) = 80; y(4) = 97; y(5) = 98; y(6) = 102; y(7) = 110. La mediana del carattere Y è pari a: Me = y( 7+1 ) = y(4) = 97 . 2 Le asimmetrie puntuali relative alla distribuzione del carattere Y si ricavano agevol- 1 ASIMMETRIA 7 mente predisponendo la seguente tabella: j 1 2 3 4 5 6 7 tot y(j) y(7−j+1) y(j) + y(7−j+1) − 2 · Me = Aj (Me) 40 110 40 + 110 − 194 = −44 65 102 65 + 102 − 194 = −27 80 98 80 + 98 − 194 = −16 97 97 97 + 97 − 194 = 0 98 80 98 + 80 − 194 = −16 102 65 102 + 65 − 194 = −27 110 40 110 + 40 − 194 = −44 592 592 −174 Si osservi che le asimmetrie puntuali risultano essere tutte negative o nulle e di conseguenza la distribuzione del carattere Y presenta asimmetria negativa. In particolare: −174 = −24.8571 ; M1 {A(Me)} = 7 Il valore assunto da tale indice informa che le asimmetrie puntuali sono in media pari a −24.8571. Vi è di conseguenza una certa asimmetria negativa. Svolgimento punto c) Dato che l’indice 2(M1 − Me) è espresso nella stessa unità di misura del carattere che si sta analizzando, al fine di effettuare un confronto tra gli indici del verso di asimmetria della distribuzione del numero di figli e di quella della superficie dell’abitazione, è necessario procedere ad una normalizzazzione. In primo luogo si procede al calcolo dell’indice normalizzato di asimmetria nel caso della distribuzione del carattere X: 1≤ M1 (X) − Me(X) ≤1 . SM e(X) Al fine di calcolare SM e(X) , predisponiamo la seguente tabella: xj |xj − Me(X)| 2 0 3 1 1 1 5 3 4 2 0 2 2 0 tot 9 Si ha dunque che: 7 1X 9 SM e (X) = |xj − Me(X)| = . 7 j=1 7 M1 (X) = 2+3+1+5+4+0+2 17 = . 7 7 1 ASIMMETRIA 8 17 −2 3 1 M1 (X) − Me(X) 7 = = = . 9 SM e(X) 9 3 7 Il valore dell’indice segnala una modesta asimmetria positiva, pari ad 31 del suo massimo valore. Si procede ora al calcolo dell’indice normalizzato di asimmetria nel caso della distribuzione del carattere Y : 1≤ M1 (Y ) − Me(Y ) ≤1 . SM e(Y ) Al fine di calcolare SM e(Y ) , predisponiamo la seguente tabella: yj |yj − Me(Y )| 97 0 110 13 102 5 98 1 65 32 40 57 80 17 tot 125 Si ha dunque che: 7 SM e(Y ) = 1X 125 |yj − Me(Y )| = . 7 j=1 7 M1 (Y ) = 592 . 7 592 − 97 M1 (Y ) − Me(Y ) 592 − 679 = 7 = = 0.696 . 125 SM e (Y ) 125 7 Il valore dell’indice segnala una buona asimmetria negativa, pari al 69.6% del suo massimo valore (negativo). Concludendo, la distribuzione del numero dei figli presenta asimmetria positiva mentre la distribuzione della superficie dell’abitazione presenta asimmetria negativa. Il valore degli indici normalizzati appena ricavati infoma inoltre che la distribuzione del numero di figli presenta un’asimmetria meno spiccata rispetto a quella che caratterizza la distribuzione della superficie dell’abitazione. 1 ASIMMETRIA 9 4. A sette teenager è stato domandato il numero di compact disc X acquistati negli ultimi sei mesi ottenendo i seguenti valori: 15, 7, 1, 22, 35, 9, 16. Stabilire se la distribuzione del carattere X è simmetrica e fornire un opportuno indice del verso di asimmetria commentando i risultati. Svolgimento Ordinando in senso decrescete le modalità osservate del carattere X si ottiene: x(1) = 1; x(2) = 7; x(3) = 9; x(4) = 15; x(5) = 16; x(6) = 22; x(7) = 35. Un primo indizio sulla simmetria della distribuzione del carattere X, può essere ottenuto confrontando i valori di media aritmetica e mediana di X. La mediana del carattere X è data da: Me = x( 7+1 ) = x(4) = 15 . 2 La media aritmetica del carattere X è data da: 7 1X 1 + 7 + 9 + 15 + 16 + 22 + 35 105 M1 = xj = = = 15 . 7 j=1 7 7 Si osservi che M1 = Me = 15. Tale risultato fornisce un “indizio di simmetria” della distribuzione di X. Con questo si intende dire che l’uguaglianza tra media aritmetica e mediana non esclude la simmetria della distribuzione di X (cosa che sarebbe invece accaduta se si fosse avuto M1 6= Me). Ciò deriva dal fatto che M1 = Me è condizione necessaria ma non sufficiente per la simmetria della distribuzione di X. La presenza di simmetria è invece assicurata se tutte le asimmetrie puntuali sono nulle. Nella seguente tabella si riporta il calcolo delle asimmetrie puntuali: j x(j) x(7−j+1) x(j) + x(7−j+1) − 2 · Me = Aj (Me) 1 1 35 1 + 35 − 30 = +6 2 7 22 7 + 22 − 30 = −1 3 9 16 9 + 16 − 30 = −5 4 15 15 15 + 15 − 30 = 0 5 16 9 16 + 9 − 30 = −5 6 22 7 22 + 7 − 30 = −1 7 35 1 35 + 1 − 30 = +6 tot 105 105 0 Come si osserva dalla tabella sopra riportata, le asimmetrie puntuali non sono tutte nulle e di conseguenza la distribuzione del carattere X non presenta simmetria. Il fatto che, nonostante ciò, si abbia l’uguaglianza tra media aritmetica e mediana di X, deriva dal fatto che le asimmetrie positive bilanciano quelle negative. In questo caso si ha: M1 {A(Me)} = 0 . Per avere comunque informazioni sul verso di asimmetria è necessario utilizzare l’indice M1 {(X − Me)3 }. Al fine del calcolo di questo ultimo indice, predisponiamo 1 ASIMMETRIA 10 la seguente tabella: x(j) x(j) − Me (x(j) − Me)3 1 −14 −2744 7 −8 −512 9 −6 −216 15 0 0 16 1 1 22 7 343 35 20 8000 tot 0 4872 Si ha dunque che: 7 M1 (X − Me) 3 4872 1X (x(j) − Me)3 = = 696 . = 7 j=1 7 Il valore assunto dall’indice informa che la distribuzione del carattere X presenta una tendenza all’asimmetria positiva. Dato che M1 = Me, non è possibile ricorrere all’indice di asimmetria normalizzato per ricavare ulteriori informazioni. 5. Data la seguente distribuzione di frequenze del carattere X: xi ni 3 5 7 2 7 4 9 11 Totale , 3 1 17 stabilire se è simmetrica. In caso di risposta negativa calcolare un indice che fornisca una misura del verso di asimmetria. Svolgimento Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di Me e M1 : xi ni xi · ni Ci 3 2 6 2 5 7 35 9 7 4 28 13 9 3 27 16 11 1 11 17 tot 17 107 −− Si ha che: 5 1 X 107 M1 = xi · ni = = 6.2941 . 17 i=1 17 Me = x( 17+1 ) = x(9) = 5 . 2 1 ASIMMETRIA 11 Da quanto appena svolto emerge che M1 6= Me e di conseguenza la distribuzione di frequenze riportata nel testo dell’esercizio non è simmetrica come suggerisce anche il seguente grafico: n ni 7 4 3 2 1 3 5 7 9 11 xi In alternativa, si ricorda che una distribuzione di frequenze di un carattere quantitativo discreto è simmetrica se per ogni c > 0, si verifica che la frequenza in corrispondenza di x = Me + c, indicata con n(Me + c), è uguale alla frequenza in corrispondenza di x = Me − c, indicata con n(Me − c). Nel nostro caso, ad esempio, si ha: c Me − c Me + c n(Me − c) n(Me + c) n(Me − c) − n(Me + c) 2 3 7 2 4 −2 4 1 9 0 3 −3 6 −1 11 0 1 −1 Pe qualsiasi altro valore di c la differenza n(Me − c)−n(Me+c) risulta essere pari a 0. Come si osserva, per valori di c pari a 2, 4 e 6, le frequenze n(Me − c) e n(Me+c) non sono identiche e di conseguenza la distribuzione in considerazione non è simmetrica. Al fine di valutare il verso di asimmetria della distribuzione ricorriamo all’indice: M1 {A(Me)} = 2 · (M1 − Me) = 2 · (6.2941 − 5) = 2.5882 . Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari a 2.2882 e di conseguenza la distribuzione di frequenze in considerazione presenta asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria, è utile ricorrere all’indice normalizzato di asimmetria: 1≤ M1 − Me ≤1 . SM e 1 ASIMMETRIA 12 Al fine di calcolare SM e , predisponiamo la seguente tabella: xi ni |xi − Me| |xi − Me| · ni 3 2 2 4 5 7 0 0 7 4 2 8 9 3 4 12 11 1 6 6 tot 17 −− 30 Si ha dunque che: 5 SM e 1 X 30 = |xi − Me|ni = = 1.7647 . 17 i=1 17 6.2941 − 5 1.2941 M1 − Me = = = 0.7333 . SM e 1.7647 1.7647 Il valore dell’indice segnala una discreta asimmetria positiva, pari al 73.33% del suo massimo valore. 6. Data la distribuzione del seguente carattere continuo X: classi freq. 0⊢2 2⊢4 4⊢6 6⊢8 8⊢9 3 4 6 9 7 9 ⊢ 10 10 ⊢ 12 12 ⊢ 14 9 8 2 Totale , 48 stabilire se la distribuzione è simmetrica e in caso contrario fornire un indice del verso di asimmetria. Svolgimento Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di Me e M1 : ni val.centr. di classe xi · ni Ci xi 0⊢2 3 1 3 3 2⊢4 4 3 12 7 4⊢6 6 5 30 13 6⊢8 9 7 63 22 8⊢9 7 8.5 59.5 29 9 ⊢ 10 9 9.5 85.5 38 10 ⊢ 10 8 11 88 46 12 ⊢ 12 2 13 26 48 tot 48 −− 367 −− classi 1 ASIMMETRIA 13 Alla luce di ciò si ha che: 8 367 1 X xi · ni = = 7.6458 . M1 = 48 i=1 48 Per quanto riguara il calcolo della mediana si ha che 48 + 1 N +1 = = 24.5 2 2 e dunque la classe mediana è 8 ⊢ 9. Il valore della mediana è dato quindi dato da: Me = 8 + [24.5 − 22 − 0.5] · 1 = 8 + 0.2857 = 8.2857 . 7 Si osservi che M1 6= Me e di conseguenza la distribuzione di frequenze riportata nel testo dell’esercizio non è simmetrica. In alternativa, la simmetria della distribuzione di X può essere verificata ricordando che la distribuzione di un carattere quantitativo continuo, come quello che stiamo analizzando, è simmetrica se per ogni c > 0, si verifica che la frequenza specifica in corrispondenza di x = Me − c, indicata con fs (Me − c), è uguale alla frequenza specifica in corrispondenza di x = Me + c, indicata con fs (Me + c). Il calcolo delle frequenze specifiche è riportato nella seguente tabella: classe ni ampiezza di classe fs 0⊢2 3 2 1.5 2⊢4 4 2 2 4⊢6 6 2 3 6⊢8 9 2 4.5 8⊢9 7 1 7 9 ⊢ 10 9 1 9 10 ⊢ 12 8 2 4 12 ⊢ 14 2 2 1 Si osservi che, per c = 2, si ha: fs (Me + 2) = fs (10.2857) = 4 ; fs (Me − 2) = fs (6.2857) = 4.5 . Dato che fs (Me + 2) 6= fs (Me − 2), si ha che la distribuzione fornita dal testo dell’esercizio non è simmetrica. L’asimmetria della distribuzione in considerazione è osservabile anche dal grafico della distribuzione di frequenza che di seguito riportiamo. 1 ASIMMETRIA 14 fs 9 7 4,5 4 3 2 1.5 1 2 4 6 8 9 10 12 14 x Al fine di valutare il verso di asimmetria della distribuzione in considerazione, si utilizza l’indice: 2 · (M1 − Me) = 2 · (7.6458 − 8.2857) = 2 · (−0.6399) = −1.2798 . Il valore assunto dall’indice informa che la distribuzione in considerazione presenta asimmetria negativa come osservabile dal grafico riportato in precedenza. 1 ASIMMETRIA 15 7. Data la distribuzione del seguente carattere continuo X: classi freq. 0 ⊣ 6 6 ⊣ 8 8 ⊣ 10 10 ⊣ 12 12 ⊣ 14 14 ⊣ 16 16 ⊣ 22 4 15 26 40 32 6 7 Totale , 130 stabilire se la distribuzione è simmetrica. Svolgimento Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di Me e M1 e contenente altre informazioni che saranno utili nel seguito: classi 0⊣6 6⊣8 8 ⊣ 10 10 ⊣ 12 12 ⊣ 14 14 ⊣ 16 16 ⊣ 22 tot ampiezza ni val.centr. di classe xi · ni di classe xi 6 4 3 12 2 15 7 105 2 26 9 234 2 40 11 440 2 32 13 416 2 6 15 90 6 7 19 133 −− 130 −− 1430 Ci fs 4 0.66 19 7.5 45 13 85 20 117 16 123 3 130 1.166 −− −− Alla luce di ciò si ha che: 7 1 X 1430 M1 = xi · ni = = 11 . 130 i=1 130 Per quanto riguara il calcolo della mediana si ha che 130 + 1 N +1 = = 65.5 2 2 e dunque la classe mediana è 10 ⊢ 12. Il valore della mediana è dato da: Me = 10 + [65.5 − 45 − 0.5] · 2 = 10 + 1 = 11 . 40 Si osservi che M1 = Me = 11. Tale risultato, fornisce solo un “indizio di simmetria” della distribuzione senza permetterci di concludere che la stessa è simmetrica. Ciò deriva dal fatto che M1 = Me è condizione necessaria ma non sufficiente per la simmetria di una distribuzione. Per verificare l’effettiva presenza di simmetria, si ricorda che la distribuzione di un carattere quantitativo continuo, come quello che stiamo analizzando, è simmetrica se per ogni c > 0, si verifica che la frequenza specifica in corrispondenza di x = Me − c, indicata con fs (Me − c), è uguale alla frequenza specifica in corrispondenza di x = 1 ASIMMETRIA 16 Me + c, indicata con fs (Me + c). Si scelga, ad esempio, c = 2. In tal caso si ha che: fs (11 − 2) = fs (9) = 13 ; fs (11 + 2) = fs (13) = 16 . Dato che fs (Me − 2) 6= fs (Me + 2), si ha che la distribuzione fornita dal testo dell’esercizio non è simmetrica. L’asimmetria della distribuzione in considerazione è osservabile anche guardando il grafico della distribuzione di frequenza che di seguito riportiamo. fs 20 16 13 7,5 3 1,166 0.66 6 8 10 12 14 16 22 x 1 ASIMMETRIA 17 8. I clienti di un negozio alimentare sono stati classificati secondo la spesa (in euro) ottenendo i seguenti dati: classi di spesa freq. totale spesa 0 ⊣ 20 20 ⊣ 40 40 ⊣ 70 70 ⊣ 120 Totale 198 106 57 21 382 . 3564 2491 3135 2100 11290 Stabilire se la distribuzione è simmetrica e in caso contrario fornire un indice del verso di asimmetria. Svolgimento Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di Me e M1 : classi ni tot. classe (ti ) Ci 0 ⊣ 20 198 3564 198 20 ⊣ 40 106 2491 304 40 ⊣ 70 57 3135 361 70 ⊣ 120 21 2100 382 tot 382 11290 −− Alla luce di ciò si ha che: 11290 = 29.555 . 382 Per quanto riguarda il calcolo della mediana si ha che M1 = N +1 383 = = 191.5 2 2 e dunque la classe mediana è 0 ⊢ 20. Il valore della mediana è dato da: Me = 0 + [191.5 − 0 − 0.5] · 20 = 19.293 . 198 Dato che M1 6= Me, la distribuzione della spesa dei clienti del negozio di alimentari è asimmetrica. Si ha inoltre che: 2 · (M1 − Me) = 2 · (29.555 − 19.293) = 2 · 10.262 = 20.524 . Di conseguenza la distribuzione della spesa dei clienti del negozio di alimentari presenta asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria, è utile calcolare l’indice normalizzato di asimmetria: 1≤ M1 − Me ≤1 . SM e 1 ASIMMETRIA 18 Al fine di calcolare SM e , predisponiamo la seguente tabella: classi ni 0 ⊣ 20 198 20 ⊣ 40 106 40 ⊣ 70 57 70 ⊣ 120 21 tot 382 tot. classe (ti ) xi = 3564 2491 3135 2100 11290 ti |xi − Me| |xi − Me| · ni ni 18 23.5 55 100 196.5 1.293 4.207 35.707 80.707 256.014 445.942 2035.299 1694.847 4432.102 Si ha dunque che: 4 SM e 1 X 4432.102 = |xi − Me| · ni = = 11.6024 382 i=1 382 M1 − Me 29.555 − 19.293 = = 0.8845. SM e 11.6024 Il valore dell’indice segnala una elevata asimmetria positiva, pari all’88.45% del suo massimo valore (positivo).