...

Lucidi 1 - Università degli Studi di Messina

by user

on
Category: Documents
24

views

Report

Comments

Transcript

Lucidi 1 - Università degli Studi di Messina
NOMENCLATURA
STATISTICA
1
L’unità statistica
• L'unità è il soggetto elementare su cui vengono osservati i caratteri
oggetto di studio: una persona fisica, un oggetto, un’azienda, o un
gruppo di entità che, dal punto di vista dell'indagine, formino un
tutt’uno.
• Le unità devono essere distinguibili e non ambigue.
ESEMPI
a) Interessi maturati su di un conto corrente
b) Tipo di riscaldamento di un appartamento
c) Numero di testi consigliati in un corso
d) Emissione di gas tossici da un automobile
(Il conto corrente)
(L’appartamento)
(Il corso)
(L’automobile)
A volte la corretta definizione di unità statistica richiede una definizione
convenzionale molto dettagliata. Per definire le famiglie ad es. è possibile
utilizzare la definizione fornita dall’ISTAT (censimento 2001): per famiglia si
intende un insieme di persone legate da vincoli di matrimonio, parentela,
affinità, adozione, tutela o da altri vincoli affettivi, coabitanti e aventi dimora
abituale nello stesso comune (anche se non sono ancora iscritte all’Anagrafe
dello stesso comune). Una famiglia può essere costituita anche da una sola
2
persona.
La popolazione
La popolazione o UNIVERSO è l'insieme di tutte e solo le unità
statistiche omogenee rispetto a una o più caratteristiche.
ESEMPIO:
Alcuni studenti intendono finanziare le spese di frequenza universitaria
avviando un programma di ripetizioni ben fatte ed a basso costo. Quale
sarà la popolazione?
Iscritti nei
primi due
popolazione
anni di
corso
Interessati ad
analisi e
statistica
E’ chiaro che non possono essere tutti
gli studenti iscritti. Ci si può limitare
agli studenti dei primi 2 anni.
Occorre poi determinare le materie
per cui esistono le competenze: ad es.
i corsi fondamentali di statistica e
matematica.
La delimitazione dell’universo è
chiara:
studenti del biennio che non hanno
sostenuto statistica e/o analisi.
3
Tipologia di popolazione
La popolazione può essere:
• FINITA
Se include oggetti che possono essere contati ed il
conteggio, ad un certo punto si interrompe.
– Esempi: le pagine di un libro, i diplomati di una scuola
• ENUMERABILE
interrompe mai
Le unità sono contabili, ma il conteggio non si
– Esempi: i numeri naturali, i lanci di un dado
• INFINITA Ogni sottoinsieme di popolazione contiene lo stesso
numero di entità contenute nella popolazione.
– Esempi: le frazioni tra zero ed uno, le nuances di un colore
• INDETERMINATA L’insieme dei soggetti è finito in quanto esiste un
limite fisico non valicabile alla sua crescita, ma le unità sono sparse o
rare al punto da rendere impossibile il loro materiale censimento.
– Esempi: animali selvatici, tifosi di una squadra, gruppi etnici o religiosi
particolari
4
Carattere statistico
È l'aspetto si intende studiare nel dato.
Può essere una distanza, una numerosità, una forma, un grado, una
composizione di caratteristiche da trattare in modo aggregato.
Dal punto di vista della definizione statistica qualunque carattere si
“articola” in modalità ossia modi di essere, ad es. il sesso in
maschio e femmina, l’età in anni …
Le modalità devono essere almeno:
1. esaustive (devono rappresentare tutti i possibili modi di
manifestarsi del carattere)
2. non sovrapposte (ad ogni unità si può associare una sola
modalità)
3. soggette a variazioni ossia presentarsi con almeno due valori o
categorie distinte in corrispondenza delle diverse unità
statistiche del collettivo.
5
Classificazione dei caratteri statistici
Le modalità di un carattere possono essere:
1. Quantitative ossia espresse da numeri ad esempio l’età in anni
compiuti, il reddito in euro, la temperatura in gradi centigradi
…, in tal caso il carattere si dice quantitativo o variabile.
2. Qualitative ossia espresse da termini nominali, categorie,
attributi, numeri convenzionali ad esempio il sesso, le
professioni in libero professionista, dirigente, impiegato,
artigiano, i colori, i mesi … in questo caso il carattere si dice
qualitativo o mutabile.
6
Classificazione delle mutabili
Un carattere qualitativo viene distinto in:
• Carattere sconnesso (o con scala nominale) se date due sue
modalità è possibile affermare solo se sono uguali o diverse;
ad es. sesso, stato civile, religione, razza …
• Carattere ordinato (o con scala ordinale) se date due modalità è
possibile solo dare un ordine, specificando che una precede
l’altra;
ad es. grado di soddisfazione (poco, abbastanza, molto), titolo di
studio (senza titolo, licenza elementare, licenza media, diploma,
laurea, dottorato)
I caratteri ordinati si dicono:
1. rettilinei se possiedono una modalità iniziale ed una finale ad es.
titolo di studio,
2. ciclici se non hanno vere e proprie modalità iniziali e finali ma
vengono spesso fissate in modo convenzionale ad es. la direzione
del vento o il mese di nascita in questo caso se si elencano le modalità
iniziando da gennaio fino a dicembre si nota che le modalità estreme
sono in realtà molto prossime tra loro.
7
Classificazione delle variabili
Un carattere quantitativo viene distinto in:
• quantitativo con scala a intervalli se non esiste uno zero assoluto,
naturale e non arbitrario. Ha senso considerare la differenza tra le
modalità del carattere ma non il loro rapporto, ad es. la temperatura
misurata in gradi centigradi (lo zero utilizzato è convenzionale e
l’affermazione “la temperatura 40° è due volte più calda che 20°” non ha senso
non potendo fare nessuna affermazione sul loro rapporto poichè 0° non significa
“totale assenza di calore”).
•
quantitativo con scala di rapporti se esiste uno zero assoluto,
naturale e non arbitrario, ad es. peso, reddito, età, lunghezza di un
oggetto
Le variabili vengono anche distinte in:
1. Discrete se l’insieme delle modalità assumibili può essere messo in
corrispondenza biunivoca con un sottoinsieme di numeri interi, per
cui le modalità sono in numero finito al più un’infinità numerabile,
ad es. il numero di figli, numero di pezzi prodotti, voto ad un esame.
2. Continue se l’insieme delle modalità può essere messo in
corrispondenza biunivoca con un sottoinsieme di numeri reali, ad
es. il peso, l’altezza.
8
Ricapitolando …
Caratteri
Caratteristiche
Caratteri qualitativi (Mutabili)
Scala nominale (mutabile sconnessa)
Operazioni consentite = oppure ≠
nessun ordinamento delle modalità
Scala ordinale (mutabile rettilinea e ciclica) Operazioni consentite >< le modalità
possiedono un ordinamento semplice
(strutture d’ordine)
Caratteri quantitativi (Variabili)
Scala ad intervalli
Operazioni consentite + -, esiste
un’unità di misura costante quindi una
distanza tra le modalità
Scala di rapporti
Operazioni consentite × : esiste uno
zero assoluto
9
Caratteri dicotomici
I caratteri dicotomici detti anche var. logiche, dummy, var. indicatrici
binarie, hanno solo due modalità: maschi e femmine, vivi o morti …
Le unità statistiche sono classificate in base alla classificazione per
dicotomia: presenza / assenza di un dato attributo. Alle modalità
“presenza” si attribuisce convenzionalmente valore a e alle modalità
“assenza” valore b con a e b simboli qualsiasi (ad es. 0 e 1).
Da un punto di vista del livello di misurazione :
•possiedono in qualche modo un ordinamento (avere o non avere) ma
riguardo alle relazioni d’ordine proprie delle scale ordinali non è
possibile dire quale delle due modalità è maggiore o minore,
•possiedono il requisito dell’unità di misura e quindi la distanza che
tuttavia è una sola.
Una dicotomia può essere trattata sia come una scala nominale
che ordinale che cardinale, secondo la natura del carattere reso
dicotomico, pur senza avere pienamente le proprietà di tali scale.
10
Altre classificazione dei caratteri statistici
I caratteri statistici possono distinguersi in base al tempo:
1. invarianti nel tempo (ad es. luogo di nascita, anno di nascita);
2. di stato, rilevabili con riferimento ad un dato momento (età stato
civile, …);
3. di flusso, rilevabili con riferimento ad un intervallo di tempo
(nascite, reddito, consumi, ...).
Un carattere è trasferibile se ha senso immaginare che un’unità
statistica possa cedere tutto o parte del carattere posseduto ad
un’altra un’unità statistica, ad es. il reddito, i beni posseduti non
sono invece caratteri trasferibili il peso, l’altezza, l’età …
11
L’organizzazione dei dati
In una serie non ordinata di dati non è possibile evidenziare o cogliere
rapidamente le caratteristiche del fenomeno, ma è necessario, dopo la
raccolta dei dati, organizzarli in database per permettere la sintesi e
l’analisi delle variabili considerate.
Nelle colonne sono riportate le
variabili, nelle righe i valori relativi
ad ogni osservazione. La colonna
“Codice” è riportata allo scopo di
codificare le osservazioni.
Codice
Sesso
Lunghezza
Peso
1
M
59
14
2
F
27
8
-Codificare uniformemente le
variabili,
3
F
43
12
4
M
12
43
-Utilizzare sempre la stessa unità di
misura
5
M
22
80
E’ necessario ricordare che bisogna:
-Stabilire a priori la codifica dei dati
mancanti
12
Distribuzione di frequenze
Con le frequenze è possibile ottenere una rappresentazione
molto più sintetica detta distribuzione di frequenze.
La distribuzione di frequenze semplice associa alle
modalità che può assumere un carattere X, qualitativo o
quantitativo, le corrispondenti frequenze assolute.
La distribuzione di frequenze si dice semplice se è riferita
ad un unico carattere, ad es. il sesso; si dice doppia se è
riferita a due caratteri congiuntamente, ad es. il sesso e
l’età, in generale si dice multipla se si riferisce a più di un
carattere.
13
Frequenza assoluta
Dopo aver costruito il database, per potere valutare il fenomeno
descritto dal carattere è importante associare a ciascuna modalità
la frequenza assoluta, cioè il numero di volte che una modalità
si presenta nella popolazione.
Es.: Una variabile discreta ottenuta dalle votazioni riportate da 30
studenti all’esame di statistica:
18; 23; 30; 24; 18; 27; 21; 29; 25; 23; 20; 19; 26; 22; 28; 22; 24;
30; 18; 25; 27; 26; 28; 28; 26; 27; 20; 22; 26; 21.
Occorre identificare il valore minimo (18) e quello massimo (30),
contando quante volte compare ogni modalità (cioè quanti sono
gli studenti che hanno avuto la stessa votazione).
14
Distribuzione di frequenza (Tabella)
Le precedenti informazioni
sono riportate in maniera più
semplice nella tabella.
La costruzione delle frequenze
assolute permette di fare una
prima valutazione sulla
variabile osservata, è infatti
possibile affermare quali sono
le votazioni che si manifestano
con maggiore (nell’esempio 26)
o minore (il voto 19, 29)
frequenza.
Le frequenze assolute indicano,
quindi, la consistenza numerica
effettiva con cui una certa
modalità è stata osservata.
Voto
Freq. assolute
18
3
19
1
20
2
21
2
22
3
23
2
24
2
25
2
26
4
27
3
28
3
29
1
30
2
Totale
30
15
Es. nel caso di variabile continua
Quando la variabile è continua la distribuzione di frequenza della
variabile suddivisa in classi si ottiene selezionando m intervalli della
variabile, (x0-x1, …, xi-i +1, xn-1-xn) e contando, per ogni intervallo, il
numero di volte che le unità di osservazione presentano un valore in
esso compreso.
Es.: Si supponga di rilevare la temperatura corporea in un campione di 13 donne:
{36.2, 36.6, 37.3, 38.0, 38.2, 36.5, 36.5, 37.3, 38.4, 36.5, 37.4, 38.0}
• Nella formazione delle classi, il limite inferiore della I classe ed il limite superiore
dell’ultima classe non devono essere i valori osservati, ma li devono comprendere.
• La classe iniziale e terminale non devono essere classi aperte (< 36.2 quella
iniziale ≥38.4 quella finale).
• È necessario definire con precisione il valore minimo e massimo. Nell’esempio, le
classi possono essere 36-36.4 la prima, 36.5-36.9 la seconda, e così via fino a
38-38.4 per l’ultima.
• Poiché la scala è continua i gradi °C riportati devono essere sempre intesi con cifre
decimali.
16
Tabella nel caso di variabili continue
Considerando i dati dell’esempio precedente, piuttosto che elencare
nella distribuzione di frequenza, le singole modalità, che potrebbero
dar luogo ad una tabella molto lunga e difficilmente leggibile,
conviene raggrupparle in un certo numero di classi, come fatto, nella
tabella successiva:
Temperatura
Freq. assoluta
36.0-36.4
1
36.5-36.9
4
37.0-37.4
3
37.5-37.9
1
38-38.4
4
Totale
13
17
Frequenze relative e percentuali
Le frequenze relative indicano il peso, il contributo
relativo di ogni modalità al totale. Sono ottenute dividendo
le freq. assolute corrispondenti ad ogni modalità o ad ogni
classe di valori, per il totale delle unità osservate:
ni
numero di volte che si osserva l' i - esima modalità
fi =
=
N
numero di unità che formano la popolazion e
Spesso alle frequenze relative semplici sono preferite
quelle percentuali, ottenute moltiplicando le prime per
100:
ni
f %   100  f i  100
N
18
Frequenze cumulate
La frequenza cumulata assoluta (relativa) associata ad una modalità
della variabile indica il numero (la proporzione) di osservazioni che
presentano un valore minore o uguale rispetto a quello della modalità
Si può utilizzare solo se il carattere è misurato almeno su scala
ordinale.
La distribuzione di frequenze cumulate e retrocumulate consistono nel
sommare via via tutte le osservazioni che presentano il valore
inferiore (cumulate) o quello superiore (retroculate) ad una data
modalità:
1
F1 = ∑n i = n1
i =1
2
F2 = ∑n i = n1 + n 2
i =1
k
Fk = ∑n i = n1 + n 2 + n k = N
i =1
19
Es. di frequenze relative, percentuali e cumulate
Si consideri, la seguente distribuzione di frequenza “numero di
esami superati” e si calcolino le frequenze relative fi, relative
percentuali f% e cumulate.
n. esami
f
fi
f%
fcum
1
120
0.14
14.05
120
2
150
0.18
17.56
270
3
180
0.21
21.08
450
4
165
0.19
19.32
615
5
135
0.16
15.81
750
6
104
0.12
12.18
854
Totale
854
1
100
20
Fly UP