...

STATA - Facoltà di Medicina e Chirurgia

by user

on
Category: Documents
14

views

Report

Comments

Transcript

STATA - Facoltà di Medicina e Chirurgia
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
STATA
e la BIOSTATISTICA di Norman - Streiner
Prof. Pierpaolo Vittorini
[email protected]
Università degli Studi dell’Aquila
Facoltà di Medicina e Chirurgia
14 febbraio 2013
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Contenuti e obiettivi
Breve riassunto “applicativo” dei test statistici
Gestione dei dati in STATA
Sintassi generale
Comandi principali
Creazione di un dataset in STATA
Grafici
Statistica descrittiva
Statistica inferenziale
Regressione
Cenni di statistica non parametrica
Cenni sull’analisi della sopravvivenza
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Concetti preliminari
Tipi di variabili
Numerica Una variabile numerica è generalmente una misura
che può assumere un valore nel dominio dei numeri
reali (e.g., l’età, il peso, il livello di colesterolo, etc.)
Ordinale Una variabile ordinale è una variabile che presenta
differenti livelli di codifica con un preciso ordine fra i
livelli (e.g., il livello di scolarità)
Nominale Una variabile nominale è una variabile che presenta
differenti livelli di codifica senza un preciso ordine fra
i livelli (e.g., il sesso)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Concetti preliminari (2)
Domande dell’analisi statistica
Statistica descrittiva
Tendenza centrale: qual è il valore che
descrive la tendenza della mia variabile?
Dispersione: quanto sono concentrati intorno al
valore di tendenza centrale le mie osservazioni?
Statistica inferenziale
Differenza: c’è differenza fra le
osservazioni?
Associazione: c’è associazione fra variabili?
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Tendenza centrale
Per variabili numeriche ⇒ media
Per variabili ordinali ⇒ mediana
Per variabili nominali ⇒ moda
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Dispersione
Per variabili numeriche ⇒ varianza o s.q.m.
Per variabili ordinali ⇒ range (max-min)
Per variabili nominali ⇒ numero di categorie
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza
Per testare l’ipotesi che esistano differenze fra le mie
osservazioni, il primo discriminante è sul tipo di variabile
Se le osservazioni provengono da variabili ordinali o numeriche,
Oppure se provengono da variabili nominali
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche
La prima domanda che devo pormi è sul numero di gruppi che
ho all’interno delle mie osservazioni
Se ho dei pazienti e voglio confrontarne il livello di colesterolo
con la media nazionale, allora ho un solo gruppo
Se ho dei pazienti e voglio confrontare il livello di colesterolo
dei maschi rispetto a quello delle femmine, allora ho due gruppi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 1 gruppo
Se il numero di osservazioni è superiore a 30, allora eseguo un
t-test
Se il numero di osservazioni è minore di 30, allora
Eseguo un test di normalità (e.g., Shapiro-Wilk)
Se la distribuzione è normale, allora eseguo un t-test
Altrimenti, eseguo un sign-test
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 2 gruppi
La domanda che devo pormi è sulla dipendenza/indipendenza
dei due gruppi
Due gruppi sono indipendenti se le osservazioni sono prese da
soggetti tra di loro indipendenti
Il peso di un soggetto preso prima e dopo una cura dimagrante
forma due gruppi dipendenti (lo stesso soggetto)
Il livello di colesterolo fra maschi e femmine forma due gruppi
indipendenti (sono soggetti differenti)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 2 gruppi
indipendenti
Se il numero di osservazioni è superiore a 30, allora eseguo un
t-test
Se il numero di osservazioni è minore di 30, allora
Eseguo un test di normalità (e.g., Shapiro-Wilk)
Se la distribuzione è normale, allora
Eseguo un test sull’uguaglianza delle varianze (e.g.
variance-ratio test)
Se le varianze sono uguali e i due gruppi hanno la medesima
numerosità, allora eseguo un t-test
Altrimenti, eseguo un rank-sum test di Wilcoxon
Altrimenti, eseguo un rank-sum test di Wilcoxon
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 2 gruppi
dipendenti
Se il numero di osservazioni è superiore a 30, allora eseguo un
t-test per dati appaiati
Se il numero di osservazioni è minore di 30, allora
Eseguo un test di normalità (e.g., Shapiro-Wilk)
Se la distribuzione è normale, allora eseguo un t-test per dati
appaiati
Altrimenti, eseguo un signed-ranks test di Wilcoxon
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 3 o più gruppi
La domanda che devo pormi è ancora sulla
dipendenza/indipendenza dei tre o più gruppi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 3 o più gruppi
indipendenti
Eseguo un test di normalità (e.g., Shapiro-Wilk)
Se la distribuzione è normale, allora
Se il numero di fattori1 è unitario, allora eseguo una ANOVA a
1-dimensione
Altrimenti, eseguo una ANOVA generalizzata
1
Data la variabile sulla quale investighiamo la differenza – chiamata di risposta, per numero di fattori si
intende quante variabili sono da considersi fattori di influenza nella variabile di risposta.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili ordinali o numeriche - 3 o più gruppi
dipendenti
Eseguo un test di normalità (e.g., Shapiro-Wilk)
Se la distribuzione è normale, allora eseguo una ANOVA per
misure ripetute
Altrimenti, eseguo un test di Friedman
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili nominali
La domanda che ancora una volta devo pormi è sul numero di
gruppi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili nominali - 1 gruppo
Eseguo il test binomiale
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili nominali - 2 gruppi
Se i gruppi sono indipendenti
Se le frequenze sono tutte superiori a 5, allora eseguo il test
esatto di Fisher
Altrimenti, eseguo il test del χ2
Altrimenti, eseguo il χ2 di McNemar oppure il Kappa
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Differenza - Variabili nominali - 3 o più gruppi
Se i gruppi sono indipendenti
Se le frequenze sono tutte superiori a 5, allora eseguo il test
esatto di Fisher
Altrimenti, eseguo il test del χ2
Altrimenti, eseguo il test Q di Cochran
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Associazione
Per investigare circa l’esistenza di associazione fra due o più
variabili, il primo discriminante è proprio il numero di variabili
nelle quali cerco la presenza di associazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Associazione - 2 variabili
Se variabili nominali ⇒ rischio relativo
Se variabili ordinali ⇒ ρ di Spearman
Se variabili numeriche
Se esiste una variabile dipendente e una indipendente, allora
eseguo una regressione lineare
Altrimenti, eseguo una correlazione di Pearson
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Associazione - 2 o più variabili indipendenti
Se le variabili indipendenti sono due o più, allora il primo
discriminante è sul tipo delle variabili indipendenti, cioè se
tutte nominali, oppure se ne troviamo alcune numeriche
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Associazione - 2 o più variabili indipendenti nominali
Se la variabile dipendente è nominale, allora
Se abbiamo dei censored2 , allora eseguo il metodo di
Kaplan-Meier
Altrimenti
Se abbiamo una variabile di confondimento3 , allora eseguo il
test di Mantel-Haenszel
Altrimenti, eseguo l’analisi log-lineare
Altrimenti
Se abbiamo dei censored, allora eseguo il metodo di Cox
Altrimenti eseguo l’ANOVA
2
In questa situazione, ci troviamo di fronte ad una analisi della sopravvivenza, in cui i censored sono i soggetti
che perdiamo durante lo studio
3
Una variabile di confondimento è una variabile che può influenzare l’esistenza di una dipendenza: e.g. il peso
di un bambino e il reddito familiare sembrano essere in relazione. Una variabile di confondimento potrebbe essere
l’età del bambino.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Associazione - 2 o più variabili indipendenti nominali e
numeriche
Se la variabile dipendente è nominale, allora
Se il suo numero di valori è dicotomico, allora eseguo una
regressione logistica
Altrimenti eseguo l’analisi dei discriminanti
Altrimenti
Se abbiamo dei censored, allora eseguo il metodo di Cox
Altrimenti
Se abbiamo una variabile di confondimento, allora eseguo
l’ANCOVA
Altrimenti, eseguo una regressione multipla
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Introduzione a STATA
STATA è un pacchetto statistico per la manipolazione,
l’analisi e la resa in formato grafico di dati
STATA è disponibile per molte piattaforme, ed è usabile alla
stregua di una applicazione sia point-and-click che a linea di
comando
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Terminologia
Dataset: l’insieme di dati a mia disposizione
Soggetto: è ciò che mi propongo di studiare (e.g., un
paziente)
Variabile: è la rappresentazione di un fenomeno reale
appartente ai soggetti in esame (e.g., posso scegliere di
indicare con la variabile altezza il fenomeno corrispondente
all’altezza dei miei soggetti in cm)
Osservazione: è la misura di una o più variabili di un
determinato soggetto (e.g., una osservazione può valere
175cm per la variabile altezza riferita ad un certo soggetto)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La prima esecuzione di STATA
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Interagire con STATA
L’interazione con STATA avviene lanciando comandi
È possibile digitare i comandi, costruirli tramite l’interfaccia
grafica, oppure scriverli all’interno di un do-file
La prima opzione è da preferire per comandi semplici
La seconda opzione è da preferire per comandi complessi
La terza opzione è da preferire quando si deve elaborare più di
una volta un dataset
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Interagire con STATA (2)
L’output di una elaborazione può essere memorizzato
all’interno di un file di log
Un file di log
si apre,
si può sospendere/continuare,
quindi si chiude,
poi lo si può visualizzare (anche per farne un copia/incolla
verso un programma di wordprocessing), o eventualmente
convertire in altri formati.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Caricare/salvare i dati in Stata
In Stata è possibile caricare/salvare dati
dal suo formato nativo (.dta)
da una sorgente esterna (e.g., Excel)
Formato nativo
Caricare
Salvare
GUI
File → Open
File → Save
Prof. Pierpaolo Vittorini
Comando
use file.dta
save file.dta
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Caricare/salvare i dati in Stata (2)
Per caricare/salvare dati da una sorgente esterna in Stata è
possibile
usare Stat/Transfer
usare un formato di interscambio (e.g., CSV)
Formato di interscambio
per importare: File → Import → [Formato]
per esportare: File → Export → [Formato]
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Creazione di un dataset
Quando il trattamento che deve essere fatto ai dati è
esclusivamente statistico (i.e., non ci sono query da fare, etc.)
è vantaggioso creare il dataset direttamente dentro STATA
La creazione di un nuovo dataset procede secondo i seguenti
passi
Impostazione del numero di osservazioni
Creazione delle variabili
Aggiunta di eventuali etichette
Inserimento dei dati
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 1
Impostare il numero di osservazioni
set obs [numero]
dove
numero è il numero di osservazioni
Tale numero può essere modificato anche in seguito
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 2
Creare le variabili
gen [tipo] [nome] = [ini]
dove
tipo è il tipo della variabile (int, float, double, str1, ...,
str80)
nome è il nome della variabile
ini è il valore iniziale, oppure una espressione, a cui si vuole
porre tale variabile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3
Aggiungere etichette
Le etichette vengono usate, negli output, al posto del nome
della variabile
Etichettare il dataset
Etichettare le variabili
Creare eventuali associazioni simboliche sulle variabili (e.g.,
0=“Maschio” 1=“Femmina”)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3.1
Etichettare il dataset
label data [etichetta]
dove
etichetta è una stringa di caratteri (max 80)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3.2
Etichettare una variabile
label var [variabile] [etichetta]
dove
variabile è un nome di variabile
etichetta è una stringa di caratteri (max 80)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3.3
Una associazione simbolica permette di “mappare” un valore
numerico in una descrizione più esplicita
0=Maschio, 1=Femmina
0=Nord, 1=Centro, 2=Sud, 3=Isole
...
Il tipo della variabile non cambia
Creare associazioni simboliche su variabili
Creare l’associazione
Attaccare tale associazione alla variabile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3.3.1
Creare l’associazione
label define [nome] [lista]
dove
nome è un nome simbolico per l’associazione
lista è una lista di coppie valore/associazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 3.3.2
Attaccare tale associazione alla variabile
label values [variabile] [nome]
dove
variabile è un nome di variabile
nome è un nome simbolico per l’associazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Passo 4
Inserire fisicamente i dati
edit
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Sintassi dei comandi Stata
La sintassi generale di un comando STATA è la seguente
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Nella sua forma più semplice è il solo comando
Nella maggior parte dei casi si usa con la sola varlist
Nella forma più generale si arricchisce di opzioni, etc.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La lista di varibili (varlist)
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Una varlist è semplicemente una lista di variabili separate
dallo spazio
Ad esempio:
nome sesso altezza
Una varlist serve per indicare le variabili sulle quali deve
essere eseguita una determinata operazione
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Le opzioni
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
Le opzioni sono un elenco separato da spazi di istruzioni che
permettono di modificare l’esecuzione del comando
Variano da comando a comando
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola if
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola condizionale if [espr] permette di restringere il
campo di applicazione alle sole osservazioni per cui
l’espressione booleana espr è vera
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola in
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola condizionale in [min/max] permette di
restringere il campo di applicazione alle sole osservazioni
comprese fra i valori min e max
Gli estremi sono compresi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola by
[by varlist:] comando [varlist]
[=espr] [if espr] [in range]
[, opzioni]
La clausola by [var] permette di stratificare le analisi
statistiche secondo la variabile var
I dati devono essere prima ordinati prima di stratificare un
qualsiasi tipo di analisi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Il primo comando
Eseguiamo il comando verinst
Il comando va digitato in
basso
I comandi vengono
memorizzati in una lista
L’output appare in alto
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Il comando describe
Il comando describe fornisce delle informazioni aggiuntive
sulle variabili passate nella sua varlist
Carichiamo il dataset census12.dta
e lanciamo il comando describe sulla varlist state
marriage rate
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Il comando list
Il comando list elenca le osservazioni
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Il comando summarize
Il comando summarize serve per eseguire una statistica
descrittiva
Lanciamo il comando summarize marriage rate
divorce rate
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Le opzioni
Ciascun comando può prendere delle opzioni che permettono
di modificare l’esecuzione di un comando
Ad esempio:
Aggiungendo l’opzione detail al comando summarize, si
amplia l’analisi descrittiva
Vengono infatti forniti
I percentili
Gli indicatori di asimmetria e di curtosi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
Le opzioni (2)
Vogliamo vedere i dettagli dell’analisi sul tasso di matrimoni
Lanciamo il comando summarize marriage rate, detail
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola by
Analizziamo i tassi di matrimoni e divorzi, regione per regione:
bisogna anzitutto ordinare i dati: sort region
quindi si lancia il comando
by region: summarize marriage rate divorce rate
oppure in maniera compatta
bysort region: summarize marriage rate
divorce rate
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola by (2)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola if
Analizziamo i tassi di matrimoni e divorzi per la sola regione
“West”
summarize marriage rate divorce rate if
region==‘‘West’’
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Sintesi dei test statistici
Introduzione a Stata
Caricamento dati e creazione di un dataset
Sintassi generale e primi comandi
La clausola in
Analizziamo i tassi di matrimoni e divorzi per le osservazioni
dalla 5a alla 25ma
summarize marriage rate divorce rate in 5/25
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esaminare i dati
Diagrammi a barre
Istogrammi
Grafici two-way (X/Y)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Diagrammi a barre
Creazione del dataset (tab2-1.dta)
s e t obs 5
gen i n t c o r s o =0
gen i n t numero=0
l a b e l v a r i a b l e c o r s o ” Corso ”
l a b e l v a r i a b l e numero ”Numero d i s t u d e n t i ”
l a b e l d e f i n e a s s o c 1 ” S o c i o l o g i a ” 2 ” Economia ” 3 ” S t o r i a ” 4 ” P s i c o l o g i a ”
5 ” Aritmetica ”
label values corso assoc
edit
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Diagrammi a barre (2)
Generazione del grafico
0
10
Numero di studenti
20
30
40
g r a p h b a r numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i )
Sociologia
Economia
Prof. Pierpaolo Vittorini
Storia
STATA
Psicologia
Aritmetica
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Altre tipologie di grafico
Stata supporta molte tipologie di grafici:
Diagrammi a barre
Verticali - bar
Orizzontali - hbar
A punti - dot
Box - box
A torta - pie
Ciascun tipo di grafico puó essere creato invocando il comando
graph [ t i p o ] v a r i a b i l e , over ( v a r i a b i l e )
Prof. Pierpaolo Vittorini
...
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Vari tipi di grafico
Grafico a barre orizzontali
g r a p h h b a r numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i )
Sociologia
Economia
Storia
Psicologia
Aritmetica
0
10
Prof. Pierpaolo Vittorini
20
Numero di studenti
STATA
30
40
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Vari tipi di grafico (2)
Grafico a punti
g r a p h do t numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i )
Sociologia
Economia
Storia
Psicologia
Aritmetica
0
10
Prof. Pierpaolo Vittorini
20
Numero di studenti
STATA
30
40
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Vari tipi di grafico (3)
Grafico a torta
g r a p h p i e numero , o v e r ( c o r s o )
Sociologia
Storia
Aritmetica
Prof. Pierpaolo Vittorini
Economia
Psicologia
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Istogrammi
Un istogramma é un particolare diagramma a barre
Sulle ascisse va posizionata la variabile in esame, mentre
sulle ordinate viene posizionata la relativa frequenza
La variabile in esame viene raggruppata in classi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esempio
0
5
Frequenza
10
15
s e t obs 100
gen i n t numero=60∗ u n i f o r m ( )
l a b e l v a r i a b l e numero ”Numero”
h i s t o g r a m numero , w i d t h ( 5 ) s t a r t ( 0 ) y t i t l e ( F r e q u e n z a ) f r e q u e n c y
0
20
Prof. Pierpaolo Vittorini
Numero
STATA
40
60
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esempio
Per creare un istogramma delle frequenze relative con classi di
ampiezza pari a 4, sui dati creati precedentemente
0
Frequenza relativa
.01
.02
.03
h i s t o g r a m numero , w i d t h ( 4 ) s t a r t ( 0 ) y t i t l e ( F r e q u e n z a r e l a t i v a ) d e n s i t y
0
20
Prof. Pierpaolo Vittorini
Numero
STATA
40
60
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Grafici Two-Way
I grafici two-way sono la piú ampia famiglia di grafici
Un grafico twoway si crea invocando il comando
twoway ( t i p o
varlist , opzioni ) , opzioni
dove
tipo é il tipo di grafico (scatter, line, connected, lfitci, ...)
Usare help twoway per la lista di grafici
varlist é una lista di variabili (Y e X)
opzioni sono le eventuali opzioni
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esempi di grafici two-way
Carichiamo il dataset tab12-1.dta e lanciamo il comando
0
Cucina+Limousine+Abiti+Salute+Stipendio
20
40
60
twoway ( s c a t t e r CLASS s o g g e t t o )
0
5
Prof. Pierpaolo Vittorini
10
Soggetto
STATA
15
20
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Composizione di grafici two-way
é possibile comporre piú grafici twoway usando la sintassi
twoway ( g r a f i c o 1 ) ( g r a f i c o 2 )
...
( graficoN ) , opzioni
dove
grafico1, ..., graficoN sono i vari grafici
I grafici vengono disegnati nell’ordine
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esempi di grafici complessi
Carichiamo il dataset tab12-1.dta e lanciamo il comando
Cucina+Limousine+Abiti+Salute+Stipendio/Angolo Di Escursione
0
20
40
60
80
twoway ( s c a t t e r CLASS s o g g e t t o ) ( l i n e ADE s o g g e t t o )
0
5
10
Soggetto
Cucina+Limousine+Abiti+Salute+Stipendio
Prof. Pierpaolo Vittorini
STATA
15
20
Angolo Di Escursione
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Esempi di grafici complessi (2)
Carichiamo il dataset tab12-1.dta e lanciamo il comando
95% CI/Fitted values/Cucina+Limousine+Abiti+Salute+Stipendio
−20
0
20
40
60
twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE)
0
20
40
Angolo Di Escursione
95% CI
Cucina+Limousine+Abiti+Salute+Stipendio
Prof. Pierpaolo Vittorini
STATA
60
80
Fitted values
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Statistica descrittiva
Medie (aritmetica, geometrica, armonica)
Mediana e percentili
Indici di dispersione (deviazione standard, varianza, scarti)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Medie
Le medie aritmetica, geometrica, armonica possono essere
calcolate tramite il comando means
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Percentili e mediana
Il calcolo dei percentili viene fatta tramite il comando
c e n t i l e var , c e n t i l e ( v a l o r i )
dove
var é la variabile
valori é una lista, separata da spazio, dei percentili che
interessano
La mediana si calcola come il valore al 50mo percentile
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Percentili e mediana (2)
Ad esempio, invocando il comando
c e n t i l e n umeri , c e n t i l e ( 1 0 50 9 0 )
La mediana vale 48
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Indici di dispersione
Il piú noto indice di dispersione é la deviazione standard
Il calcolo di tale indice avviene invocando il comando
summarize v a r l i s t
Usando poi l’opzione detail, si aggiungono i valori di varianza,
di asimmetria (skewness), di curtosi (kurtosis), nonché alcuni
percentili
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Grafici
Statistica descrittiva
Indici di dispersione (2)
Ad esempio, invocando il comando
summarize numeri ,
detail
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Statistica inferenziale
La statistica inferenziale viene usata per quantificare la
probabilitá che una deduzione, basata sull’analisi dei dati
raccolti per un certo campione, sia vera
I test piú importanti sono
t-test
ANOVA a una dimensione
ANOVA fattoriale
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
T-test
Il t-test verifica l’uguaglianza dei valori medi fra due gruppi
In STATA dobbiamo avere due variabili numeriche, una che
identifica la variabile, e l’altra che identifica il gruppo
Ad esempio (tab7-1a.dta)
Parole
38
33
22
25
Prof. Pierpaolo Vittorini
Gruppo
...
0
0
1
1
...
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Esempio di t-test
Prendiamo l’esempio di tab7-1a.dta e facciamo fare a
STATA il test di Student
t t e s t p a r o l e , by ( g r u p p o )
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
T-test per dati appaiati
Il t-test per dati appaiati verifica l’uguaglianza dei valori medi
di due gruppi di eguale cardinalitá
In STATA dobbiamo creare due variabili per i due gruppi e
usare il comando
t t e s t g r u p p o 1==g r u p p o 2
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Esempio di t-test
Prendiamo l’esempio di tab7-1.dta e facciamo fare a STATA
il test per dati appaiati
t t e s t p a r t e c i p a n t i == c o n t r o l l i
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
ANOVA a una dimensione
Il t-test é limitato al confronto di soli due gruppi di uguale
cardinalitá
L’ANOVA (ANalisys Of VAriance) é in grado di estendere gli
stessi concetti del t-test a piú gruppi di cardinalitá anche
diversa
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Esempio
Consideriamo l’esempio in cui vogliamo capire se esiste una
differenza fra quattro marche di profilattici (tab8-1.dta)
Tali dati devono essere inseriti in STATA sotto forma di 40
osservazioni, usando una tabella del tipo
Tipo profilattico
1=Relax
1=Relax
...
4=Senza nome
4=Senza nome
Prof. Pierpaolo Vittorini
STATA
Voto
4
4
...
4
3
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Creazione del dataset
Vediamo i passi necessari alla creazione del dataset
s e t obs 40
gen i n t t i p o =0
gen i n t v o t o=0
l a b e l data ” Punteggi d i s o d d i s f a z i o n e ”
l a b e l d e f i n e a s s o c 1 ” R e l a x ” 2 ” S a n u e l ” 3 ” Toutou ” 4 ” Se n z a nome”
label values tipo assoc
label variable tipo ” Tipologia di prodotto ”
l a b e l v a r i a b l e v o t o ” Voto n e l l a s c a l a 0−10”
edit
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Come eseguire il test
Per l’esecuzione del test abbiamo a disposizione i due comandi
oneway - specifico per ANOVA a una dimensione
anova - analisi della varianza in generale
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
oneway
Eseguiamo il test usando il comando oneway
oneway v o t o t i p o
L’output di tale comando é
Come noto, l’ANOVA presuppone che le variabili provengano
da distribuzioni di ugual varianza: il test di Bartlett (ultima
riga) serve allo scopo
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Confronti post-hoc
Il comando oneway prende alcune opzioni che ci permettono
di confrontare due medie alla volta
L’opzione
bonferroni usa la correzione di Bonferroni
sidak usa il metodo di Sidak
scheffe usa il metodo di Scheffé (il piú conservativo)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Confronti post-hoc (2)
Ad esempio, con il metodo di Scheffé
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
ANOVA fattoriale
L’ANOVA fattoriale ci permette di prendere in considerazione
anche l’eventualitá di interazioni fra fattori
Dal caso precedente, prendiamo in considerazione il fattore:
esperto
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Punteggi di soddisfazione
Prendiamo in esame i punteggi (tab9-1.dta)
Esperto
Non esperto
Relax
Sanuel
Toutou
Senza nome
4
4
5
5
6
3
4
4
3
4
5
5
6
6
7
6
4
5
6
3
7
8
7
9
6
3
2
2
2
3
2
1
2
3
3
4
5
4
4
3
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
ANOVA fattoriale
Il comando anova ci permette di eseguire un ANOVA
fattoriale, chiedendoci se il tipo di prodotto (tipo) interagisca
(*) con l’esperienza (fattore)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione semplice
Scopo della regressione semplice é quello di verificare se esista
una relazione lineare fra due variabili (y = a · x + b)
Prendiamo in esame l’esempio delle due variabili CLASS e
ADE (tab12-1.dta)
Soggetto
1
2
3
4
5
...
20
Prof. Pierpaolo Vittorini
CLASS
5
8
13
15
22
...
47
STATA
ADE
58
47
43
38
35
...
17
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione semplice
Cerchiamo di capire se esista una relazione lineare che leghi la
variabile CLASS alla variabile ADE
Scopro cosı̀ che tale relazione esiste e che
ADE = −0.84 · CLASS + 56.76
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione semplice
Per farlo disegnare da STATA, ricorro ai grafici two-way
95% CI/Fitted values/Angolo Di Escursione
0
20
40
60
80
twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE)
0
20
40
Cucina+Limousine+Abiti+Salute+Stipendio
95% CI
Angolo Di Escursione
Prof. Pierpaolo Vittorini
STATA
Fitted values
60
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione multipla
La regressione multipla cerca di scoprire l’esistenza di una
relazione
P lineare tra una variabile ed n altre variabili
(y = i ai · xi + b)
Ad esempio, scomponiamo la variabile CLASS nelle variabili
C, L, A, S1, S2 e facciamo fare a STATA una regressione
multipla (tab13-0.dta)
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione multipla
Risultato dell’esecuzione
Le uniche variabili non significative nel modello sono la L e la
S2
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione multipla stepwise
La regressione stepwise analizza una variabile alla volta e la
inserisce o la esclude dal modello a seconda di certe
probabilitá scelte dall’utente
L’esecuzione di una regressione multipla stepwise si fa fare a
STATA
con il precomando sw
indicando le probabilitá richieste
pe - per entrare nel modello e
pr - per uscirne
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica inferenziale
Regressione
Regressione multipla stepwise
Regressione stepwise su tutte le variabili, con soglia di
ingresso = 0.05 e di uscita = 0.1
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Statistica non parametrica
Test di significativitá per frequenze di dati categorici (χ2 )
V di Cramer e Kappa di Cohen
Test di significativitá per dati trasformati in ranghi
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di significativitá
Prendiamo in esame l’esempio realmente accaduto relativo al
triptofano e alla sindrome eosinofilico-mialgica
Molti decessi, causa EMS, dopo l’assunzione di un integratore
a base di triptofano, causati da un inquinante proveniente dal
ciclo di lavorazione dalla ditta Showa Denko K.K.
Partiamo dai dati aggregati (tab16-1.dta)
Triptofano
No
Prof. Pierpaolo Vittorini
EMS
42
38
80
Normale
34
166
200
STATA
76
204
280
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Creazione del dataset
Costruiamo il dataset in STATA
Abbiamo 280 osservazioni
La variabile triptofano ha 76
valori pari a 0, e 204 pari a 1
La variabile ems ha 80 valori
pari a 0, e 200 pari a 1
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Tabella di contingenza
Per arrivare alla tabella di contingenza invochiamo il comando
tabulate
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test del χ2
Il test del χ2 ci permetterá di capire se c’é differenza fra chi
ha usato il triptofano e chi no
Per invocare il test possiamo seguire due strade
usare l’opzione chi2 al comando tabulate
considerare lo studio come del tipo caso/controllo
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test del χ2
Usando l’opzione chi2 al comando tabulate si ottiene
Il test é significativo
In alcuni casi é possibile usare il test estatto di Fisher con
l’opzione exact
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test del χ2
Considerando lo studio come del tipo caso/controllo
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Ancora sul χ2
Suddividendo i casi a seconda della ditta (tabella 16-3)
... e la ditta Showa Denko K.K. fu incriminata
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di significativitá
Ampliamo il caso precedente, e supponiamo che esita una
stratificazione, cioé la somministrazione di Gin-tonic, solo
tonica, o niente (tab16-10.dta)
Facciamo un test del chi-quadro complessivo
sembrerebbe non esserci associazione...
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di significativitá (2)
Investighiamo il primo strato
c’é associazione...
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di significativitá (3)
Investighiamo il secondo strato
anche qui...
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di significativitá (4)
Investighiamo il terzo strato
e anche qui.
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
χ2 di Mantel-Haenszel
La presenza o meno di associazione in una situazione
(caso/controllo) stratificata si investiga con il chi-quadro di
Mantel-Haenszel
L’associazione é quindi confermata
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
V di Cramer
La V di Cramer é una versione corretta del χ2
Per il calcolo della V di Cramer, si puó usare il comando
tabulate con l’opzione all
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kappa di Cohen
Il Kappa di Cohen K permette di verificare il grado di accordo
fra due osservatori
Nell’esempio di tab17-2.dta, usiamo l’opzione tab per farci
stampare la tabella di contingenza
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kappa di Cohen generalizzato
Il Kappa di Cohen puó essere esteso ai casi in cui il giudizio
non é dicotomico
Nell’esempio di tab17-4.dta
K non pesato
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kappa di Cohen generalizzato (2)
K con pesi di Cicchetti
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kappa di Cohen generalizzato (3)
K con pesi quadratici
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kappa di Cohen generalizzato (4)
K con pesi generici
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test per ranghi
I dati per i quali possono essere espressi dei valori di rango
vanno trattati diversamente dai dati categorici
Prendiamo in esame tab18-1.dta
Rango
1
2
...
20
Trattamento
BC
BC
...
SM
e vediamo come eseguire il test U di Mann-Whitney (alias
somma dei ranghi di Wilcoxon), cioé l’equivalente non
parametrico del t-test
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test U di Mann-Whitney
Il test U di Mann-Whitney si esegue in STATA con il comando
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di Kruskal-Wallis
Nel caso in cui dovessero aumentare i gruppi (e.g., le tipologie
di trattamento) si ricorre al test di Kruskal-Wallis
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di Wilcoxon con segno
Per misure ripetute
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Analisi della sopravvivenza
Prendiamo in esame i dati in tab20-1.dta
Censurato
H
I
J
Censurato
Perso
Deceduto
Censurato
Deceduto
D
Soggetto
E
F
G
Perso
C
Deceduto
B
Perso
A
Deceduto
2
4
6
Permanenza nello studio (anni)
8
10
Calcoliamo le tavole di sopravvivenza tecniche secondo
l’approccio attuariale
l’approccio di Kaplan-Meier
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Approccio attuariale
La tavola di sopravvivenza tecnica secondo l’approccio
attuariale
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Kaplan-Meier
La tavola di sopravvivenza tecnica secondo Kaplan-Meier
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Curve di sopravvivenza
La curva di sopravvivenza si ottiene con il comando
s t s graph
0.00
Probabilità di sopravvivere
0.25
0.50
0.75
1.00
Curva di sopravvivenza
0
2
4
6
Numero di anni
Prof. Pierpaolo Vittorini
STATA
8
10
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Confronto di due (o più) gruppi
In una analisi di sopravvivenza avviene molto di frequente di
confrontare due (o più gruppi)
Prendiamo in considerazione l’esempio di tab20-6.dta
Prof. Pierpaolo Vittorini
STATA
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Curve di sopravvivenza per gruppi
Analogamente al caso precedente, è necessario
prima generare la tabella di sopravvivenza con il comando
stset
poi graficare i dati con il comando sts graph, by(gruppo)
0.00
0.25
0.50
0.75
1.00
Curve di sopravvivenza
0
2
4
analysis time
gruppo = Esposti
Prof. Pierpaolo Vittorini
6
8
gruppo = Controlli
STATA
10
Introduzione
Grafici e statistica descrittiva
Statistica inferenziale
Statistica avanzata
Statistica non parametrica
Analisi della sopravvivenza
Test di Mantel-Cox
Dall’analisi grafica precedente, sembrano emergere delle
differenze fra il gruppo sperimentale e i controlli
Il χ2 di Mantel-Cox ci da una risposta
Prof. Pierpaolo Vittorini
STATA
Fly UP