Comments
Description
Transcript
STATA - Facoltà di Medicina e Chirurgia
Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata STATA e la BIOSTATISTICA di Norman - Streiner Prof. Pierpaolo Vittorini [email protected] Università degli Studi dell’Aquila Facoltà di Medicina e Chirurgia 14 febbraio 2013 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Contenuti e obiettivi Breve riassunto “applicativo” dei test statistici Gestione dei dati in STATA Sintassi generale Comandi principali Creazione di un dataset in STATA Grafici Statistica descrittiva Statistica inferenziale Regressione Cenni di statistica non parametrica Cenni sull’analisi della sopravvivenza Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Concetti preliminari Tipi di variabili Numerica Una variabile numerica è generalmente una misura che può assumere un valore nel dominio dei numeri reali (e.g., l’età, il peso, il livello di colesterolo, etc.) Ordinale Una variabile ordinale è una variabile che presenta differenti livelli di codifica con un preciso ordine fra i livelli (e.g., il livello di scolarità) Nominale Una variabile nominale è una variabile che presenta differenti livelli di codifica senza un preciso ordine fra i livelli (e.g., il sesso) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Concetti preliminari (2) Domande dell’analisi statistica Statistica descrittiva Tendenza centrale: qual è il valore che descrive la tendenza della mia variabile? Dispersione: quanto sono concentrati intorno al valore di tendenza centrale le mie osservazioni? Statistica inferenziale Differenza: c’è differenza fra le osservazioni? Associazione: c’è associazione fra variabili? Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Tendenza centrale Per variabili numeriche ⇒ media Per variabili ordinali ⇒ mediana Per variabili nominali ⇒ moda Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Dispersione Per variabili numeriche ⇒ varianza o s.q.m. Per variabili ordinali ⇒ range (max-min) Per variabili nominali ⇒ numero di categorie Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza Per testare l’ipotesi che esistano differenze fra le mie osservazioni, il primo discriminante è sul tipo di variabile Se le osservazioni provengono da variabili ordinali o numeriche, Oppure se provengono da variabili nominali Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche La prima domanda che devo pormi è sul numero di gruppi che ho all’interno delle mie osservazioni Se ho dei pazienti e voglio confrontarne il livello di colesterolo con la media nazionale, allora ho un solo gruppo Se ho dei pazienti e voglio confrontare il livello di colesterolo dei maschi rispetto a quello delle femmine, allora ho due gruppi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 1 gruppo Se il numero di osservazioni è superiore a 30, allora eseguo un t-test Se il numero di osservazioni è minore di 30, allora Eseguo un test di normalità (e.g., Shapiro-Wilk) Se la distribuzione è normale, allora eseguo un t-test Altrimenti, eseguo un sign-test Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 2 gruppi La domanda che devo pormi è sulla dipendenza/indipendenza dei due gruppi Due gruppi sono indipendenti se le osservazioni sono prese da soggetti tra di loro indipendenti Il peso di un soggetto preso prima e dopo una cura dimagrante forma due gruppi dipendenti (lo stesso soggetto) Il livello di colesterolo fra maschi e femmine forma due gruppi indipendenti (sono soggetti differenti) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 2 gruppi indipendenti Se il numero di osservazioni è superiore a 30, allora eseguo un t-test Se il numero di osservazioni è minore di 30, allora Eseguo un test di normalità (e.g., Shapiro-Wilk) Se la distribuzione è normale, allora Eseguo un test sull’uguaglianza delle varianze (e.g. variance-ratio test) Se le varianze sono uguali e i due gruppi hanno la medesima numerosità, allora eseguo un t-test Altrimenti, eseguo un rank-sum test di Wilcoxon Altrimenti, eseguo un rank-sum test di Wilcoxon Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 2 gruppi dipendenti Se il numero di osservazioni è superiore a 30, allora eseguo un t-test per dati appaiati Se il numero di osservazioni è minore di 30, allora Eseguo un test di normalità (e.g., Shapiro-Wilk) Se la distribuzione è normale, allora eseguo un t-test per dati appaiati Altrimenti, eseguo un signed-ranks test di Wilcoxon Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 3 o più gruppi La domanda che devo pormi è ancora sulla dipendenza/indipendenza dei tre o più gruppi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 3 o più gruppi indipendenti Eseguo un test di normalità (e.g., Shapiro-Wilk) Se la distribuzione è normale, allora Se il numero di fattori1 è unitario, allora eseguo una ANOVA a 1-dimensione Altrimenti, eseguo una ANOVA generalizzata 1 Data la variabile sulla quale investighiamo la differenza – chiamata di risposta, per numero di fattori si intende quante variabili sono da considersi fattori di influenza nella variabile di risposta. Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili ordinali o numeriche - 3 o più gruppi dipendenti Eseguo un test di normalità (e.g., Shapiro-Wilk) Se la distribuzione è normale, allora eseguo una ANOVA per misure ripetute Altrimenti, eseguo un test di Friedman Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili nominali La domanda che ancora una volta devo pormi è sul numero di gruppi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili nominali - 1 gruppo Eseguo il test binomiale Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili nominali - 2 gruppi Se i gruppi sono indipendenti Se le frequenze sono tutte superiori a 5, allora eseguo il test esatto di Fisher Altrimenti, eseguo il test del χ2 Altrimenti, eseguo il χ2 di McNemar oppure il Kappa Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Differenza - Variabili nominali - 3 o più gruppi Se i gruppi sono indipendenti Se le frequenze sono tutte superiori a 5, allora eseguo il test esatto di Fisher Altrimenti, eseguo il test del χ2 Altrimenti, eseguo il test Q di Cochran Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Associazione Per investigare circa l’esistenza di associazione fra due o più variabili, il primo discriminante è proprio il numero di variabili nelle quali cerco la presenza di associazione Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Associazione - 2 variabili Se variabili nominali ⇒ rischio relativo Se variabili ordinali ⇒ ρ di Spearman Se variabili numeriche Se esiste una variabile dipendente e una indipendente, allora eseguo una regressione lineare Altrimenti, eseguo una correlazione di Pearson Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Associazione - 2 o più variabili indipendenti Se le variabili indipendenti sono due o più, allora il primo discriminante è sul tipo delle variabili indipendenti, cioè se tutte nominali, oppure se ne troviamo alcune numeriche Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Associazione - 2 o più variabili indipendenti nominali Se la variabile dipendente è nominale, allora Se abbiamo dei censored2 , allora eseguo il metodo di Kaplan-Meier Altrimenti Se abbiamo una variabile di confondimento3 , allora eseguo il test di Mantel-Haenszel Altrimenti, eseguo l’analisi log-lineare Altrimenti Se abbiamo dei censored, allora eseguo il metodo di Cox Altrimenti eseguo l’ANOVA 2 In questa situazione, ci troviamo di fronte ad una analisi della sopravvivenza, in cui i censored sono i soggetti che perdiamo durante lo studio 3 Una variabile di confondimento è una variabile che può influenzare l’esistenza di una dipendenza: e.g. il peso di un bambino e il reddito familiare sembrano essere in relazione. Una variabile di confondimento potrebbe essere l’età del bambino. Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Associazione - 2 o più variabili indipendenti nominali e numeriche Se la variabile dipendente è nominale, allora Se il suo numero di valori è dicotomico, allora eseguo una regressione logistica Altrimenti eseguo l’analisi dei discriminanti Altrimenti Se abbiamo dei censored, allora eseguo il metodo di Cox Altrimenti Se abbiamo una variabile di confondimento, allora eseguo l’ANCOVA Altrimenti, eseguo una regressione multipla Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Introduzione a STATA STATA è un pacchetto statistico per la manipolazione, l’analisi e la resa in formato grafico di dati STATA è disponibile per molte piattaforme, ed è usabile alla stregua di una applicazione sia point-and-click che a linea di comando Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Terminologia Dataset: l’insieme di dati a mia disposizione Soggetto: è ciò che mi propongo di studiare (e.g., un paziente) Variabile: è la rappresentazione di un fenomeno reale appartente ai soggetti in esame (e.g., posso scegliere di indicare con la variabile altezza il fenomeno corrispondente all’altezza dei miei soggetti in cm) Osservazione: è la misura di una o più variabili di un determinato soggetto (e.g., una osservazione può valere 175cm per la variabile altezza riferita ad un certo soggetto) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La prima esecuzione di STATA Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Interagire con STATA L’interazione con STATA avviene lanciando comandi È possibile digitare i comandi, costruirli tramite l’interfaccia grafica, oppure scriverli all’interno di un do-file La prima opzione è da preferire per comandi semplici La seconda opzione è da preferire per comandi complessi La terza opzione è da preferire quando si deve elaborare più di una volta un dataset Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Interagire con STATA (2) L’output di una elaborazione può essere memorizzato all’interno di un file di log Un file di log si apre, si può sospendere/continuare, quindi si chiude, poi lo si può visualizzare (anche per farne un copia/incolla verso un programma di wordprocessing), o eventualmente convertire in altri formati. Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Caricare/salvare i dati in Stata In Stata è possibile caricare/salvare dati dal suo formato nativo (.dta) da una sorgente esterna (e.g., Excel) Formato nativo Caricare Salvare GUI File → Open File → Save Prof. Pierpaolo Vittorini Comando use file.dta save file.dta STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Caricare/salvare i dati in Stata (2) Per caricare/salvare dati da una sorgente esterna in Stata è possibile usare Stat/Transfer usare un formato di interscambio (e.g., CSV) Formato di interscambio per importare: File → Import → [Formato] per esportare: File → Export → [Formato] Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Creazione di un dataset Quando il trattamento che deve essere fatto ai dati è esclusivamente statistico (i.e., non ci sono query da fare, etc.) è vantaggioso creare il dataset direttamente dentro STATA La creazione di un nuovo dataset procede secondo i seguenti passi Impostazione del numero di osservazioni Creazione delle variabili Aggiunta di eventuali etichette Inserimento dei dati Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 1 Impostare il numero di osservazioni set obs [numero] dove numero è il numero di osservazioni Tale numero può essere modificato anche in seguito Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 2 Creare le variabili gen [tipo] [nome] = [ini] dove tipo è il tipo della variabile (int, float, double, str1, ..., str80) nome è il nome della variabile ini è il valore iniziale, oppure una espressione, a cui si vuole porre tale variabile Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3 Aggiungere etichette Le etichette vengono usate, negli output, al posto del nome della variabile Etichettare il dataset Etichettare le variabili Creare eventuali associazioni simboliche sulle variabili (e.g., 0=“Maschio” 1=“Femmina”) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3.1 Etichettare il dataset label data [etichetta] dove etichetta è una stringa di caratteri (max 80) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3.2 Etichettare una variabile label var [variabile] [etichetta] dove variabile è un nome di variabile etichetta è una stringa di caratteri (max 80) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3.3 Una associazione simbolica permette di “mappare” un valore numerico in una descrizione più esplicita 0=Maschio, 1=Femmina 0=Nord, 1=Centro, 2=Sud, 3=Isole ... Il tipo della variabile non cambia Creare associazioni simboliche su variabili Creare l’associazione Attaccare tale associazione alla variabile Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3.3.1 Creare l’associazione label define [nome] [lista] dove nome è un nome simbolico per l’associazione lista è una lista di coppie valore/associazione Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 3.3.2 Attaccare tale associazione alla variabile label values [variabile] [nome] dove variabile è un nome di variabile nome è un nome simbolico per l’associazione Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Passo 4 Inserire fisicamente i dati edit Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Sintassi dei comandi Stata La sintassi generale di un comando STATA è la seguente [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Nella sua forma più semplice è il solo comando Nella maggior parte dei casi si usa con la sola varlist Nella forma più generale si arricchisce di opzioni, etc. Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La lista di varibili (varlist) [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Una varlist è semplicemente una lista di variabili separate dallo spazio Ad esempio: nome sesso altezza Una varlist serve per indicare le variabili sulle quali deve essere eseguita una determinata operazione Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Le opzioni [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] Le opzioni sono un elenco separato da spazi di istruzioni che permettono di modificare l’esecuzione del comando Variano da comando a comando Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola if [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola condizionale if [espr] permette di restringere il campo di applicazione alle sole osservazioni per cui l’espressione booleana espr è vera Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola in [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola condizionale in [min/max] permette di restringere il campo di applicazione alle sole osservazioni comprese fra i valori min e max Gli estremi sono compresi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola by [by varlist:] comando [varlist] [=espr] [if espr] [in range] [, opzioni] La clausola by [var] permette di stratificare le analisi statistiche secondo la variabile var I dati devono essere prima ordinati prima di stratificare un qualsiasi tipo di analisi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Il primo comando Eseguiamo il comando verinst Il comando va digitato in basso I comandi vengono memorizzati in una lista L’output appare in alto Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Il comando describe Il comando describe fornisce delle informazioni aggiuntive sulle variabili passate nella sua varlist Carichiamo il dataset census12.dta e lanciamo il comando describe sulla varlist state marriage rate Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Il comando list Il comando list elenca le osservazioni Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Il comando summarize Il comando summarize serve per eseguire una statistica descrittiva Lanciamo il comando summarize marriage rate divorce rate Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Le opzioni Ciascun comando può prendere delle opzioni che permettono di modificare l’esecuzione di un comando Ad esempio: Aggiungendo l’opzione detail al comando summarize, si amplia l’analisi descrittiva Vengono infatti forniti I percentili Gli indicatori di asimmetria e di curtosi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi Le opzioni (2) Vogliamo vedere i dettagli dell’analisi sul tasso di matrimoni Lanciamo il comando summarize marriage rate, detail Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola by Analizziamo i tassi di matrimoni e divorzi, regione per regione: bisogna anzitutto ordinare i dati: sort region quindi si lancia il comando by region: summarize marriage rate divorce rate oppure in maniera compatta bysort region: summarize marriage rate divorce rate Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola by (2) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola if Analizziamo i tassi di matrimoni e divorzi per la sola regione “West” summarize marriage rate divorce rate if region==‘‘West’’ Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Sintesi dei test statistici Introduzione a Stata Caricamento dati e creazione di un dataset Sintassi generale e primi comandi La clausola in Analizziamo i tassi di matrimoni e divorzi per le osservazioni dalla 5a alla 25ma summarize marriage rate divorce rate in 5/25 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esaminare i dati Diagrammi a barre Istogrammi Grafici two-way (X/Y) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Diagrammi a barre Creazione del dataset (tab2-1.dta) s e t obs 5 gen i n t c o r s o =0 gen i n t numero=0 l a b e l v a r i a b l e c o r s o ” Corso ” l a b e l v a r i a b l e numero ”Numero d i s t u d e n t i ” l a b e l d e f i n e a s s o c 1 ” S o c i o l o g i a ” 2 ” Economia ” 3 ” S t o r i a ” 4 ” P s i c o l o g i a ” 5 ” Aritmetica ” label values corso assoc edit Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Diagrammi a barre (2) Generazione del grafico 0 10 Numero di studenti 20 30 40 g r a p h b a r numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i ) Sociologia Economia Prof. Pierpaolo Vittorini Storia STATA Psicologia Aritmetica Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Altre tipologie di grafico Stata supporta molte tipologie di grafici: Diagrammi a barre Verticali - bar Orizzontali - hbar A punti - dot Box - box A torta - pie Ciascun tipo di grafico puó essere creato invocando il comando graph [ t i p o ] v a r i a b i l e , over ( v a r i a b i l e ) Prof. Pierpaolo Vittorini ... STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Vari tipi di grafico Grafico a barre orizzontali g r a p h h b a r numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i ) Sociologia Economia Storia Psicologia Aritmetica 0 10 Prof. Pierpaolo Vittorini 20 Numero di studenti STATA 30 40 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Vari tipi di grafico (2) Grafico a punti g r a p h do t numero , o v e r ( c o r s o ) y t i t l e ( Numero d i s t u d e n t i ) Sociologia Economia Storia Psicologia Aritmetica 0 10 Prof. Pierpaolo Vittorini 20 Numero di studenti STATA 30 40 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Vari tipi di grafico (3) Grafico a torta g r a p h p i e numero , o v e r ( c o r s o ) Sociologia Storia Aritmetica Prof. Pierpaolo Vittorini Economia Psicologia STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Istogrammi Un istogramma é un particolare diagramma a barre Sulle ascisse va posizionata la variabile in esame, mentre sulle ordinate viene posizionata la relativa frequenza La variabile in esame viene raggruppata in classi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esempio 0 5 Frequenza 10 15 s e t obs 100 gen i n t numero=60∗ u n i f o r m ( ) l a b e l v a r i a b l e numero ”Numero” h i s t o g r a m numero , w i d t h ( 5 ) s t a r t ( 0 ) y t i t l e ( F r e q u e n z a ) f r e q u e n c y 0 20 Prof. Pierpaolo Vittorini Numero STATA 40 60 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esempio Per creare un istogramma delle frequenze relative con classi di ampiezza pari a 4, sui dati creati precedentemente 0 Frequenza relativa .01 .02 .03 h i s t o g r a m numero , w i d t h ( 4 ) s t a r t ( 0 ) y t i t l e ( F r e q u e n z a r e l a t i v a ) d e n s i t y 0 20 Prof. Pierpaolo Vittorini Numero STATA 40 60 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Grafici Two-Way I grafici two-way sono la piú ampia famiglia di grafici Un grafico twoway si crea invocando il comando twoway ( t i p o varlist , opzioni ) , opzioni dove tipo é il tipo di grafico (scatter, line, connected, lfitci, ...) Usare help twoway per la lista di grafici varlist é una lista di variabili (Y e X) opzioni sono le eventuali opzioni Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esempi di grafici two-way Carichiamo il dataset tab12-1.dta e lanciamo il comando 0 Cucina+Limousine+Abiti+Salute+Stipendio 20 40 60 twoway ( s c a t t e r CLASS s o g g e t t o ) 0 5 Prof. Pierpaolo Vittorini 10 Soggetto STATA 15 20 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Composizione di grafici two-way é possibile comporre piú grafici twoway usando la sintassi twoway ( g r a f i c o 1 ) ( g r a f i c o 2 ) ... ( graficoN ) , opzioni dove grafico1, ..., graficoN sono i vari grafici I grafici vengono disegnati nell’ordine Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esempi di grafici complessi Carichiamo il dataset tab12-1.dta e lanciamo il comando Cucina+Limousine+Abiti+Salute+Stipendio/Angolo Di Escursione 0 20 40 60 80 twoway ( s c a t t e r CLASS s o g g e t t o ) ( l i n e ADE s o g g e t t o ) 0 5 10 Soggetto Cucina+Limousine+Abiti+Salute+Stipendio Prof. Pierpaolo Vittorini STATA 15 20 Angolo Di Escursione Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Esempi di grafici complessi (2) Carichiamo il dataset tab12-1.dta e lanciamo il comando 95% CI/Fitted values/Cucina+Limousine+Abiti+Salute+Stipendio −20 0 20 40 60 twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE) 0 20 40 Angolo Di Escursione 95% CI Cucina+Limousine+Abiti+Salute+Stipendio Prof. Pierpaolo Vittorini STATA 60 80 Fitted values Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Statistica descrittiva Medie (aritmetica, geometrica, armonica) Mediana e percentili Indici di dispersione (deviazione standard, varianza, scarti) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Medie Le medie aritmetica, geometrica, armonica possono essere calcolate tramite il comando means Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Percentili e mediana Il calcolo dei percentili viene fatta tramite il comando c e n t i l e var , c e n t i l e ( v a l o r i ) dove var é la variabile valori é una lista, separata da spazio, dei percentili che interessano La mediana si calcola come il valore al 50mo percentile Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Percentili e mediana (2) Ad esempio, invocando il comando c e n t i l e n umeri , c e n t i l e ( 1 0 50 9 0 ) La mediana vale 48 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Indici di dispersione Il piú noto indice di dispersione é la deviazione standard Il calcolo di tale indice avviene invocando il comando summarize v a r l i s t Usando poi l’opzione detail, si aggiungono i valori di varianza, di asimmetria (skewness), di curtosi (kurtosis), nonché alcuni percentili Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Grafici Statistica descrittiva Indici di dispersione (2) Ad esempio, invocando il comando summarize numeri , detail Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Statistica inferenziale La statistica inferenziale viene usata per quantificare la probabilitá che una deduzione, basata sull’analisi dei dati raccolti per un certo campione, sia vera I test piú importanti sono t-test ANOVA a una dimensione ANOVA fattoriale Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione T-test Il t-test verifica l’uguaglianza dei valori medi fra due gruppi In STATA dobbiamo avere due variabili numeriche, una che identifica la variabile, e l’altra che identifica il gruppo Ad esempio (tab7-1a.dta) Parole 38 33 22 25 Prof. Pierpaolo Vittorini Gruppo ... 0 0 1 1 ... STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Esempio di t-test Prendiamo l’esempio di tab7-1a.dta e facciamo fare a STATA il test di Student t t e s t p a r o l e , by ( g r u p p o ) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione T-test per dati appaiati Il t-test per dati appaiati verifica l’uguaglianza dei valori medi di due gruppi di eguale cardinalitá In STATA dobbiamo creare due variabili per i due gruppi e usare il comando t t e s t g r u p p o 1==g r u p p o 2 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Esempio di t-test Prendiamo l’esempio di tab7-1.dta e facciamo fare a STATA il test per dati appaiati t t e s t p a r t e c i p a n t i == c o n t r o l l i Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione ANOVA a una dimensione Il t-test é limitato al confronto di soli due gruppi di uguale cardinalitá L’ANOVA (ANalisys Of VAriance) é in grado di estendere gli stessi concetti del t-test a piú gruppi di cardinalitá anche diversa Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Esempio Consideriamo l’esempio in cui vogliamo capire se esiste una differenza fra quattro marche di profilattici (tab8-1.dta) Tali dati devono essere inseriti in STATA sotto forma di 40 osservazioni, usando una tabella del tipo Tipo profilattico 1=Relax 1=Relax ... 4=Senza nome 4=Senza nome Prof. Pierpaolo Vittorini STATA Voto 4 4 ... 4 3 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Creazione del dataset Vediamo i passi necessari alla creazione del dataset s e t obs 40 gen i n t t i p o =0 gen i n t v o t o=0 l a b e l data ” Punteggi d i s o d d i s f a z i o n e ” l a b e l d e f i n e a s s o c 1 ” R e l a x ” 2 ” S a n u e l ” 3 ” Toutou ” 4 ” Se n z a nome” label values tipo assoc label variable tipo ” Tipologia di prodotto ” l a b e l v a r i a b l e v o t o ” Voto n e l l a s c a l a 0−10” edit Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Come eseguire il test Per l’esecuzione del test abbiamo a disposizione i due comandi oneway - specifico per ANOVA a una dimensione anova - analisi della varianza in generale Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione oneway Eseguiamo il test usando il comando oneway oneway v o t o t i p o L’output di tale comando é Come noto, l’ANOVA presuppone che le variabili provengano da distribuzioni di ugual varianza: il test di Bartlett (ultima riga) serve allo scopo Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Confronti post-hoc Il comando oneway prende alcune opzioni che ci permettono di confrontare due medie alla volta L’opzione bonferroni usa la correzione di Bonferroni sidak usa il metodo di Sidak scheffe usa il metodo di Scheffé (il piú conservativo) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Confronti post-hoc (2) Ad esempio, con il metodo di Scheffé Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione ANOVA fattoriale L’ANOVA fattoriale ci permette di prendere in considerazione anche l’eventualitá di interazioni fra fattori Dal caso precedente, prendiamo in considerazione il fattore: esperto Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Punteggi di soddisfazione Prendiamo in esame i punteggi (tab9-1.dta) Esperto Non esperto Relax Sanuel Toutou Senza nome 4 4 5 5 6 3 4 4 3 4 5 5 6 6 7 6 4 5 6 3 7 8 7 9 6 3 2 2 2 3 2 1 2 3 3 4 5 4 4 3 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione ANOVA fattoriale Il comando anova ci permette di eseguire un ANOVA fattoriale, chiedendoci se il tipo di prodotto (tipo) interagisca (*) con l’esperienza (fattore) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione semplice Scopo della regressione semplice é quello di verificare se esista una relazione lineare fra due variabili (y = a · x + b) Prendiamo in esame l’esempio delle due variabili CLASS e ADE (tab12-1.dta) Soggetto 1 2 3 4 5 ... 20 Prof. Pierpaolo Vittorini CLASS 5 8 13 15 22 ... 47 STATA ADE 58 47 43 38 35 ... 17 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione semplice Cerchiamo di capire se esista una relazione lineare che leghi la variabile CLASS alla variabile ADE Scopro cosı̀ che tale relazione esiste e che ADE = −0.84 · CLASS + 56.76 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione semplice Per farlo disegnare da STATA, ricorro ai grafici two-way 95% CI/Fitted values/Angolo Di Escursione 0 20 40 60 80 twoway ( l f i t c i CLASS ADE) ( s c a t t e r CLASS ADE) 0 20 40 Cucina+Limousine+Abiti+Salute+Stipendio 95% CI Angolo Di Escursione Prof. Pierpaolo Vittorini STATA Fitted values 60 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione multipla La regressione multipla cerca di scoprire l’esistenza di una relazione P lineare tra una variabile ed n altre variabili (y = i ai · xi + b) Ad esempio, scomponiamo la variabile CLASS nelle variabili C, L, A, S1, S2 e facciamo fare a STATA una regressione multipla (tab13-0.dta) Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione multipla Risultato dell’esecuzione Le uniche variabili non significative nel modello sono la L e la S2 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione multipla stepwise La regressione stepwise analizza una variabile alla volta e la inserisce o la esclude dal modello a seconda di certe probabilitá scelte dall’utente L’esecuzione di una regressione multipla stepwise si fa fare a STATA con il precomando sw indicando le probabilitá richieste pe - per entrare nel modello e pr - per uscirne Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica inferenziale Regressione Regressione multipla stepwise Regressione stepwise su tutte le variabili, con soglia di ingresso = 0.05 e di uscita = 0.1 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Statistica non parametrica Test di significativitá per frequenze di dati categorici (χ2 ) V di Cramer e Kappa di Cohen Test di significativitá per dati trasformati in ranghi Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di significativitá Prendiamo in esame l’esempio realmente accaduto relativo al triptofano e alla sindrome eosinofilico-mialgica Molti decessi, causa EMS, dopo l’assunzione di un integratore a base di triptofano, causati da un inquinante proveniente dal ciclo di lavorazione dalla ditta Showa Denko K.K. Partiamo dai dati aggregati (tab16-1.dta) Triptofano No Prof. Pierpaolo Vittorini EMS 42 38 80 Normale 34 166 200 STATA 76 204 280 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Creazione del dataset Costruiamo il dataset in STATA Abbiamo 280 osservazioni La variabile triptofano ha 76 valori pari a 0, e 204 pari a 1 La variabile ems ha 80 valori pari a 0, e 200 pari a 1 Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Tabella di contingenza Per arrivare alla tabella di contingenza invochiamo il comando tabulate Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test del χ2 Il test del χ2 ci permetterá di capire se c’é differenza fra chi ha usato il triptofano e chi no Per invocare il test possiamo seguire due strade usare l’opzione chi2 al comando tabulate considerare lo studio come del tipo caso/controllo Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test del χ2 Usando l’opzione chi2 al comando tabulate si ottiene Il test é significativo In alcuni casi é possibile usare il test estatto di Fisher con l’opzione exact Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test del χ2 Considerando lo studio come del tipo caso/controllo Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Ancora sul χ2 Suddividendo i casi a seconda della ditta (tabella 16-3) ... e la ditta Showa Denko K.K. fu incriminata Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di significativitá Ampliamo il caso precedente, e supponiamo che esita una stratificazione, cioé la somministrazione di Gin-tonic, solo tonica, o niente (tab16-10.dta) Facciamo un test del chi-quadro complessivo sembrerebbe non esserci associazione... Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di significativitá (2) Investighiamo il primo strato c’é associazione... Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di significativitá (3) Investighiamo il secondo strato anche qui... Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di significativitá (4) Investighiamo il terzo strato e anche qui. Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza χ2 di Mantel-Haenszel La presenza o meno di associazione in una situazione (caso/controllo) stratificata si investiga con il chi-quadro di Mantel-Haenszel L’associazione é quindi confermata Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza V di Cramer La V di Cramer é una versione corretta del χ2 Per il calcolo della V di Cramer, si puó usare il comando tabulate con l’opzione all Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kappa di Cohen Il Kappa di Cohen K permette di verificare il grado di accordo fra due osservatori Nell’esempio di tab17-2.dta, usiamo l’opzione tab per farci stampare la tabella di contingenza Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kappa di Cohen generalizzato Il Kappa di Cohen puó essere esteso ai casi in cui il giudizio non é dicotomico Nell’esempio di tab17-4.dta K non pesato Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kappa di Cohen generalizzato (2) K con pesi di Cicchetti Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kappa di Cohen generalizzato (3) K con pesi quadratici Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kappa di Cohen generalizzato (4) K con pesi generici Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test per ranghi I dati per i quali possono essere espressi dei valori di rango vanno trattati diversamente dai dati categorici Prendiamo in esame tab18-1.dta Rango 1 2 ... 20 Trattamento BC BC ... SM e vediamo come eseguire il test U di Mann-Whitney (alias somma dei ranghi di Wilcoxon), cioé l’equivalente non parametrico del t-test Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test U di Mann-Whitney Il test U di Mann-Whitney si esegue in STATA con il comando Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di Kruskal-Wallis Nel caso in cui dovessero aumentare i gruppi (e.g., le tipologie di trattamento) si ricorre al test di Kruskal-Wallis Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di Wilcoxon con segno Per misure ripetute Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Analisi della sopravvivenza Prendiamo in esame i dati in tab20-1.dta Censurato H I J Censurato Perso Deceduto Censurato Deceduto D Soggetto E F G Perso C Deceduto B Perso A Deceduto 2 4 6 Permanenza nello studio (anni) 8 10 Calcoliamo le tavole di sopravvivenza tecniche secondo l’approccio attuariale l’approccio di Kaplan-Meier Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Approccio attuariale La tavola di sopravvivenza tecnica secondo l’approccio attuariale Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Kaplan-Meier La tavola di sopravvivenza tecnica secondo Kaplan-Meier Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Curve di sopravvivenza La curva di sopravvivenza si ottiene con il comando s t s graph 0.00 Probabilità di sopravvivere 0.25 0.50 0.75 1.00 Curva di sopravvivenza 0 2 4 6 Numero di anni Prof. Pierpaolo Vittorini STATA 8 10 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Confronto di due (o più) gruppi In una analisi di sopravvivenza avviene molto di frequente di confrontare due (o più gruppi) Prendiamo in considerazione l’esempio di tab20-6.dta Prof. Pierpaolo Vittorini STATA Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Curve di sopravvivenza per gruppi Analogamente al caso precedente, è necessario prima generare la tabella di sopravvivenza con il comando stset poi graficare i dati con il comando sts graph, by(gruppo) 0.00 0.25 0.50 0.75 1.00 Curve di sopravvivenza 0 2 4 analysis time gruppo = Esposti Prof. Pierpaolo Vittorini 6 8 gruppo = Controlli STATA 10 Introduzione Grafici e statistica descrittiva Statistica inferenziale Statistica avanzata Statistica non parametrica Analisi della sopravvivenza Test di Mantel-Cox Dall’analisi grafica precedente, sembrano emergere delle differenze fra il gruppo sperimentale e i controlli Il χ2 di Mantel-Cox ci da una risposta Prof. Pierpaolo Vittorini STATA