Comments
Description
Transcript
spss
Introduzione all’uso di SPSS INTRODUZIONE 2 Cos’è un pacchetto statistico? Un software che contiene procedure per esplorare gestire un insieme di dati modellare 3 Cos’è un insieme di dati? Con l’espressione insieme di dati (o le affini archivio di dati, base di dati, ecc.) si fa riferimento a una collezione di dati strutturata come una tabella in cui: sulle righe ci sono le unità di osservazione sulle colonne le variabili osservate. 4 Statistical Package for Social Sciences 5 L’interfaccia di SPSS (1) • Le finestre: dati (Editor dei dati SPSS) output (Viewer SPSS) sintassi (Editor della sintassi SPSS) 6 L’interfaccia di SPSS (2) • I menu a tendina: File, Modifica, Visualizza (tutte le finestre) Dati, Trasforma (Editor dei dati SPSS) Inserisci, Formato (Viewer SPSS) Analizza, Grafici (tutte le finestre) Esegui (Editor della sintassi SPSS) Strumenti, Finestra, ? (tutte le finestre) 7 8 9 10 Costruire la base dati 11 Editor dei dati SPSS E’ composto di due fogli: Visualizzazione dati: dedicato alla vista dell’archivio dati Visualizzazione variabili: dedicato alla definizione degli attributi delle variabili 12 Inserire i dati in SPSS Per costruire la base in formato SPSS (*.sav) immettendo i dati direttamente nella finestra Editor dei dati SPSS bisogna: definire le variabili e i loro attributi (foglio “Visualizzazione variabili”) inserire i valori in ogni cella (foglio “Visualizzazione dati” 13 Esercizio Predisporre l’Editor dei dati di SPSS per l’inserimento dei dati relativi al seguente frammento di un questionario sul tema I giovani e l'Europa 1) Sesso 1. Maschio q 2. Femmina q 2) Età (in anni compiuti) __ 3) A quale di queste unità geografiche ti senti di appartenere, innanzitutto? E in secondo luogo? (due risposte: una per il 1° posto e una per il 2° posto ) 1. Comune......................................................... 2. Veneto........................................................... 3. Italia.............................................................. 4. Europa........................................................... 5. Mondo........................................................... 6. Nessun ambito............................................... 1° q q q q q q 2° q q q q q q 14 15 Importare i dati in SPSS Con il comando File-Apri-Dati è possibile acquisire in SPSS archivi di dati registrati in diversi tipi di file: formato SPSS (*.sav) formato predefinito più comune formato Excel (*.xls) formato Lotus, dBase, ecc. formati formato Testo (*.txt) alternativi 16 Esercizio Importare in SPSS i dati contenuti nel file in formato Excel “alcohol.xls” 17 Modificare la base dati 18 Perché modificare la base dati? Talvolta, per rispondere ad esigenze che insorgono nell’analisi dei dati, è necessario costruire delle nuove variabili, ovvero eseguire una particolare operazione per ogni unità statistica. Il menu SPSS di riferimento è Trasforma (finestra Editor dei dati SPSS) 19 Operazioni con le variabili Le operazioni principali che possiamo fare, su tutti i casi o su quelli che soddisfano una determinata condizione, sono: conta delle ricorrenze (Trasforma-Conteggia) calcolo di valori (Trasforma -Calcola) ricodifica di valori (Trasforma -Ricodifica) 20 Trasforma-Conteggia Per ogni unità statistica possiamo contare, attraverso un insieme di variabili, quante volte ricorre: un valore un dato mancante un intervallo di valori 21 File KIDS.SAV Contiene i dati di un’inchiesta americana sulla popolarità in alunni di scuola elementare. Per ciascun soggetto abbiamo: dati anagrafici: genere (gender); età in anni (age); razza (race); ambiente in cui vive (live) 20 giudizi di importanza per essere popolare tra gli amici (1=molto importante; 4=per nulla importante), relativi alle seguenti aree: rendimento scolastico (grades1-grades5); sport (sport1-sport5); aspetto (look1-look5); soldi (money1-money5) 22 Esempio n.1 (kids.sav) Contare quante volte ciascun soggetto ha espresso il giudizio “molto importante” per essere popolare tra gli amici. 23 Problema n.1 (kids.sav) Contare i dati mancanti per ciascun soggetto. 24 Trasforma-Calcola Per ogni unità statistica possiamo eseguire un calcolo ovvero risolvere un espressione nella quale sono coinvolti uno o più dei seguenti elementi: costanti (0, 1, 2, …) variabili presenti nell’archivio dati operatori aritmetici (+, -, *, /, **) funzioni (MEAN, SUM, LOG, LN, SQRT, …) 25 Esempio n.2 (kids.sav) Creare una nuova variabile (sport) che esprima la somma dei punteggi nella rispettiva area. 26 Problema n.2 (kids.sav) Creare quattro nuove variabili (grades, sport, look, money) che esprimano la media dei cinque punteggi nella rispettiva area. 27 Trasforma-Ricodifica (1) Per ogni us possiamo assegnare nuovi valori ad una variabile (o più variabili a cui vogliamo applicare la medesima nuova codifica): sostituendo i vecchi valori con i nuovi (Ricodifica nelle stesse variabili) conservando la variabile originaria con la vecchia codifica e creandone un’altra con la nuova codifica (Ricodifica in variabili differenti) 28 Trasforma-Ricodifica (2) In entrambi i tipi di ricodifica (nelle stesse variabili e in variabili differenti) possiamo: assegnare un diverso nuovo valore per ciascun valore originario assegnare uno stesso nuovo valore a più valori originari 29 Esempio n.3 (kids.sav) Ricodificare nella stessa variabile la variabile gend, assegnando il valore 1 a boy e il valore 2 a girl. 30 Problema n.3 (kids.sav) Ricodificare nella stessa variabile la variabile race (assegnare il valore 1 a White e valore 2 a Other). 31 Esempio n.4 (kids.sav) Ricodificare in variabili diverse la variabile live, assegnando il valore 1 a Rural, il valore 2 a Suburban e il valore 3 a Urban. 32 Problema n.4 (kids.sav) Ricodificare la variabile età (age) in tre classi: 9-10 anni (classe1); 11 anni (classe2); 12-13 anni (classe3). 33 Filtri e separazioni Per eseguire analisi statistiche solo sui soggetti che soddisfano una determinata condizione bisogna “filtrare” i soggetti in base a quella condizione (Dati-Seleziona casi) Per eseguire analisi statistiche separate per gruppo bisogna “distinguere” i soggetti in base a una o più variabili di raggruppamento (DatiDistingui) 34 Come definire una condizione? Per definire una condizione possiamo utilizzare uno o più dei seguenti elementi: costanti (0, 1, 2, …) variabili presenti nell’archivio dati operatori aritmetici (+, -, *, /, **) funzioni (MEAN, SUM, LOG, LN, SQRT, …) e in particolare operatori logici e di confronto (&, |, >, <=, …) 35 Esempi di condizione si vuole eseguire una certa analisi solo per i soggetti maschi (valore 1; variabile sesso): sesso=1 si vuole eseguire una certa analisi solo per i soggetti maschi con età maggiore di 20 anni (variabile eta) sesso=1 & eta>20 36 Esempio n.5 (kids.sav) Selezionare gli alunni che vivono in ambiente urbano. 37 Problema n.5 (kids.sav) Selezionare gli alunni che vivono in ambiente urbano o sub-urbano e sono di razza bianca. 38 Statistiche descrittive 39 Analizza Statistiche descrittive Frequenze (Procedura FREQUENCIES) Descrittive (Procedura DESCRIPTIVES) Esplora (Procedura EXAMINE) Tavole di contingenza (Procedura CROSSTABS) 40 File BANK.SAV Contiene una serie di dati sugli addetti (102) di una banca americana: codice dell’addetto (id); sesso (sex), età in anni (age) e in classi (agelevel), gruppo etnico (minority), anni di studio (edlevel); categoria lavorativa (jobcat), anzianità nel ruolo (time), anni di lavoro (work), salario iniziale e attuale (salbeg, salnow) 41 Esempio n.1 (bank.sav) Analizzare la distribuzione di frequenza, producendo tabelle e grafici, delle variabili: 1. gruppo etnico (var1) 2. anni di studio (var2) 42 Problema n.1 (bank.sav) Analizzare la distribuzione di frequenza, producendo tabelle e grafici, delle variabili: 1. categoria lavorativa (var1) 2. anni di lavoro (var2) 43 Frequenze (var1) • statistiche Statistiche Categoria lavorativa N Validi Mancanti 102 0 44 Frequenze (var1) • distribuzione di frequenza (assoluta, relativa) Categoria lavorativa Validi Impiegato Impieg. special. Agente di s icur. Impieg. laureato Funzionario Funzionario MBA Dirigente Totale Frequenza 39 35 8 9 8 1 2 102 Percentuale 38,2 34,3 7,8 8,8 7,8 1,0 2,0 100,0 Percentuale valida 38,2 34,3 7,8 8,8 7,8 1,0 2,0 100,0 Percentuale cumulata 38,2 72,5 80,4 89,2 97,1 98,0 100,0 45 Frequenze (var1) • grafici a barre Categoria lavorativa 50 40 30 Frequenza 20 10 0 Impiegato Agente di sicur. Impieg. special. Funzionario Impieg. laureato Dirigente Funzionario MBA Categoria lavorativa 46 Frequenze (var1) • grafici a torta Categoria lavorativa Dirigente Funzionario MBA Funzionario Impieg. laureato Impiegato Agente di sicur. Impieg. special. 47 Frequenze (var2) • statistiche Statistiche Anni di lavoro N Media Mediana Moda Deviazione s td. Asimmetria Errore s td dell'as immetria Curtos i Errore s td della curtos i Minimo Mas simo Percentili Validi Mancanti 5 25 50 75 95 102 0 8,3715 4,5400 ,00 9,5421 1,450 ,239 1,220 ,474 ,00 37,00 ,0000 1,3750 4,5400 12,1250 31,6070 48 Frequenze (var2) • distribuzione di frequenza (assoluta, relativa) Anni di lavoro Validi ,00 ,17 ,25 ,42 ,50 ,75 ,83 ,92 1,00 1,50 1,67 1,75 1,83 2,00 2,17 2,25 2,67 2,83 2,92 3,17 3,42 3,83 3,92 Frequenza 7 1 2 1 3 2 2 4 3 1 2 1 2 1 2 1 2 2 1 2 1 2 1 Percentuale 6,9 1,0 2,0 1,0 2,9 2,0 2,0 3,9 2,9 1,0 2,0 1,0 2,0 1,0 2,0 1,0 2,0 2,0 1,0 2,0 1,0 2,0 1,0 Percentuale valida 6,9 1,0 2,0 1,0 2,9 2,0 2,0 3,9 2,9 1,0 2,0 1,0 2,0 1,0 2,0 1,0 2,0 2,0 1,0 2,0 1,0 2,0 1,0 Percentuale cumulata 6,9 7,8 9,8 10,8 13,7 15,7 17,6 21,6 24,5 25,5 27,5 28,4 30,4 31,4 33,3 34,3 36,3 38,2 39,2 41,2 42,2 44,1 45,1 49 Frequenze (var2) • istogramma Anni di lavoro 30 20 Frequenza 10 Dev. Stand = 9,54 Media = 8,4 N = 102,00 0 ,0 38,0 36,0 34,0 32,0 30,0 28,0 26,0 24,0 22,0 20,0 18,0 16,0 14,0 12 0 , 10 0 8, 0 6, 0 4, 0 2, 0 0, Anni di lavoro 50 Frequenze (var2) • istogramma con curva normale Anni di lavoro 30 20 Frequenza 10 Dev. Stand = 9,54 Media = 8,4 N = 102,00 0 ,0 38,0 36,0 34,0 32,0 30,0 28,0 26,0 24,0 22,0 20,0 18,0 16,0 14,0 12 0 , 10 0 8, 0 6, 0 4, 0 2, 0 0, Anni di lavoro 51 Esplora (var2) • grafico ramo-foglia Anni di lavoro Stem-and-Leaf Plot Frequency Stem & Leaf 31,00 0 . 0000000000000000000000111111111 15,00 0 . 222222222333333 15,00 0 . 444444444555555 6,00 0 . 666667 3,00 0 . 899 6,00 1 . 001111 4,00 1 . 2223 3,00 1 . 455 3,00 1 . 667 1,00 1 . 9 4,00 2 . 0001 2,00 2 . 33 ,00 2 . 1,00 2 . 8,00 Extremes Stem width: Each leaf: 6 (>=30) 10,00 1 case(s) 52 Esplora (var2) • grafico a scatola 40 62 14 30 27 1 30 61 15 84 20 10 0 -10 N= 102 Anni di lavoro 53 Descrittive (var2) • principali indici di sintesi per variabili numeriche Statistiche descrittive N Anni di lavoro Validi (listwis e) 102 102 Minimo ,00 Mas simo 37,00 Media 8,3715 Deviazione s td. 9,5421 54 distribuzione di frequenza congiunta (assoluta e relativa) 55 Esempio n.2 (bank.sav) Analizzare la distribuzione di frequenza congiunta (assoluta e relativa) delle variabili gruppo etnico e sesso dell’addetto. 56 Problema n.2 (bank.sav) Analizzare la distribuzione di frequenza congiunta (assoluta e relativa) delle variabili categoria lavorativa e sesso dell’addetto. 57 Tavole di Contingenza • distribuzione congiunta (assoluta) Tavola di contingenza Categoria lavorativa * Sesso dell'addetto Conteggio Categoria lavorativa Totale Impiegato Impieg. special. Agente di s icur. Impieg. laureato Funzionario Funzionario MBA Dirigente Ses so dell'addetto Mas chio Femmina 18 21 11 24 8 9 8 1 2 56 46 Totale 39 35 8 9 8 1 2 102 58 Tavole di Contingenza • distribuzione congiunta (assoluta e relativa) Tavola di contingenza Categoria lavorativa * Sesso dell'addetto Categoria lavorativa Impiegato Impieg. special. Agente di s icur. Impieg. laureato Funzionario Funzionario MBA Dirigente Totale Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Conteggio % entro Categoria lavorativa Ses so dell'addetto Mas chio Femmina 18 21 Totale 39 46,2% 53,8% 100,0% 11 24 35 31,4% 68,6% 100,0% 8 8 100,0% 100,0% 9 9 100,0% 100,0% 8 8 100,0% 100,0% 1 1 100,0% 100,0% 2 2 100,0% 100,0% 56 46 102 54,9% 45,1% 100,0% 59 Tavole di Contingenza • distribuzione congiunta (assoluta e relativa) Tavola di contingenza Categoria lavorativa * Sesso dell'addetto Categoria lavorativa Impiegato Impieg. special. Agente di s icur. Impieg. laureato Funzionario Funzionario MBA Dirigente Totale Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Conteggio % entro Ses so dell'addetto Ses so dell'addetto Mas chio Femmina 18 21 Totale 39 32,1% 45,7% 38,2% 11 24 35 19,6% 52,2% 34,3% 8 8 14,3% 7,8% 9 9 16,1% 8,8% 8 8 14,3% 7,8% 1 1 2,2% 1,0% 2 2 3,6% 2,0% 56 46 102 100,0% 100,0% 100,0% 60 Tavole di Contingenza • distribuzione congiunta (assoluta e relativa) Tavola di contingenza Categoria lavorativa * Sesso dell'addetto Categoria lavorativa Impiegato Impieg. special. Agente di sicur. Impieg. laureato Funzionario Funzionario MBA Dirigente Totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Conteggio % del totale Ses so dell'addetto Mas chio Femmina 18 21 17,6% 20,6% 11 24 10,8% 23,5% 8 7,8% 9 8,8% 8 7,8% 1 1,0% 2 2,0% 56 46 54,9% 45,1% Totale 39 38,2% 35 34,3% 8 7,8% 9 8,8% 8 7,8% 1 1,0% 2 2,0% 102 100,0% 61 Relazione tra variabili 62 File BANK.SAV Contiene una serie di dati sugli addetti (102) di una banca americana: codice dell’addetto (id); sesso (sex), età in anni (age) e in classi (agelevel), gruppo etnico (minority), anni di studio (edlevel); categoria lavorativa (jobcat), anzianità nel ruolo (time), anni di lavoro (work), salario iniziale e attuale (salbeg, salnow) 63 Associazione tra categorie Sulla tabella di frequenza che incrocia due variabili categoriali (tavola di contingenza) è possibile calcolare un’opportuna statistica per valutare se esiste una relazione significativa tra le variabili di interesse. La principale statistica per valutare la relazione (associazione) tra variabili categoriali è il Chiquadrato 64 Esempio n.3 (bank.sav) Valutare se esiste una relazione significativa tra categoria lavorativa e gruppo etnico di appartenenza. 65 Problema n.3 (bank.sav) Valutare se esiste una relazione significativa tra categoria lavorativa e sesso dell’addetto. 66 Tavole di Contingenza • chi-quadrato Chi-quadrato Chi-quadrato di Pears on Rapporto di verosimiglianza Ass ociazione lineare-lineare N. di cas i validi 6 Sig. asint. (2 vie) ,000 43,011 6 ,000 14,879 1 ,000 Valore 32,390a df 102 a. 10 celle (71,4%) hanno un conteggio attes o inferiore a 5. Il conteggio attes o minimo è ,45. 67 Analizza Confronta medie Medie (Procedura MEANS) Test T: campione unico (Procedura T-TEST) Test T: campioni indipendenti (Procedura T-TEST) Test T: campioni appaiati (Comando T-TEST) 68 Esempio n.4 (bank.sav) Calcolare media e deviazione standard della variabile salario attuale per ogni categoria lavorativa. 69 Problema n.4 (bank.sav) Calcolare media e deviazione standard della variabile salario attuale per ogni classe di età. 70 Medie • medie condizionate Report Salario corrente (dollari) livelli di età fino a 28 28 - 32 32 - 46 più di 46 Totale Media 10831,57 15448,28 17036,80 10459,20 13573,78 N 23 29 25 25 102 Deviazione s td. 3406,52 6180,45 8307,97 4007,51 6436,28 71 Test t a un campione Si basa sul confronto tra due medie: una osservata e una nota. Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che il campione sia estratto in maniera casuale dalla popolazione 72 Esempio n.5 (bank.sav) Confrontare la media del salario iniziale del campione con il salario medio nazionale degli impiegati di banca pari a 5000$. 73 Problema n.5 (bank.sav) Confrontare la media del salario corrente del campione con il salario medio nazionale degli impiegati di banca pari a 13000$. 74 Test T: campione unico • statistiche descrittive Statistiche per un campione N Salario iniziale (dollari) 102 Media 5808,94 Deviazione s td. 2771,87 Errore s td. Media 274,46 75 Test T: campione unico • test t Test per un campione Valore oggetto del tes t = 5000 Salario iniziale (dollari) t 2,947 df 101 Sig. (2-code) ,004 Differenza fra medie 808,94 Intervallo di confidenza per la differenza al 95% Inferiore Superiore 264,49 1353,39 76 Test t per campioni indipendenti (1) Si basa sul confronto tra due medie di una stessa variabile calcolate in due campioni indipendenti di soggetti. Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che i due campioni siano estratti in maniera casuale dalla popolazione Esiste un valore di t per varianze omogenee e uno per varianze non omogenee 77 Test t per campioni indipendenti (2) • È una tecnica statistica in cui si cerca di stabilire se esista una relazione tra una variabile indipendente ed una variabile dipendente; • La variabile indipendente è di tipo categoriale (con due categorie o comunque solo due di esse vengono considerate); • La variabile dipendente è di tipo numerico; 78 Esempio n.6 (bank.sav) Verificare se il salario medio attuale dei bianchi è significativamente diverso da quello dei non bianchi. 79 Problema n.6 (bank.sav) Verificare se il salario medio attuale dei maschi è significativamente diverso da quello delle femmine. 80 Test T: campioni indipendenti • statistiche descrittive Statistiche di gruppo Salario corrente (dollari) Ses so dell'addetto Mas chio Femmina N 56 46 Media 16449,57 10072,83 Deviazione s td. 7139,93 2801,75 Errore s td. Media 954,11 413,10 81 Test T: campioni indipendenti • test t Test per campioni indipendenti Tes t di Levene di uguaglianza delle varianze Salario corrente (dollari) Ass umi varianze uguali Non ass umere varianze uguali F 31,547 Sig. ,000 Tes t t di uguaglianza delle medie t 5,703 df 100 Sig. (2-code) ,000 Differenza fra medie 6376,75 Differenza errore s tandard 1118,07 6,133 74,359 ,000 6376,75 1039,70 Intervallo di confidenza per la differenza al 95% Inferiore Superiore 4158,53 8594,96 4305,26 82 8448,23 Test t per campioni appaiati Si basa sul confronto tra due medie di una stessa caratteristica calcolate sugli stessi soggetti in momenti diversi (ad es. prima e dopo un intervento) o su soggetti appaiati (ad es. mariti e mogli). Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che il campione sia estratto in maniera casuale dalla popolazione 83 Problema n.7 (bank.sav) Verificare se è significativa la differenza tra il salario iniziale e quello attuale. 84 Test T: campioni appaiati • statistiche descrittive Statistiche per campioni appaiati Coppia 1 Salario iniziale (dollari) Salario corrente (dollari) Media 5808,94 13573,78 N 102 102 Deviazione s td. 2771,87 6436,28 Errore s td. Media 274,46 637,29 85 Test T: campioni appaiati • correlazioni Correlazioni per campioni appaiati N Coppia 1 Salario iniziale (dollari) e Salario corrente (dollari) Correlazione 102 ,758 Sig. ,000 86 Test T: campioni appaiati • test t Test per campioni appaiati Media Coppia 1 Salario iniziale (dollari) Salario corrente (dollari) -7764,84 Differenze a coppie Intervallo di confidenza per la differenza al 95% Deviazione Errore s td. s td. Media Inferiore Superiore 4697,57 465,13 -8687,53 -6842,15 t -16,694 df Sig. (2-code) 101 ,000 87 Analizza Correlazione Bivariata (Procedura CORRELATIONS) 88 Correlazione (lineare) • Misura la forza della relazione lineare tra due variabili. • Assume valori compresi tra –1 (perfetta relazione lineare negativa) e +1 (perfetta relazione lineare positiva) • E’ pari a 0 in assenza di relazione lineare tra le due variabili 89 Problema n.8 (bank.sav) Valutare se esiste una correlazione significativa tra gli anni di studio e il salario corrente. 90 Correlazione - Bivariata • correlazioni Correlazioni Salario corrente (dollari) Anni di s tudio Correlazione di Pears on Sig. (2-code) N Correlazione di Pears on Sig. (2-code) N Salario corrente (dollari) Anni di s tudio 1,000 ,630** , ,000 102 102 ,630** 1,000 ,000 , 102 102 **. La correlazione è s ignificativa al livello 0,01 (2-code). 91 Grafici A dispersione Semplice (Procedura GRAPH) 92 Problema n.9 (bank.sav) Produrre un grafico a dispersione ponendo in ascissa gli anni di studio e in ordinata il salario corrente . 93 Grafici - A dispersione - Semplice 40000 30000 20000 10000 0 6 8 10 12 14 16 18 20 22 Anni di studio 94 95