Introduzione ai sondaggi

by user

on 06 июля 2016

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download Introduzione ai sondaggi

Transcript

Introduzione ai sondaggi

Dipartimento di Statistica Regione Toscana Comune di Firenze
Progetto di diffusione della cultura Statistica
Introduzione ai
sondaggi
Carla Rampichini
Dipartimento di Statistica “G. Parenti”
Università di Firenze
Materiale:
http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/
I sondaggi

Il sondaggio è un metodo statistico volto a
valutare le proporzioni di diverse caratteristiche
di una popolazione a partire dallo studio di una
parte della popolazione, chiamata campione.

Il sondaggio d'opinione ha lo scopo di
conoscere l'opinione di un gruppo di persone
relativo ad un dato argomento.

Il sondaggio d'opinione che si occupa di
estrapolare i risultati elettorali alla fine delle
elezioni si chiama exit poll.
Quando nasce il sondaggio?

Prima dei sondaggi non c’era un mezzo diretto
per l’ascolto dell’opinione pubblica: opinionisti,
politici e giornalisti potevano non essere
sufficientemente informati!
Il sondaggio ‘scientifico’ è proposto dallo
statistico statunitense George Gallup nel 1928.
Nel 1936 Gallup riuscì a predire correttamente il risultato
delle elezioni presidenziali intervistando soltanto 50 mila
persone, mentre l'allora molto quotato Literary Digest
sbagliò clamorosamente la previsione pur avendo
intervistato molte più persone!
Nel 1958 Gallup fonda The Gallup Organization, ancora
attiva (http://www.gallup.com/)
Quando nasce il sondaggio?
Con le indagini demoscopiche l’opinione
pubblica ha un mezzo di
comunicazione proprio
Sondaggi e democrazia

I sondaggi di opinione sono un elemento essenziale
della democrazia partecipativa.
Se con le elezioni politiche i cittadini indicano da chi
vogliono farsi governare, rispondendo ai sondaggi
dicono come vivono e quali sono i loro problemi.
La Commissione europea, ad esempio, dal 1973
utilizza le indagini "Eurobarometro" per monitorare la
pubblica opinione, allo scopo di "aiutare la preparazione
di testi, la presa delle decisioni e la valutazione del suo
operato".
Eurobarometro

Eurobarometro è lo strumento di cui si è dotata la
Commissione Europea per realizzare sondaggi mirati a
conoscere e comprendere gli atteggiamenti dei cittadini
europei.
Il monitoraggio dell’evoluzione della pubblica opinione negli
Stati membri viene effettuato dal 1973 ed è utile alla
Commissione principalmente per l’elaborazione di testi, ma
anche per prendere decisioni e valutare il proprio lavoro.
Le inchieste e gli studi riguardano argomenti di primaria
importanza per la cittadinanza europea, come
l’allargamento della UE, la situazione sociale, la salute, al
cultura, l’information technology, l’ambiente, l’Euro e la
difesa.
http://ec.europa.eu/public_opinion/index_en.htm
Esempio: i giovani europei

Cittadini europei in età 15-30 anni
Periodo interviste 30 gen-4 feb 2007 (Flash
Eurobarometer Series #202)
Interviste CATI
Campione di 19625 giovani residenti in 27 paesi
(800 giovani in Italia)
Svolto da: The Gallup Organization (in Italia la
rilevazione è curata da DEMOSKOPEA)
Alcune domande del questionario …
I giovani europei e il tempo libero

Le attività ricreative
maggiormanete praticate dai
giovani europei sono lo sport (45%)
e stare con gli amici (40%).
L’indagine conferma alcuni
stereotipi: le ragazze leggono di più
dei ragazzi (32% contro 19%) e
aiutano di più in casa (18% contro
14%) mentre i ragazzi fanno più
sport (50% contro 40%) e usano di
più Iternet e videogiochi (27% vs
15%).
Tra i giovani con 20 anni e più, quelli con titolo di studio più elevato fanno più
sport (48% vs 35%), leggono di più (34% contro 15%) e vanno di più al cinema o a
teatro (23% vs 9%). I giovani meno istruiti guardano di più la TV (26% contro 21%) e
aiutano di più in casa (20% vs 12%).

Italia e Europa a confronto
Italia e Europa a confronto
I giovani europei e l’attività politica

Se si chiede ai giovani europei
quali azioni politiche assicurano
che loro voce venga ascoltata dai
politici, il 29% di loro indica come
principale la partecipazione a
dibattiti in presenza di politici.
L’iscrizione ad un partito politico è
scelta dal 16% dei rispondenti e la
partecipazione a manifestazioni
dal 13%.
Circa l’’11% indica come azione
più importante firmare petizioni,
essere membro di una
organizzazione non governativa o
essere iscritto a un sindacato
Infine, il 6% dei giovani non sa quale azione politica sia la più importante per
assicurare che la propria voce venga ascoltata!
Tra il dire e il fare …

Passando dalle opinioni ai fatti, ai giovani europei è stato chiesto
in che modo essi hanno partecipato alla vita politica durante
l’ultimo anno
Il 28% dei giovani ha firmato una petizione, il 24% ha esposto le
proprie idee in un forum di discussione online, e il 20% ha
partecipato ad una manifestazione
Solo una piccola % di rispondenti ha lavorato per organizzazioni
non governative (11%), è stata attiva in un sindacato (8%), o ha
lavorato per un partito politico (5%)
Interesse per la politica e la vita pubblica

L’82% dei giovani europei dichiara di essere (molto)
interessato alla vita politica e pubblica del proprio Paese
il 73% dei giovani si dice interessato alla politica a livello
cittadino e regionale
e il 66% dei giovani è interessato alla politica europea
I sondaggi danno informazioni valide?

Ci sono oltre 96 millioni di giovani nei 27 paesi
dell’Unione Europea, molto diversi tra loro per
condizione socio-economica, cultura e orientamento
politico. Come può un sondaggio condotto su circa 800
giovani in ogni Paese riflettere quello che pensano tutti i
giovani europei? Come possono parlare per tutti?
facciamo un esempio: se avete una grande pentola di
zuppa, per sapere se è buona e cercare di capirne gli
ingredienti non occorre che vi mangiate tutta la zuppa
contenuta nella pentola o anche una scodella. Basta
assagiarne un po’…
Lo stesso vale per l’opinione pubblica. Non occorre
interrogare ogni singolo giovane europeo per sapere
cosa fanno e cosa pensano tutti i giovani europei; basta
intervistare qualcuno per avere un’idea dell’opinione
pubblica.
Gli ingredienti del sondaggio
Campione probabilistico
Îrappresentativo della popolazione di riferimento

Questionario
Îsemplice e non ambiguo

Perchè i risultati siano validi e affidabili gli
igredienti devono essere BUONI!
PROGETTAZIONE DEL SONDAGGIO

definizione degli obiettivi del sondaggio (chi vogliamo
interrogare e per sapere che cosa e a quale scopo)
campionamento (quante persone devono essere
intervistate e come devono essere scelte, ecc.)
rilevazione (con quale metodo e mezzi devono essere
fatte le interviste, con quale questionario, da quali e
quanti intervistatori e in base a quali istruzioni, ecc.)
elaborazione e utilizzazione finale dei risultati (quali dati
statistici devono essere prodotti, con quali metodi di
trattamento e calcolo, in quale forma, accompagnati da
quale tipo di documentazione e interpretazione devono
essere presentati e a chi, ecc.);
Indicazione di tempi necessari per completare le varie
attività previste e degli oneri che devono essere
sostenuti per le medesime.
Chi sono i soggetti del sondaggio?
chi vogliamo interrogare

qual è la popolazione da cui vogliamo prelevare
un campione rappresentativo per interrogarlo.
Non devono esserci lacune o ambiguità nella
definizione della popolazione.
Per esempio:
non basta dire che la popolazione sono i giovani europei

Occorre precisare la soglia inferiore d'età dalla quale si intende
fare partire la qualifica di giovane (p.e. 15 anni) e qual è la soglia
superiore di età (p.e. 30 anni)
Bisogna definire esattamente cosa si intende per europei (p.e
residenti – o presenti? – in uno degli stati membri della Comunità
Europea) e il periodo di riferimento.
Qual è l’oggetto del sondaggio?

Bisogna definire chiaramente il tema che si vuole trattare
nel sondaggio: che cosa vogliamo chiedere e perché,
cioè quali deduzioni ci aspettiamo di trarre delle risposte,
quale tipo di valutazioni statistiche e per farne quale uso
in pratica.
La definizione dei temi che il sondaggio deve affrontare
dovrà portare alla costruzione del questionario, cioè la
lista con il testo preciso di tutte le domande che gli
intervistatori dovranno rivolgere alle persone che
verranno scelte per far parte del campione
Le domande dovranno essere formulate sempre nello
stesso modo, cioè attenendosi rigidamente, sia all'ordine
che nel testo delle domande, al questionario.
I sondaggi non possono MAI dare
risposte esatte …

Un sondaggio fornisce un valore approssimato
(stima) del valore vero
L’approssimazione può essere più o meno
buona per molti motivi
La serietà di un sondaggio si può valutare dalla
cura riposta nel misurare e controllare l’errore
Ci sono due possibili tipi di errore:
errore
CAMPIONARIO
errore NON CAMPIONARIO
Accuratezza e precisione
Per ottenere risultati attendibili, un sondaggio deve
essere accurato e preciso

L’accuratezza è legata all’incidenza dell’errore
non campionario e deve essere perseguita
durante tutte le fasi di indagine.

La precisione si riferisce invece all’errore
campionario, la cui incidenza è intesa come la
differenza tra la stima di un valore ottenuta
attraverso il campione (depurata dall’errore non
campionario) e il dato “reale” di quel valore nella
popolazione.

Per campioni probabilistici la precisione può essere
facilmente controllata e calcolata attraverso il piano di
campionamento sia ex-ante che ex-post
Accuratezza del sondaggio
l’accuratezza è difficile sia da controllare che da calcolare
L’errore non campionario si può manifestare in vari momenti del processo:
In fase di progettazione del sondaggio
errore di specificazione (relativamente alla popolazione oggetto
d’indagine, oppure alla lista delle unità di popolazione);
In fase di rilevazione dei dati
errore di misura (dovuto agli strumenti di indagine, ad es. il
questionario non correttamente formulato, al soggetto rilevatore, o
all’intervistato che può distorcere deliberatamente un’informazione);
risposte mancanti, parziali o totali, sulle quali sono possibili
procedure di “recupero” dell’informazione;
In fase di elaborazione dei risultati
errori di memorizzazione informatica;
errori di calcolo.
Per ottenere risultati attendibili …
metodo di campionamento probabilistico
controllo accurato della selezione del
campione
basso tasso di non risposta o non risposta
casuale
domande ben formulate

Metodo di campionamento

La distinzione principale tra sondaggi “scientifici” e “non
scientifici” è basata sul metodo di campionamento
utilizzato: probabilistico o non probabilistico
Un campione non probabilistico è selezionato in maniera
soggettiva dal ricercatore in base alla SUA idea di
rappresentatività
Nel campionamento
probabilistico invece ogni
unità della popolazione ha
una probabiltà positiva di
essere inclusa nel campione:
le unità sono scelte “a caso”.
Campionamento probabilistico

I risultati ottenuti con un campione probabilistico
possono essere estesi all’intera popolazione e
l’errore di campionamento può essere calcolato

Allora perchè non sempre viene utilizzato?
non
sempre si dispone della lista delle unità da
campionare (ad es.: per fenomeni sommersi, quali la
presenza di clandestini …)
non sempre tutti i soggetti della popolazioe sono
ugualmente reperibili
può essere troppo costoso
Campione casuale semplice

È lo schema di campionamento più semplice: corrsiponde
all’estrazione da un’urna (tipo numeri della tombola)
È necessaria una LISTA completa delle unità che compongono la
popolazione.
Le unità vengono scelte A CASO dalla lista e ogni unità ha la stessa
probabilità di entrare a far parte del campione.
A caso però non vuol dire a casaccio. Il concetto di caso è infatti
strettamente connesso a quello di probabilità: il caso è un concetto
intuitivo strettamente connesso all’idea di impossibilità di previsione,
di individuare un ordine, un legame.
Ci sono vari modi per fare un’estrazione casuale, tutti cercano di
mimare l’estrazione da un’urna:
Tavola dei numeri casuali
Generazione di numeri casuali e estrazione con il calcolatore
Esempio rettangoli casuali
Errore di campionamento
L’errore di campionamento è funzione di 3 fattori
la dimensione del campione: a parità di altre condizioni,
più è grande il campione più è piccolo l’errore
Il risultato stesso: più il risultato si avvicina al 50%, più è
grande l’errore;
Il livello di confidenza: più siamo esigenti, più è alto
l’errore.
Un esempio:
Sono state intervistate 500 persone;
La proporzione di risposte favorevoli è circa del 50%;
Abbiamo scelto un livello di confidenza del 95%;
Îl’errore di campionamento è +/- 4.4% rispetto al 50% osservato
cioè: il risultato per l’intera popolazione è tra 45.6% e 54.4 %.
Errore di campionamento da CCS e intervalli
di confidenza

L’errore campionario
viene calcolato
facendo riferimento
alla teoria degli
stimatori e al teorema
del limite centrale
per un campione di dimensione n e un livello di confidenza
pari al 95% e proporzione p possiamo usare questa formula:
e=2*p (1-p)/n
Vedi foglio di calcolo per altri esempi
Campioni più grandi?

Non sempre un campione più
grande porta ad una maggiore
attendibilità dei risultati
Un campione più numeroso
riduce l’errore campionario
ma…
Se le unità statistiche sono selezionate in maniera
distorta un campione più numeroso non riduce
l’errore dovuto alla distorsione!
Distorsione da selezione (selection bias)

Un campione distorto è distorto quando la probabilità di
inclusione nel campione di individui appartenenti alla
popolazione dipende dalle caratteristiche della
popolazione oggetto di studio.
Un campione distorto fornisce, in generale, una stima
falsata delle caratteristiche della popolazione oggetto
dell'inferenza.
Se, ad esempio, per una popolazione di individui la
probabilità di essere inclusi nel campione è più piccola
quanto minore è il reddito dell'individuo, il reddito medio
campionario risulterà mediamente più alto del reddito
medio della popolazione.
Un celebre esempio di inferenza falsata per via di
un campione distorto …

Nelle elezioni presidenziali statunitensi del 1936, si contrapponevano
Alfred M. Landon e Franklin Delano Roosevelt.
Il Literary Digest fece un sondaggio intervistando 2 000 000 di persone
secondo il quale Landon avrebbe dovuto vincere le elezioni (ottenne il
57% delle preferenze nel campione).
George Gallup ottenne risultati opposti con un campione molto più
piccolo (300 000 unità). Alla fine, si verificò il risultato previsto da
Gallup.
L'errore del Literary Digest nacque dal fatto che il campione venne
selezionato usando gli elenchi degli abbonati telefonici e dei proprietari
di automobili, all'epoca beni poco diffusi. Questo fece sì che nel
campione entrassero prevalentemente cittadini benestanti, ossia che la
percentuale di cittadini benestanti presenti nel campione fosse
maggiore di quella di cittadini benestanti nella popolazione.
Questa circostanza produsse risultati distorti poiché la percentuale di
votanti per Roosevelt era maggiore tra le classi meno abbienti, il cui
contributo era sottostimato dal Literary Digest, sicché la probabilità di
inclusione nel campione dipendeva di fatto dalla caratteristica oggetto
di studio.
Errori di copertura

Errori tipo quello dell’esempio precedente si possono
verificare a causa di errori di copertura
Gli errori di copertura sono dovuti ad imperfezioni nella
corrispondenza fra la lista utilizzata per selezionare e
contattare le unità statistiche (archivi di base) e la
popolazione oggetto di indagine.

Gli errori di copertura possibili sono di due tipi:
l'inclusione nell'indagine di unità non appartenenti alla
popolazione oggetto di interesse (sovracopertura);
l'impossibilità di selezionare o coinvolgere nell'indagine unità
appartenenti alla popolazione oggetto (sottocopertura).

Gli errori di sovracopertura sono meno gravi in quanto possono
essere scoperti in fase di indagine predisponendo appositi quesiti
per le unità statistiche contattate. Più gravi sono gli errori di
sottocopertura i quali non possono essere scoperti se non
svolgendo apposite indagini di controllo.
Tasso di non risposta

tasso di non risposta % delle persone selezionate per
l’indagine che non sono state effettivamente intervistate
perché non reperite o perché hanno rifiutato di
rispondere.
Quasi tutti i sondaggi politico-elettorali avvengono
telefonicamente. Ma quanti sono quelli che hanno messo
giù il telefono senza rispondere alle domande? I rischi di
autoselezione, e quindi di errata rappresentazione della
realtà, possono essere rilevanti.
È possibile, ad esempio, che accettino di rispondere più
facilmente i più schierati.
Errori di misurazione

errori sistematici costituiti dalla differenza fra il vero
valore della caratteristica da misurare su una data unità
statistica e il valore effettivamente osservato
all'indagine.

Tali differenze possono essere introdotte:

Strumento mal tarato (domande mal poste)
dal rispondente stesso (per dimenticanza, imprecisione o dolo)
oppure dallo svolgimento delle fasi di elaborazione successive
alla raccolta del dato (errori introdotti dalle operazioni di
registrazione su supporto informatico o di codifica dei quesiti
aperti)
Quali domande?

Il risultato del sondaggio è influenzato dal modo in cui
sono poste le domande e previste le risposte.
Predisporre il questionario è un’operazione complessa!
Prima di fare il sondaggio è importante TESTARE tutte
le domande del questionario

La domanda è posta in modo chiaro e non ambiguo?
Le possibili risposte sono tutte previste in modo esaustivo e
mutualmente esclsivo?
Tutte le persone che dovranno essere intervistae sono in grado
di rispondere alla domanda?
Formulare le domande
Il linguaggio utilizzato nelle domande è un aspetto critico per la
riuscita di un questionario. Infatti anche piccole variazioni di
linguaggio possono causare grandi effetti.
Shuman e Presser (1981) hanno diviso un campione di famiglie in
due sottogruppi casuali.
Al primo gruppo è stata posta la seguente domanda:
Pensa che negli Stati Uniti debbano essere proibiti discorsi pubblici
favorevoli al comunismo? (409 rispondenti)
Mentre al secondo sottogruppo è stata posta la seguente domanda:
Pensa che negli Stati Uniti debbano essere permessi discorsi pubblici
favorevoli al comunismo? (432 rispondenti).
Sebbene si possa pensare che le due domande debbano avere un
significato esattamente opposto (la risposta SI alla prima domanda
corrisponde alla risposta NO nella seconda) la % di SI per la prima
domanda è stata del 39.3% mentre la % di NO alla seconda è stata
del 56.3% con una differenza, statisticamente significativa, del 17%.
Tale differenza, non attesa nel caso si considerino domande con
significato esattamente opposto, può essere attribuita all’importanza
del significato attribuito dai rispondenti ai termini proibire e
permettere.

Un altro esempio … (Brusati, 2004)
Domande non ambigue

È importante che le domande siano formulate in modo da contenere
informazioni sufficienti a non risultare ambigue.
Infatti se si vuole che i gli intervistati rispondano tutti alla medesima
domanda bisogna evitare che gli intervistatori siano costretti ad aggiungere
parole per specificare una domanda incompleta.
Ad esempio la seguente domanda è posta in maniera ambigua:
La mattina consuma una colazione?
non chiarisce da cosa sia costituita una colazione;
non è chiaro fino a che ora del mattino un pasto possa essere
considerato una colazione;
non è chiaro se la domanda si riferisce ad un consumo abituale o a un
giorno preciso.
Meglio la seguente formulazione:
Per i nostri scopi consideri colazione un pasto costituito almeno da una
bevanda (Te, latte, caff è,...) e un alimento come brioches, cereali, biscotti,
toast o frutta, consumato prima delle 10 del mattino. Secondo questa
definizione negli scorsi 7 giorni quante volte ha consumato una colazione?
In che ordine sono state poste le
domande?

A volte anche l’ordine con cui compaiono le domande
nel questionario influenza il risultato del sondaggio
Per esempio, durante periodi di crisi economica, se si
chiede alla gente cosa pensa dell’economia prima di
chiedere l’opinione sul Presidente del Consiglio, la quota
di popolarità del Presidente sarà verosimilmente più
bassa rispetto a quella che si otterrebbe rovesciando
l’ordine delle due domande!
In periodi di prosperità economica è vero il contrario!
Un esempio italiano
GIUGNO 2006 le priorità degli italiani
DEMOSKOPEA
Famiglia, amore, lavoro e amicizia: cosa
conta di più per gli italiani?
Sondaggio svolto su un campione di 1.000
individui di età compresa tra i 14 e i 79
anni rappresentativo della popolazione
italiana

Allora servono i sondaggi?

Anche qunado un sondaggio è fatto con buoni
ingredienti (campione e questionario) I risulatti possono
non essere buoni quanto si vorrebbe, per effetto del
caso.
Nei sondaggi elettorali, inoltre, il risultato si riferisce al
momento dell’intervista e NON al momento della
votazione, e quindi non è detto che la previsione risulti
buona
Nonostante tutte le difficoltà., sondaggi ben fatti sono
utili in quanto costituiscono la migliore misura oggettiva
del punto di vista della gente.
I sondaggi in Italia

Se si prendono come riferimento i criteri di qualità forniti
dall’American Association for Public Opinion
Research, quelli adottati dall’associazione delle imprese
italiane di categoria appaiono più laschi per un elemento
chiave: non viene richiesta l’adozione come standard di un
campionamento probabilistico, che garantisce la base
scientifica dei risultati secondo la teoria della statistica.
Le imprese committenti di ricerche di mercato possono
essere disposte ad accettare metodi non fondati su base
probabilistica, ad esempio per ridurre i costi di indagine.
Enti che pubblicano sondaggi

Euromedia Research
Eurisko
Ekma
www.sondaggipoliticoelettorali.it (sito
governativo che raccoglie i sondaggi di carattere
politico pubblicato sui media italiani)
Vota-Antonio.it (sito di approfondimento
giornalistico che riporta la confrontabilità dei
sondaggi politici italiani proponendo analisi
grafiche di confronto con dati storicizzati)
La legge italiana

http://www.agcom.it/sondaggi/sondaggi.htm
Sondaggi: pubblicazione e trasmissione dei documenti
Sondaggi trasparenti, con committenti chiaramente
identificati e metodologie di raccolta di tipo
rigorosamente statistico idonee a garantire la effettiva
rappresentatività dei campioni.
Queste le finalità ed i contenuti della regolamentazione
in materia di sondaggi emanata dall'Autorità per le
garanzie nelle comunicazioni ai sensi dell'articolo 1,
comma 6 lett. b) n. 12 della legge 249/97.
La disciplina regolamentare in materia è contenuta nelle
delibere n. 153/02/CSP e n. 237/03/CSP.
Sondaggi elettorali e politici

La delibera n. 237/03/CSP chiarisce altresì, all'articolo 2
comma 1, che per quanto riguarda i sondaggi politici
ed elettorali si applica la disciplina prevista dall'articolo
8 della legge 22 febbraio 2000, n. 28.
Conseguentemente detti sondaggi sono esclusi
dall'ambito di applicazione delle delibere 153/02/CSP
e 237/02/CSP, e pertanto non devono essere trasmessi
all'Autorità, ma vanno inviati solo all'apposito sito
informatico del Dipartimento per l'Informazione e
l'Editoria della Presidenza del Consiglio dei Ministri
(www.sondaggipoliticoelettorali.it).
Bibliografia

Barisone M. e Mannheimer R. (1999). I sondaggi. Il Mulino.
Billari F. e Rosina A. (2006). La guerra dei sondaggi. La Voce.
Billari F. e Rosina A. (2006). Quando e perché fidarsi di un sondaggio. La
Voce (www.lavoce.info)
Brusati E. (2003). Come si fanno i sondaggi. Induzioni 26.
(http://matematica.unibocconi.it/statistica/SONDAGGI.htm)
Freeman S.F. (2004). The Unexplained Exit Poll Discrepancy. Center for
Organizational Dynamics Working Paper #04-10 (University of
Pennsylvania, School or Arts & Sciences, Graduate Division).
Freedman D., Pisani R. e R. Purves (1998). Statistica, McGRaw-Hill.
Natale P. (2004). Il sondaggio. Editori Laterza.
Rinauro S. (2002), Storia del sondaggio d'opinione in Italia 1936-1994. Dal
lungo rifiuto alla repubblica dei sondaggi. Istituto veneto di Scienze, Lettere
ed Arti Editore.
Rosenthal J.S. (2005). Le regole del caso. Istruzioni per l’uso. Longanesi.
Scheaffer R.L., Watkins A., Witmer J., Gnanadesikan M. (2004). Activity
based statistics, CA: Key College Publishing.
Link

American association for public opinion
research http://www.aapor.org/
Autorità per le garanzie nelle comunicazioni
www.agcom.it/sondaggi/sondaggi_index.htm
www.sondaggipoliticoelettorali.it
Associazione tra istituti di ricerche di mercato, sondaggi
di opinione, ricerca sociale (Assirm):
http://www.assirm.it/
World Association for Public Opinion Research
http://www.unl.edu/wapor/
risposte
Errore di specificazione

Detto anche distorsione da selezione (selection bias): si ha quando
la popolazione obiettivo è diversa dalla popolazione campionata.

Per esempio si può indurre selection bias se:

Si selezionano le unità più facili da raggiungere
Si selezionano le unità che paiono rappresentative a giudizio
dell’intervistatore o del ricercatore
Si specifica male la popolazione obiettivo
Si utilizzano nel campione unità che si selezionano sulla base della
volontarietà
Quello che permette di evitare alcune fonti di selection bias è l’uso
(possibilmente rigoroso) di tecniche di campionamento
probabilistiche.
Esempio rettangoli casuali

Guardate il foglio che contiene i rettangoli per alcuni
secondi e fate una stima a occhio dell’area media dei
rettangoli (l’unità di misura è il quadretto. Per esempio, il
rettangolo 07 in alto ha un’area pari a 4×3=12). Segnate
il valore stimato sul foglio
Selezionate 5 rettangoli che, a vostro giudizio, sono
rappresentativi dei rettangoli disegnati sul foglio.
Calcolate l’area media di questi 5 rettangoli, sommando
le cinque aree e dividendo per 5.
Confrontate l’area media ora trovata con la stima fatta in
precedenza. I due numeri sono simili?
Dovrebbero esserlo abbastanza: di solito la stima a
occhio di una grandezza è vicina a quella ottenuta dal
campioni scelti in modo soggettivo
Estrazione casuale

Utilizzate la tavola dei numeri casuali per selezionare 5
numeri tra 00 e 99
Trovate i 5 rettangoli corrispondenti ai numeri estratti e
cerchiateli: questo è il vostro campione casuale
Calcolate l’area dei 5 rettangoli estratti e fatene la media
aritmetica
Confrontate la media ottenuta con quella stimata a
occhio e con quella calcolata sul campione soggettivo.
Raccogliamo i vostri dati …
Analizziamo i risultati
Tavola dei numeri casuali

La tavola di numeri casuali si compone di una serie di cifre generate
casualmente (estrazione a sorte da un’urna) ed elencate nell’ordine
secondo cui sono state generate.
Poiché il sistema decimale ha 10 cifre (le cifre 0,1,2,3,…,9), queste hanno
tutte la stessa probabilità pari a 1/10 di essere generate casualmente.
Le cifre sono riunite in gruppi di cinque per facilitare la lettura; poiché tutte
le cifre o successioni di cifre nella tavola sono casuali, si può leggere sia in
senso orizzontale che verticale, dall’alto o dal basso, specificando però
prima di iniziare a usare la tavola il criterio scelto; bisogna inoltre scegliere
un punto di partenza nella tavola dei numeri casuali (ad esempio puntando
a caso con una matita a occhi chiusi)
Per esempio: dovendo scegliere 2 numeri a caso tra 1 e 30, partiamo dalla
prima colonna della prima riga e leggiamo da sinistra verso destra le
sequenze di due cifre senza saltarne nessuna: 39 63 46 23 49 74 08 86 55
Se un numero tra 1 e 30 si ripete viene di nuovo incluso nel campione, se
il campionamento avviene con ripetizione; se invece si campiona senza
ripetizione, si continua nella scelta di un ulteriore numero, fino a
raggiungere la dimensione richiesta di 3 numeri.
Risultati campionamento soggettivo vs
casuale
I campioni casuali hanno medie più vicime
all’area media vera
Î la randomizzazione RIDUCE la
distorsione da selezione
La distorsione da selezione è funzione
della procedura di campionamento, non
dei risultati che si possono ottenere da
ciascuno

Come si interpreta il livello di confidenza?

Intervallo di confidenza: p±z*s.d.(p), z dipende dal livello di
confidenza
livello di confidenza del 95%: se estraiamo 100 campioni casuali, in
95 di essi l'intervallo calcolato comprenderà il valore vero π della
popolazione mentre in 5 campioni il valore vero cadrà al di fuori
dell’intervallo
Se si estrae proprio uno di quei 5 possibili campioni le nostre stime
sono sbagliate, ma noi non lo sapremo mai.
Quanto più il livello di confidenza è alto, tanto più potremo confidare
nella nostra stima: se il livello e' al 99%, solo 1 campione su 100
può fornire un intervallo che non contiene il valore vero, ma la
sicurezza non c‘è MAI.
il livello di confidenza indica quindi la possibilità di aver una stima
buona
L' intervallo di confidenza effettivamente calcolato dipende in modo
cruciale dal campione estratto e in alcuni casi (pochi ma incoogniti)
può non contenere il valore vero!