...

Esempi e paradossi sul condizionamento

by user

on
Category: Documents
8

views

Report

Comments

Transcript

Esempi e paradossi sul condizionamento
48
1 Spazi di probabilità discreti: teoria
1.3.5 Esempi e paradossi sul condizionamento
La probabilità condizionale è una delle principali sorgenti di “paradossi” in teoria
della probabilità, intendendo con questo termine risultati veri ma poco intuitivi. Al
di là del loro interesse intrinseco, lo studio di questi problemi è utile perché evidenzia i punti delicati che si nascondono dietro la nozione di condizionamento e,
soprattutto, dietro la sua interpretazione.
In questo paragrafo discutiamo con un certo dettaglio due problemi classici, noti
come paradosso di Monty Hall (Esempio 1.22) e paradosso dei figli (Esempio 1.23).
Altri problemi si possono trovare tra gli esercizi. Chiudiamo quindi il paragrafo
(e il capitolo) con due problemi liberamente ispirati a casi giudiziari reali (Esempi 1.24 e 1.25), che mostrano quanto la mancata comprensione della nozione di
condizionamento possa condurre a conclusioni errate.
Esempio 1.22 (Paradosso di Monty Hall). Il presentatore di un gioco a premi vi
propone di scegliere una di tre buste chiuse. Delle tre buste, una contiene un premio
mentre le altre due sono vuote. Dopo che avete effettuato la scelta, il presentatore
apre una delle due buste rimaste, mostrando che è vuota, e vi propone di cambiare
la busta che avete scelto con quella rimanente. Che cosa vi conviene fare?
A dispetto della formulazione elementare, questo problema nasconde diverse insidie, che sono per certi versi paradigmatiche dei problemi che coinvolgono la probabilità condizionale. Per cominciare, la strategia con cui il presentatore sceglie la
busta da aprire non è esplicitamente dichiarata nella formulazione del problema:
come vedremo, strategie diverse conducono a modelli probabilistici distinti, che
determinano risposte diverse al problema.
Numeriamo le buste da 1 a 3 e consideriamo innanzitutto la seguente strategia:
il presentatore guarda di nascosto le due buste che gli sono rimaste in mano e ne
apre sempre una vuota (nel caso in cui entrambe le buste siano vuote, diciamo che
apre quella con numero più basso). Allora la risposta è che vi conviene cambiare
busta, perché la probabilità di trovare il premio passa da 13 a 23 . Per convincersene,
notiamo che l’esperimento aleatorio può essere descritto dallo spazio campionario
W = {1, 2, 3} ⇥ {1, 2, 3} = {w = (i, j) : 1  i, j  3}, dove w = (i, j) significa che
il premio è nella busta i e voi scegliete inizialmente la busta j. Definiamo gli eventi
Ak := “il premio è nella busta k” = {(i, j) 2 W : i = k} ,
B` := “voi scegliete inizialmente la busta `” = {(i, j) 2 W : j = `} ,
dove k, ` 2 {1, 2, 3}. Quale probabilità P è sensato mettere su W ? Innanzitutto è
ragionevole assumere che il premio sia in ciascuna busta con la stessa probabilità,
ossia P(A1 ) = P(A2 ) = P(A3 ) = 13 . In secondo luogo, è naturale supporre che la
vostra scelta iniziale della busta sia indipendente da quale busta contenga il premio,
ossia gli eventi Ak e B` siano indipendenti per ogni k, ` 2 {1, 2, 3}. Di conseguenza,
una volta specificati i valori di r` := P(B` ) per k = 1, 2, 3 — per esempio r1 =
r2 = r3 = 13 se scegliete inizialmente una busta “a caso” — risulta determinata la
probabilità P su W , dato che P({(k`)}) = P(Ak \B` ) = P(Ak ) P(B` ) = 13 r` . Possiamo
1.3 Probabilità condizionale e indipendenza
49
finalmente determinare la probabilità degli eventi a cui siamo interessati, ossia
F := “tenendo la busta inizialmente scelta, trovate il premio”
G := “cambiando la busta, trovate il premio” .
(1.55)
È chiaro che possiamo riformulare
F = “il premio è nella busta scelta inizialmente” = {(i, j) 2 W : i = j} ,
pertanto
1
1
P(F) = P({(1, 1)}) + P({(2, 2)}) + P({(3, 3)}) = (r1 + r2 + r3 ) = .
3
3
D’atro canto, con un momento di riflessione ci si convince che, cambiando busta,
trovate il premio se e solo se esso non è nella busta da voi scelta inizialmente: in
tal caso infatti il premio è in una delle due buste rimaste inizialmente in mano al
presentatore, e lui provvede ad aprire quella vuota. Questo significa che G = F c e
dunque
2
P(G) = P(F c ) = 1 P(F) = ,
3
come annunciato. Si noti che il risultato non dipende dalle probabilità rk con cui
effettuate la vostra scelta iniziale, come è peraltro intuitivo.
Mentre è intuitivamente chiaro che la probabilità di trovare il premio tenendo la
busta inizialmente scelta vale 13 , il fatto che la probabilità diventi 23 se si cambia busta può apparire prima vista sorprendente. Per convincersi intuitivamente di questo
fatto, suggeriamo di riflettere sull’osservazione sopra esposta: cambiando busta, si
trova il premio ogniqualvolta esso non è nella busta inizialmente scelta, dunque in
media due volte su tre. Chi non fosse convinto, può provare un esperimento concreto ripetendo il gioco molte volte, eventualmente con l’ausilio di un computer. Per
esercitare l’intuizione su problemi analoghi, suggeriamo gli esercizi 1.7 e 1.8.
Per concludere, mostriamo come la risposta cambia in funzione della strategia
adottata dal presentatore. Supponiamo ad esempio che il presentatore apra una a
caso delle due buste che gli sono rimaste in mano: se tale busta contiene il premio, il
gioco finisce; se invece è vuota, vi viene proposta la possibilità di cambiare la busta
che avete scelto inizialmente con quella rimanente. Mostriamo che in questo caso
è indifferente cambiare o non cambiare busta: in entrambi i casi, se il presentatore
apre una busta vuota, la probabilità (condizionale) di trovare il premio vale 12 .
Per formalizzare il problema, conviene “arricchire” lo spazio campionario W introdotto in precedenza, in modo che i suoi elementi descrivano, oltre alla busta che
contiene il premio e a quella scelta inizialmente, anche la busta aperta dal presentatore. Una scelta naturale è dunque W̃ := {w = (i, j, k) : i, j, k 2 {1, 2, 3}, k 6= j}.
Preferiamo tuttavia alleggerire le notazioni, immaginando che voi scegliate sempre
la busta numero 1 (come abbiamo visto in precedenza, e come è intuitivo, la strategia
con cui viene scelta la carta iniziale risulta alla fine irrilevante). Poniamo dunque
50
1 Spazi di probabilità discreti: teoria
Ŵ := {w = (i, k) : i 2 {1, 2, 3}, k 2 {2, 3}} ,
A` = “il premio è nella busta `” = {(i, k) 2 Ŵ : i = `} ,
e richiediamo, come in precedenza, che P̂(A1 ) = P̂(A2 ) = P̂(A3 ) = 13 . Inoltre,
definendo per m 2 {2, 3} l’evento
Cm := “il presentatore sceglie la busta m” = {(i, k) 2 Ŵ : k = m} ,
richiediamo che P̂(Cm |A` ) = 12 per ogni ` 2 {1, 2, 3} e m 2 {2, 3}, perché il presentatore apre una busta “a caso”. Ciò significa che per ogni w = (i, k) 2 Ŵ
11 1
= ,
32 6
ossia P̂ è la probabilità uniforme su Ŵ . Introduciamo ora l’evento
D := “la busta aperta dal presentatore è vuota” = {(i, k) 2 Ŵ : k 6= i}
= {(1, 2), (1, 3), (2, 3), (3, 2)} ,
che ha probabilità P̂(D) =
|D|
|Ŵ |
=
4
6
= 23 . Ricordando gli eventi F e G, definiti infor-
malmente in (1.55), dobbiamo calcolare P̂(F|D) e P̂(G|D). Avendo assunto che voi
scegliate inizialmente la busta numero 1, possiamo identificare
F = {(i, k) 2 Ŵ : i = 1} = {(1, 2), (1, 3)} ,
da cui segue che, se il presentatore apre una busta vuota, la probabilità (condizionale) di trovare il premio mantenendo la busta scelta inizialmente vale
P̂(F|D) =
P̂(F \ D)
|F \ D|
2
1
=
= = .
|D|
4
2
P̂(D)
Per quanto riguarda l’evento G, possiamo scrivere
G = {(i, k) 2 Ŵ : i 6= 1, k 6= i} = {(2, 3), (3, 2)} .
poiché, cambiando busta, trovate il premio se e solo se il premio non è nella busta
numero 1 né nella busta aperta dal presentatore. Di conseguenza, se il presentatore
apre una busta vuota, la probabilità (condizionale) di trovare il premio cambiando
busta è data da
P̂(G|D) =
P̂(G \ D)
|G \ D|
2
1
=
= = .
|D|
4
2
P̂(D)
51
come annunciato in precedenza.
dove w = (i, k) significa che il premio è nella busta i, voi scegliete inizialmente
la busta 1 e il presentatore apre la busta k (da cui la restrizione k 2 {2, 3}). Per
determinare la probabilità P̂ da mettere su Ŵ , definiamo per ` 2 {1, 2, 3} l’evento
P̂({w}) = P̂({(i, k)}) = P(Ai \Ck ) = P(Ai ) P(Ck |Ai ) =
1.3 Probabilità condizionale e indipendenza
Esempio 1.23 (Paradosso dei figli). Una coppia ha due figli(e). Assumendo che ciascun figlio possa essere maschio o femmina con la stessa probabilità, indipendentemente dal sesso dell’altro figlio, rispondiamo alle domande seguenti:
(1) Se il primogenito è maschio, qual è la probabilità che anche il secondogenito
lo sia?
(2) Se il secondogenito è maschio, qual è la probabilità che anche il primogenito
lo sia?
(3) Se almeno un figlio è maschio, qual è la probabilità che anche l’altro lo sia?
Per descrivere il sesso dei due figli, introduciamo lo spazio campionario W =
{mm, m f , f m, f f }, dove ab indica che il primogenito è di sesso a e il secondogenito di sesso b. È facile convincersi che le ipotesi di indipendenza e di equiprobabilità del sesso dei figli corrispondono a munire W della probabilità uniforme, cioè
P({mm}) = P({m f }) = P({ f m}) = P({ f f }) = 14 . Introducendo gli eventi
A := “il primogenito è maschio” = {mm, m f } ,
B := “il secondogenito è maschio” = {mm, f m} ,
e interpretando le domande poste come probabilità condizionali, le risposte si
ottengono con semplici calcoli: essendo A [ B = {mm, m f , f m} e A \ B = {mm},
(1) P(A \ B|A) =
(2) P(A \ B|B) =
P(A\B)
P(A)
P(A\B)
P(B)
(3) P(A \ B|A [ B) =
=
=
|A\B|
|A|
|A\B|
|B|
= 12 ;
= 12 ;
P((A\B)\(A[B))
P(A[B)
=
P(A\B)
P(A[B)
=
|A\B|
|A[B|
= 13 .
Sebbene i calcoli siano del tutto elementari, la risposta all’ultima domanda è a
prima vista sorprendente e merita una discussione. Il punto chiave sta nel significato
dell’espressione “se almeno un figlio è maschio”. Ricordiamoci dell’interpretazione
frequentistica della probabilità (condizionale e non): selezionando in modo indipendente un grande numero di famiglie con due figli, all’incirca un quarto di queste sarà
del tipo mm (ossia avrà entrambi i figli maschi), un quarto sarà m f , un quarto sarà
f m e un quarto sarà f f . Se ci restringiamo alle famiglie in cui almeno un figlio è
maschio, otteniamo un sottoinsieme costituito dai tre tipi mm, m f e f m, tutti all’incirca con la stessa numerosità: di conseguenza, delle famiglie in cui almeno un figlio
è maschio, all’incirca una su tre ha entrambi i figli maschi e due su tre hanno invece
un maschio e una femmina, in accordo con la risposta trovata sopra.
L’argomento frequentistico appena esposto contribuisce a chiarire il significato
da attribuire alla probabilità condizionale e, allo stesso tempo, ne mette in evidenza
le importanti limitazioni. Nella soluzione del problema abbiamo tradotto automaticamente l’informazione “sappiamo che almeno un figlio è maschio” con il concetto
matematico di condizionamento. Tuttavia, affinché questo procedimento sia giustificato, occorre che il processo con cui tale informazione è stata ottenuta corrisponda
52
1 Spazi di probabilità discreti: teoria
realmente a un “campionamento uniforme” dell’insieme delle famiglie in cui almeno un figlio è maschio. Per fare un esempio, immaginiamo di accedere ai dati del
censimento Istat e di costruire un database contenente tutte e sole le coppie italiane
con due figli, di cui almeno uno maschio: se si sceglie una famiglia a caso all’interno
del database, la probabilità che entrambi i figli siano maschi corrisponde effettivamente (all’incirca) a 13 . Il problema è che esistono diversi modi alternativi molto
naturali in cui si può venire a conoscenza dell’informazione che almeno un figlio è
maschio, che non possono essere tradotti con il semplice condizionamento.
Un esempio concreto contribuirà a chiarire la situazione. Data una coppia con
due figli(e), immaginiamo che venga scelto uno dei due figli a caso e si scopra che è
un maschio. Sulla base di questa informazione, qual è la probabilità che anche l’altro
figlio sia maschio? Come vedremo tra un istante, la risposta in questo caso vale 12 .
L’informazione “un figlio scelto a caso risulta maschio” non corrisponde dunque al
semplice condizionamento rispetto all’evento “almeno un figlio è maschio”.
Ingrandiamo lo spazio campionario W in modo da descrivere anche quale figlio
viene scelto, ponendo
W 0 := W ⇥ {1, 2} = {mm1, mm2, m f 1, m f 2, f m1, f m2, f f 1, f f 2} ,
dove mm1 significa che il primogenito e il secondogenito sono maschi e viene scelto
il primogenito, ecc. Si noti che gli eventi prima introdotti A := “il primogenito è
maschio” e B := “il secondogenito è maschio” diventano ora
A = {mm1, mm2, m f 1, m f 2} ,
0
B = {mm1, mm2, f m1, f m2} .
Per determinare la probabilità P da mettere su
W 0,
1
,
4
dal momento che le probabilità dei sessi dei figli presenti nella famiglia sono le
stesse di prima. Infine, visto che il figlio viene scelto “a caso”, imponiamo che
P(A \ B \C) |A \ B \C| |A \ B| 2 1
=
=
= = .
P(C)
|C|
|C|
4 2
Esempio 1.24 (Un caso giudiziario). Una donna venne assassinata, il marito era il
principale sospettato. Nel corso delle indagini si scoprı̀ che il marito aveva più volte
picchiato la moglie. L’accusa affermò che questo fatto rappresentava un importante
indizio per la colpevolezza. La difesa ribatté che, secondo i dati forniti dalla Polizia
di Stato, tra gli uomini che picchiano le loro mogli, solo 1 su 10 000 finisce poi per
assassinarla. Pertanto tale dato contribuisce solo in modo molto marginale alla tesi
di colpevolezza. In primo grado il giudice accolse la tesi della difesa.
In secondo grado l’accusa rilevò il seguente errore nell’argomento della difesa.
La frazione 10 1000 fornisce una stima della probabilità che una donna venga ammazzata dal marito condizionalmente al fatto che il marito la picchiasse. Ma noi
non solo sappiamo che il marito la picchiava, ma anche che qualcuno ha effettivamente assassinato la donna! Quindi, per utilizzare l’intera informazione disponibile,
occorre calcolare la probabilità che “una donna venga ammazzata dal marito” condizionalmente all’evento “la donna veniva picchiata dal marito ed è stata ammazzata
da qualcuno”.
Per formalizzare il problema, consideriamo una popolazione numerosa e sufficientemente omogenea di donne sposate, e consideriamo i seguenti eventi, relativi
ad un individuo casualmente scelto in questa popolazione:
Si noti che l’evento “la donna viene assassinata da qualcuno” corrisponde a B [ C,
pertanto la probabilità che desideriamo calcolare è P(B|A \ (B [ C)). Notando che
B \C = 0,
/ possiamo riscrivere questa probabilità nella forma più conveniente
P(B \ A \ (B [C))
P(B \ A)
P(B|A)
=
=
P(A \ (B [C))
P((B [C) \ A)
P(B [C|A)
P(B|A)
=
.
P(B|A) + P(C|A)
P(B|A \ (B [C)) =
1
P0 ({mm1}|{mm1, mm2}) = ,
2
da cui segue che
P0 ({mm1}) = P0 ({mm1, mm2}) P0 ({mm1}|{mm1, mm2}) =
P0 (A \ B|C) =
53
A = “la donna è stata picchiata dal marito”
B = “la donna viene assassinata dal marito”
C = “la donna viene assassinata da una persona diversa dal marito” .
è naturale richiedere che
P0 ({mm1, mm2}) = P0 ({m f 1, m f 2}) = P0 ({ f m1, f m2}) = P0 ({ f f 1, f f 2}) =
1.3 Probabilità condizionale e indipendenza
11 1
= .
42 8
Con analoghi argomenti si mostra che P0 ({w}) = 18 per ogni w 2 W 0 , dunque P0 è la
probabilità uniforme su W 0 . Introducendo l’evento
C := “il figlio scelto è maschio” = {mm1, mm2, m f 1, f m2} ,
otteniamo infine la probabilità che entrambi i figli siano maschi, sapendo che quello
scelto è maschio:
Sappiamo che P(B|A) = 10 1000 , mentre non conosciamo il valore di P(C|A). Un’informazione utile è la seguente: secondo i dati della Polizia, nella totalità della popolazione circa una donna su 100 000 viene assassinata (dal marito o da qualcun altro),
cioè possiamo assumere che P(B [C) = 1001000 . Vediamo come questo dato, insieme
ad alcune assunzioni naturali, possa permettere di dare una stima di P(C|A).
È ragionevole assumere che tutte le donne, vengano o meno picchiate dal marito,
abbiano la stessa probabilità di essere assassinate da una persona diversa dal marito.
Questo significa che P(C|A) = P(C), ossia gli eventi A e C sono indipendenti. D’altro canto P(C)  P(B [ C), per cui mettendo insieme le precedenti considerazioni
otteniamo la stima
54
1 Spazi di probabilità discreti: teoria
P(B|A \ (B [C)) =
P(B|A)
P(B|A) + P(C)
P(B|A)
=
P(B|A) + P(B [C)
1
10 000
1
10 000
+ 1001000
=
10
.
11
1.3 Probabilità condizionale e indipendenza
55
B := “in città vi sono almeno due individui con i requisiti richiesti” ,
C := “nel database c’è esattamente un individuo con i requisiti richiesti” ,
Quindi, la sola informazione che avesse picchiato la moglie, rende la probabilità che
il marito sia l’assassino almeno 10
11 ' 91%! Il marito fu poi condannato. . .
occorre dunque calcolare P(B|C). Notiamo che B \C = B0 \C, dove
Esempio 1.25 (Un altro caso giudiziario). Dalle indagini relative ad un omicidio è
emerso che il colpevole possiede un determinato set di caratteristiche (per es. capelli
rossi, zoppicante, ecc.) che lo rendono piuttosto raro: si stima che una frazione p ⌧ 1
di popolazione possegga tali caratteristiche. La città in cui si è svolto l’attentato
ha n abitanti, con np ' 0.05. Una ricerca su un database di individui schedati ha
identificato un unico individuo che possiede il set di caratteristiche. Per affermar la
colpevolezza di tale individuo, l’accusa argomenta come segue:
Possiamo inoltre assumere che gli eventi B0 e C, riferendosi a gruppi distinti di
individui, siano indipendenti. Ci riduciamo dunque a calcolare
La probabilità che in città vi siano almeno due individui con il set
di caratteristiche cercato è circa (np)2 = 0.0025. Pertanto, l’individuo
trovato è con probabilità 1 (np)2 = 0.9975 l’unico con tale set di
caratteristiche. La sua colpevolezza è accertata con probabilità 99.75%.
Questo argomento è sbagliato, in particolare la conclusione. Vediamo perché.
Una ragionevole assunzione è che ogni individuo possegga il set di caratteristiche
cercato con probabilità p, indipendentemente dagli altri. Pertanto, per quanto visto
nel paragrafo 1.3.4, se Ak denota l’evento “in città ci sono k individui con il set di
caratteristiche”, si ha
✓ ◆
n k
P(Ak ) =
p (1 p)n k .
k
In particolare
P(A0 ) = (1
p)n ,
P(A1 ) = np(1
p)n
1
,
(1.56)
quindi la probabilità che vi siano almeno due individui con i requisiti richiesti è
P [(A0 [ A1 )c ] = 1
(1
p)n
np(1
p)n
1
'
n(n
1)
2
1
p2 ' (np)2 ,
2
B0 := “tra gli individui non schedati almeno uno ha le caratteristiche richieste” .
P(B|C) =
Se indichiamo con m il numero degli individui della città inseriti nel database, la
prima formula in (1.56) con n m invece che n dà
P(B|C) = P(B0 ) = 1
(1
p)n
m
' (n
m)p ' np = 0.05 ,
(1.58)
dove abbiamo fatto l’ipotesi, molto verosimile, che m ⌧ n. Dunque, sulla base delle conoscenze acquisite, la probabilità che l’individuo trovato sia l’unico con le
caratteristiche date, e quindi che sia colpevole, è
P(Bc |C) = 95%,
probabilmente non sufficiente a fugare “ogni ragionevole dubbio”.
Per apprezzare la sottigliezza della questione, consideriamo il seguente quesito.
Senza aver condotto alcuna ricerca su database, qual è la probabilità che l’autore
dell’omicidio non sia l’unico individuo in città con le caratteristiche richieste? In
questo caso, l’unica informazione disponibile è che “esiste almeno un individuo in
città con le caratteristiche richieste” (l’assassino), che corrisponde all’evento Ac0 .
Dobbiamo pertanto calcolare P(B|Ac0 ). Osservando che B = (A0 [ A1 )c , si ottiene
P(B|Ac0 ) = P ((A0 [ A1 )c |Ac0 ) =
(1.57)
dove la prima approssimazione si ottiene con uno sviluppo di Taylor al secondo
ordine della funzione f (p) = 1 (1 p)n np(1 p)n 1 attorno a p = 0. La stima
dell’accusa va dunque corretta di un fattore 12 . Ma non è certo questo l’errore più
rilevante, anche perché la correzione rende l’argomento ancor più stringente.
Il punto fondamentale è che l’accusa non ha tenuto conto del fatto che un individuo con il set di caratteristiche dato è già stato trovato. La quantità probante
non è dunque la “probabilità che vi siano in città almeno due individui con i requisiti richiesti”, bensı̀ la “probabilità che vi siano in città almeno due individui
con i requisiti richiesti condizionalmente al fatto che la ricerca nel database ne ha
identificato uno”. Considerando gli eventi
P(B \C)
P(B0 \C)
P(B0 ) P(C)
=
=
= P(B0 ) .
P(C)
P(C)
P(C)
P ((A0 [ A1 )c )
.
P Ac0
Grazie alla relazione (1.57) si ha P ((A0 [ A1 )c ) ' 12 (np)2 . Analogamente, grazie a
(1.56), si ha
P (Ac0 ) = 1 (1 p)n ' np,
pertanto
1
P(B|Ac0 ) ' np = 0.025 ,
2
che differisce di un fattore 12 dal risultato (1.58) trovato sopra!
Analogamente a quanto abbiamo visto nell’Esempio 1.23, i risultati ottenuti mostrano che l’informazione “la ricerca nel database ha individuato un individuo con
le caratteristiche cercate” non corrisponde al semplice condizionamento rispetto
all’evento “in città esiste almeno un individuo con le caratteristiche cercate”.
Fly UP