Esempi e paradossi sul condizionamento

by user

on 06 июля 2016

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download Esempi e paradossi sul condizionamento

Transcript

Esempi e paradossi sul condizionamento

48
1 Spazi di probabilità discreti: teoria
1.3.5 Esempi e paradossi sul condizionamento
La probabilità condizionale è una delle principali sorgenti di “paradossi” in teoria
della probabilità, intendendo con questo termine risultati veri ma poco intuitivi. Al
di là del loro interesse intrinseco, lo studio di questi problemi è utile perché evidenzia i punti delicati che si nascondono dietro la nozione di condizionamento e,
soprattutto, dietro la sua interpretazione.
In questo paragrafo discutiamo con un certo dettaglio due problemi classici, noti
come paradosso di Monty Hall (Esempio 1.22) e paradosso dei figli (Esempio 1.23).
Altri problemi si possono trovare tra gli esercizi. Chiudiamo quindi il paragrafo
(e il capitolo) con due problemi liberamente ispirati a casi giudiziari reali (Esempi 1.24 e 1.25), che mostrano quanto la mancata comprensione della nozione di
condizionamento possa condurre a conclusioni errate.
Esempio 1.22 (Paradosso di Monty Hall). Il presentatore di un gioco a premi vi
propone di scegliere una di tre buste chiuse. Delle tre buste, una contiene un premio
mentre le altre due sono vuote. Dopo che avete effettuato la scelta, il presentatore
apre una delle due buste rimaste, mostrando che è vuota, e vi propone di cambiare
la busta che avete scelto con quella rimanente. Che cosa vi conviene fare?
A dispetto della formulazione elementare, questo problema nasconde diverse insidie, che sono per certi versi paradigmatiche dei problemi che coinvolgono la probabilità condizionale. Per cominciare, la strategia con cui il presentatore sceglie la
busta da aprire non è esplicitamente dichiarata nella formulazione del problema:
come vedremo, strategie diverse conducono a modelli probabilistici distinti, che
determinano risposte diverse al problema.
Numeriamo le buste da 1 a 3 e consideriamo innanzitutto la seguente strategia:
il presentatore guarda di nascosto le due buste che gli sono rimaste in mano e ne
apre sempre una vuota (nel caso in cui entrambe le buste siano vuote, diciamo che
apre quella con numero più basso). Allora la risposta è che vi conviene cambiare
busta, perché la probabilità di trovare il premio passa da 13 a 23 . Per convincersene,
notiamo che l’esperimento aleatorio può essere descritto dallo spazio campionario
W = {1, 2, 3} ⇥ {1, 2, 3} = {w = (i, j) : 1  i, j  3}, dove w = (i, j) significa che
il premio è nella busta i e voi scegliete inizialmente la busta j. Definiamo gli eventi
Ak := “il premio è nella busta k” = {(i, j) 2 W : i = k} ,
B` := “voi scegliete inizialmente la busta `” = {(i, j) 2 W : j = `} ,
dove k, ` 2 {1, 2, 3}. Quale probabilità P è sensato mettere su W ? Innanzitutto è
ragionevole assumere che il premio sia in ciascuna busta con la stessa probabilità,
ossia P(A1 ) = P(A2 ) = P(A3 ) = 13 . In secondo luogo, è naturale supporre che la
vostra scelta iniziale della busta sia indipendente da quale busta contenga il premio,
ossia gli eventi Ak e B` siano indipendenti per ogni k, ` 2 {1, 2, 3}. Di conseguenza,
una volta specificati i valori di r` := P(B` ) per k = 1, 2, 3 — per esempio r1 =
r2 = r3 = 13 se scegliete inizialmente una busta “a caso” — risulta determinata la
probabilità P su W , dato che P({(k`)}) = P(Ak \B` ) = P(Ak ) P(B` ) = 13 r` . Possiamo
1.3 Probabilità condizionale e indipendenza
49
finalmente determinare la probabilità degli eventi a cui siamo interessati, ossia
F := “tenendo la busta inizialmente scelta, trovate il premio”
G := “cambiando la busta, trovate il premio” .
(1.55)
È chiaro che possiamo riformulare
F = “il premio è nella busta scelta inizialmente” = {(i, j) 2 W : i = j} ,
pertanto
1
1
P(F) = P({(1, 1)}) + P({(2, 2)}) + P({(3, 3)}) = (r1 + r2 + r3 ) = .
3
3
D’atro canto, con un momento di riflessione ci si convince che, cambiando busta,
trovate il premio se e solo se esso non è nella busta da voi scelta inizialmente: in
tal caso infatti il premio è in una delle due buste rimaste inizialmente in mano al
presentatore, e lui provvede ad aprire quella vuota. Questo significa che G = F c e
dunque
2
P(G) = P(F c ) = 1 P(F) = ,
3
come annunciato. Si noti che il risultato non dipende dalle probabilità rk con cui
effettuate la vostra scelta iniziale, come è peraltro intuitivo.
Mentre è intuitivamente chiaro che la probabilità di trovare il premio tenendo la
busta inizialmente scelta vale 13 , il fatto che la probabilità diventi 23 se si cambia busta può apparire prima vista sorprendente. Per convincersi intuitivamente di questo
fatto, suggeriamo di riflettere sull’osservazione sopra esposta: cambiando busta, si
trova il premio ogniqualvolta esso non è nella busta inizialmente scelta, dunque in
media due volte su tre. Chi non fosse convinto, può provare un esperimento concreto ripetendo il gioco molte volte, eventualmente con l’ausilio di un computer. Per
esercitare l’intuizione su problemi analoghi, suggeriamo gli esercizi 1.7 e 1.8.
Per concludere, mostriamo come la risposta cambia in funzione della strategia
adottata dal presentatore. Supponiamo ad esempio che il presentatore apra una a
caso delle due buste che gli sono rimaste in mano: se tale busta contiene il premio, il
gioco finisce; se invece è vuota, vi viene proposta la possibilità di cambiare la busta
che avete scelto inizialmente con quella rimanente. Mostriamo che in questo caso
è indifferente cambiare o non cambiare busta: in entrambi i casi, se il presentatore
apre una busta vuota, la probabilità (condizionale) di trovare il premio vale 12 .
Per formalizzare il problema, conviene “arricchire” lo spazio campionario W introdotto in precedenza, in modo che i suoi elementi descrivano, oltre alla busta che
contiene il premio e a quella scelta inizialmente, anche la busta aperta dal presentatore. Una scelta naturale è dunque W̃ := {w = (i, j, k) : i, j, k 2 {1, 2, 3}, k 6= j}.
Preferiamo tuttavia alleggerire le notazioni, immaginando che voi scegliate sempre
la busta numero 1 (come abbiamo visto in precedenza, e come è intuitivo, la strategia
con cui viene scelta la carta iniziale risulta alla fine irrilevante). Poniamo dunque
50
1 Spazi di probabilità discreti: teoria
Ŵ := {w = (i, k) : i 2 {1, 2, 3}, k 2 {2, 3}} ,
A` = “il premio è nella busta `” = {(i, k) 2 Ŵ : i = `} ,
e richiediamo, come in precedenza, che P̂(A1 ) = P̂(A2 ) = P̂(A3 ) = 13 . Inoltre,
definendo per m 2 {2, 3} l’evento
Cm := “il presentatore sceglie la busta m” = {(i, k) 2 Ŵ : k = m} ,
richiediamo che P̂(Cm |A` ) = 12 per ogni ` 2 {1, 2, 3} e m 2 {2, 3}, perché il presentatore apre una busta “a caso”. Ciò significa che per ogni w = (i, k) 2 Ŵ
11 1
= ,
32 6
ossia P̂ è la probabilità uniforme su Ŵ . Introduciamo ora l’evento
D := “la busta aperta dal presentatore è vuota” = {(i, k) 2 Ŵ : k 6= i}
= {(1, 2), (1, 3), (2, 3), (3, 2)} ,
che ha probabilità P̂(D) =
|D|
|Ŵ |
=
4
6
= 23 . Ricordando gli eventi F e G, definiti infor-
malmente in (1.55), dobbiamo calcolare P̂(F|D) e P̂(G|D). Avendo assunto che voi
scegliate inizialmente la busta numero 1, possiamo identificare
F = {(i, k) 2 Ŵ : i = 1} = {(1, 2), (1, 3)} ,
da cui segue che, se il presentatore apre una busta vuota, la probabilità (condizionale) di trovare il premio mantenendo la busta scelta inizialmente vale
P̂(F|D) =
P̂(F \ D)
|F \ D|
2
1
=
= = .
|D|
4
2
P̂(D)
Per quanto riguarda l’evento G, possiamo scrivere
G = {(i, k) 2 Ŵ : i 6= 1, k 6= i} = {(2, 3), (3, 2)} .
poiché, cambiando busta, trovate il premio se e solo se il premio non è nella busta
numero 1 né nella busta aperta dal presentatore. Di conseguenza, se il presentatore
apre una busta vuota, la probabilità (condizionale) di trovare il premio cambiando
busta è data da
P̂(G|D) =
P̂(G \ D)
|G \ D|
2
1
=
= = .
|D|
4
2
P̂(D)
51
come annunciato in precedenza.
dove w = (i, k) significa che il premio è nella busta i, voi scegliete inizialmente
la busta 1 e il presentatore apre la busta k (da cui la restrizione k 2 {2, 3}). Per
determinare la probabilità P̂ da mettere su Ŵ , definiamo per ` 2 {1, 2, 3} l’evento
P̂({w}) = P̂({(i, k)}) = P(Ai \Ck ) = P(Ai ) P(Ck |Ai ) =
1.3 Probabilità condizionale e indipendenza
Esempio 1.23 (Paradosso dei figli). Una coppia ha due figli(e). Assumendo che ciascun figlio possa essere maschio o femmina con la stessa probabilità, indipendentemente dal sesso dell’altro figlio, rispondiamo alle domande seguenti:
(1) Se il primogenito è maschio, qual è la probabilità che anche il secondogenito
lo sia?
(2) Se il secondogenito è maschio, qual è la probabilità che anche il primogenito
lo sia?
(3) Se almeno un figlio è maschio, qual è la probabilità che anche l’altro lo sia?
Per descrivere il sesso dei due figli, introduciamo lo spazio campionario W =
{mm, m f , f m, f f }, dove ab indica che il primogenito è di sesso a e il secondogenito di sesso b. È facile convincersi che le ipotesi di indipendenza e di equiprobabilità del sesso dei figli corrispondono a munire W della probabilità uniforme, cioè
P({mm}) = P({m f }) = P({ f m}) = P({ f f }) = 14 . Introducendo gli eventi
A := “il primogenito è maschio” = {mm, m f } ,
B := “il secondogenito è maschio” = {mm, f m} ,
e interpretando le domande poste come probabilità condizionali, le risposte si
ottengono con semplici calcoli: essendo A [ B = {mm, m f , f m} e A \ B = {mm},
(1) P(A \ B|A) =
(2) P(A \ B|B) =
P(A\B)
P(A)
P(A\B)
P(B)
(3) P(A \ B|A [ B) =
=
=
|A\B|
|A|
|A\B|
|B|
= 12 ;
= 12 ;
P((A\B)\(A[B))
P(A[B)
=
P(A\B)
P(A[B)
=
|A\B|
|A[B|
= 13 .
Sebbene i calcoli siano del tutto elementari, la risposta all’ultima domanda è a
prima vista sorprendente e merita una discussione. Il punto chiave sta nel significato
dell’espressione “se almeno un figlio è maschio”. Ricordiamoci dell’interpretazione
frequentistica della probabilità (condizionale e non): selezionando in modo indipendente un grande numero di famiglie con due figli, all’incirca un quarto di queste sarà
del tipo mm (ossia avrà entrambi i figli maschi), un quarto sarà m f , un quarto sarà
f m e un quarto sarà f f . Se ci restringiamo alle famiglie in cui almeno un figlio è
maschio, otteniamo un sottoinsieme costituito dai tre tipi mm, m f e f m, tutti all’incirca con la stessa numerosità: di conseguenza, delle famiglie in cui almeno un figlio
è maschio, all’incirca una su tre ha entrambi i figli maschi e due su tre hanno invece
un maschio e una femmina, in accordo con la risposta trovata sopra.
L’argomento frequentistico appena esposto contribuisce a chiarire il significato
da attribuire alla probabilità condizionale e, allo stesso tempo, ne mette in evidenza
le importanti limitazioni. Nella soluzione del problema abbiamo tradotto automaticamente l’informazione “sappiamo che almeno un figlio è maschio” con il concetto
matematico di condizionamento. Tuttavia, affinché questo procedimento sia giustificato, occorre che il processo con cui tale informazione è stata ottenuta corrisponda
52
1 Spazi di probabilità discreti: teoria
realmente a un “campionamento uniforme” dell’insieme delle famiglie in cui almeno un figlio è maschio. Per fare un esempio, immaginiamo di accedere ai dati del
censimento Istat e di costruire un database contenente tutte e sole le coppie italiane
con due figli, di cui almeno uno maschio: se si sceglie una famiglia a caso all’interno
del database, la probabilità che entrambi i figli siano maschi corrisponde effettivamente (all’incirca) a 13 . Il problema è che esistono diversi modi alternativi molto
naturali in cui si può venire a conoscenza dell’informazione che almeno un figlio è
maschio, che non possono essere tradotti con il semplice condizionamento.
Un esempio concreto contribuirà a chiarire la situazione. Data una coppia con
due figli(e), immaginiamo che venga scelto uno dei due figli a caso e si scopra che è
un maschio. Sulla base di questa informazione, qual è la probabilità che anche l’altro
figlio sia maschio? Come vedremo tra un istante, la risposta in questo caso vale 12 .
L’informazione “un figlio scelto a caso risulta maschio” non corrisponde dunque al
semplice condizionamento rispetto all’evento “almeno un figlio è maschio”.
Ingrandiamo lo spazio campionario W in modo da descrivere anche quale figlio
viene scelto, ponendo
W 0 := W ⇥ {1, 2} = {mm1, mm2, m f 1, m f 2, f m1, f m2, f f 1, f f 2} ,
dove mm1 significa che il primogenito e il secondogenito sono maschi e viene scelto
il primogenito, ecc. Si noti che gli eventi prima introdotti A := “il primogenito è
maschio” e B := “il secondogenito è maschio” diventano ora
A = {mm1, mm2, m f 1, m f 2} ,
0
B = {mm1, mm2, f m1, f m2} .
Per determinare la probabilità P da mettere su
W 0,
1
,
4
dal momento che le probabilità dei sessi dei figli presenti nella famiglia sono le
stesse di prima. Infine, visto che il figlio viene scelto “a caso”, imponiamo che
P(A \ B \C) |A \ B \C| |A \ B| 2 1
=
=
= = .
P(C)
|C|
|C|
4 2
Esempio 1.24 (Un caso giudiziario). Una donna venne assassinata, il marito era il
principale sospettato. Nel corso delle indagini si scoprı̀ che il marito aveva più volte
picchiato la moglie. L’accusa affermò che questo fatto rappresentava un importante
indizio per la colpevolezza. La difesa ribatté che, secondo i dati forniti dalla Polizia
di Stato, tra gli uomini che picchiano le loro mogli, solo 1 su 10 000 finisce poi per
assassinarla. Pertanto tale dato contribuisce solo in modo molto marginale alla tesi
di colpevolezza. In primo grado il giudice accolse la tesi della difesa.
In secondo grado l’accusa rilevò il seguente errore nell’argomento della difesa.
La frazione 10 1000 fornisce una stima della probabilità che una donna venga ammazzata dal marito condizionalmente al fatto che il marito la picchiasse. Ma noi
non solo sappiamo che il marito la picchiava, ma anche che qualcuno ha effettivamente assassinato la donna! Quindi, per utilizzare l’intera informazione disponibile,
occorre calcolare la probabilità che “una donna venga ammazzata dal marito” condizionalmente all’evento “la donna veniva picchiata dal marito ed è stata ammazzata
da qualcuno”.
Per formalizzare il problema, consideriamo una popolazione numerosa e sufficientemente omogenea di donne sposate, e consideriamo i seguenti eventi, relativi
ad un individuo casualmente scelto in questa popolazione:
Si noti che l’evento “la donna viene assassinata da qualcuno” corrisponde a B [ C,
pertanto la probabilità che desideriamo calcolare è P(B|A \ (B [ C)). Notando che
B \C = 0,
/ possiamo riscrivere questa probabilità nella forma più conveniente
P(B \ A \ (B [C))
P(B \ A)
P(B|A)
=
=
P(A \ (B [C))
P((B [C) \ A)
P(B [C|A)
P(B|A)
=
.
P(B|A) + P(C|A)
P(B|A \ (B [C)) =
1
P0 ({mm1}|{mm1, mm2}) = ,
2
da cui segue che
P0 ({mm1}) = P0 ({mm1, mm2}) P0 ({mm1}|{mm1, mm2}) =
P0 (A \ B|C) =
53
A = “la donna è stata picchiata dal marito”
B = “la donna viene assassinata dal marito”
C = “la donna viene assassinata da una persona diversa dal marito” .
è naturale richiedere che
P0 ({mm1, mm2}) = P0 ({m f 1, m f 2}) = P0 ({ f m1, f m2}) = P0 ({ f f 1, f f 2}) =
1.3 Probabilità condizionale e indipendenza
11 1
= .
42 8
Con analoghi argomenti si mostra che P0 ({w}) = 18 per ogni w 2 W 0 , dunque P0 è la
probabilità uniforme su W 0 . Introducendo l’evento
C := “il figlio scelto è maschio” = {mm1, mm2, m f 1, f m2} ,
otteniamo infine la probabilità che entrambi i figli siano maschi, sapendo che quello
scelto è maschio:
Sappiamo che P(B|A) = 10 1000 , mentre non conosciamo il valore di P(C|A). Un’informazione utile è la seguente: secondo i dati della Polizia, nella totalità della popolazione circa una donna su 100 000 viene assassinata (dal marito o da qualcun altro),
cioè possiamo assumere che P(B [C) = 1001000 . Vediamo come questo dato, insieme
ad alcune assunzioni naturali, possa permettere di dare una stima di P(C|A).
È ragionevole assumere che tutte le donne, vengano o meno picchiate dal marito,
abbiano la stessa probabilità di essere assassinate da una persona diversa dal marito.
Questo significa che P(C|A) = P(C), ossia gli eventi A e C sono indipendenti. D’altro canto P(C)  P(B [ C), per cui mettendo insieme le precedenti considerazioni
otteniamo la stima
54
1 Spazi di probabilità discreti: teoria
P(B|A \ (B [C)) =
P(B|A)
P(B|A) + P(C)
P(B|A)
=
P(B|A) + P(B [C)
1
10 000
1
10 000
+ 1001000
=
10
.
11
1.3 Probabilità condizionale e indipendenza
55
B := “in città vi sono almeno due individui con i requisiti richiesti” ,
C := “nel database c’è esattamente un individuo con i requisiti richiesti” ,
Quindi, la sola informazione che avesse picchiato la moglie, rende la probabilità che
il marito sia l’assassino almeno 10
11 ' 91%! Il marito fu poi condannato. . .
occorre dunque calcolare P(B|C). Notiamo che B \C = B0 \C, dove
Esempio 1.25 (Un altro caso giudiziario). Dalle indagini relative ad un omicidio è
emerso che il colpevole possiede un determinato set di caratteristiche (per es. capelli
rossi, zoppicante, ecc.) che lo rendono piuttosto raro: si stima che una frazione p ⌧ 1
di popolazione possegga tali caratteristiche. La città in cui si è svolto l’attentato
ha n abitanti, con np ' 0.05. Una ricerca su un database di individui schedati ha
identificato un unico individuo che possiede il set di caratteristiche. Per affermar la
colpevolezza di tale individuo, l’accusa argomenta come segue:
Possiamo inoltre assumere che gli eventi B0 e C, riferendosi a gruppi distinti di
individui, siano indipendenti. Ci riduciamo dunque a calcolare
La probabilità che in città vi siano almeno due individui con il set
di caratteristiche cercato è circa (np)2 = 0.0025. Pertanto, l’individuo
trovato è con probabilità 1 (np)2 = 0.9975 l’unico con tale set di
caratteristiche. La sua colpevolezza è accertata con probabilità 99.75%.
Questo argomento è sbagliato, in particolare la conclusione. Vediamo perché.
Una ragionevole assunzione è che ogni individuo possegga il set di caratteristiche
cercato con probabilità p, indipendentemente dagli altri. Pertanto, per quanto visto
nel paragrafo 1.3.4, se Ak denota l’evento “in città ci sono k individui con il set di
caratteristiche”, si ha
✓ ◆
n k
P(Ak ) =
p (1 p)n k .
k
In particolare
P(A0 ) = (1
p)n ,
P(A1 ) = np(1
p)n
1
,
(1.56)
quindi la probabilità che vi siano almeno due individui con i requisiti richiesti è
P [(A0 [ A1 )c ] = 1
(1
p)n
np(1
p)n
1
'
n(n
1)
2
1
p2 ' (np)2 ,
2
B0 := “tra gli individui non schedati almeno uno ha le caratteristiche richieste” .
P(B|C) =
Se indichiamo con m il numero degli individui della città inseriti nel database, la
prima formula in (1.56) con n m invece che n dà
P(B|C) = P(B0 ) = 1
(1
p)n
m
' (n
m)p ' np = 0.05 ,
(1.58)
dove abbiamo fatto l’ipotesi, molto verosimile, che m ⌧ n. Dunque, sulla base delle conoscenze acquisite, la probabilità che l’individuo trovato sia l’unico con le
caratteristiche date, e quindi che sia colpevole, è
P(Bc |C) = 95%,
probabilmente non sufficiente a fugare “ogni ragionevole dubbio”.
Per apprezzare la sottigliezza della questione, consideriamo il seguente quesito.
Senza aver condotto alcuna ricerca su database, qual è la probabilità che l’autore
dell’omicidio non sia l’unico individuo in città con le caratteristiche richieste? In
questo caso, l’unica informazione disponibile è che “esiste almeno un individuo in
città con le caratteristiche richieste” (l’assassino), che corrisponde all’evento Ac0 .
Dobbiamo pertanto calcolare P(B|Ac0 ). Osservando che B = (A0 [ A1 )c , si ottiene
P(B|Ac0 ) = P ((A0 [ A1 )c |Ac0 ) =
(1.57)
dove la prima approssimazione si ottiene con uno sviluppo di Taylor al secondo
ordine della funzione f (p) = 1 (1 p)n np(1 p)n 1 attorno a p = 0. La stima
dell’accusa va dunque corretta di un fattore 12 . Ma non è certo questo l’errore più
rilevante, anche perché la correzione rende l’argomento ancor più stringente.
Il punto fondamentale è che l’accusa non ha tenuto conto del fatto che un individuo con il set di caratteristiche dato è già stato trovato. La quantità probante
non è dunque la “probabilità che vi siano in città almeno due individui con i requisiti richiesti”, bensı̀ la “probabilità che vi siano in città almeno due individui
con i requisiti richiesti condizionalmente al fatto che la ricerca nel database ne ha
identificato uno”. Considerando gli eventi
P(B \C)
P(B0 \C)
P(B0 ) P(C)
=
=
= P(B0 ) .
P(C)
P(C)
P(C)
P ((A0 [ A1 )c )
.
P Ac0
Grazie alla relazione (1.57) si ha P ((A0 [ A1 )c ) ' 12 (np)2 . Analogamente, grazie a
(1.56), si ha
P (Ac0 ) = 1 (1 p)n ' np,
pertanto
1
P(B|Ac0 ) ' np = 0.025 ,
2
che differisce di un fattore 12 dal risultato (1.58) trovato sopra!
Analogamente a quanto abbiamo visto nell’Esempio 1.23, i risultati ottenuti mostrano che l’informazione “la ricerca nel database ha individuato un individuo con
le caratteristiche cercate” non corrisponde al semplice condizionamento rispetto
all’evento “in città esiste almeno un individuo con le caratteristiche cercate”.