Comments
Description
Transcript
Esempi e paradossi sul condizionamento
48 1 Spazi di probabilità discreti: teoria 1.3.5 Esempi e paradossi sul condizionamento La probabilità condizionale è una delle principali sorgenti di “paradossi” in teoria della probabilità, intendendo con questo termine risultati veri ma poco intuitivi. Al di là del loro interesse intrinseco, lo studio di questi problemi è utile perché evidenzia i punti delicati che si nascondono dietro la nozione di condizionamento e, soprattutto, dietro la sua interpretazione. In questo paragrafo discutiamo con un certo dettaglio due problemi classici, noti come paradosso di Monty Hall (Esempio 1.22) e paradosso dei figli (Esempio 1.23). Altri problemi si possono trovare tra gli esercizi. Chiudiamo quindi il paragrafo (e il capitolo) con due problemi liberamente ispirati a casi giudiziari reali (Esempi 1.24 e 1.25), che mostrano quanto la mancata comprensione della nozione di condizionamento possa condurre a conclusioni errate. Esempio 1.22 (Paradosso di Monty Hall). Il presentatore di un gioco a premi vi propone di scegliere una di tre buste chiuse. Delle tre buste, una contiene un premio mentre le altre due sono vuote. Dopo che avete effettuato la scelta, il presentatore apre una delle due buste rimaste, mostrando che è vuota, e vi propone di cambiare la busta che avete scelto con quella rimanente. Che cosa vi conviene fare? A dispetto della formulazione elementare, questo problema nasconde diverse insidie, che sono per certi versi paradigmatiche dei problemi che coinvolgono la probabilità condizionale. Per cominciare, la strategia con cui il presentatore sceglie la busta da aprire non è esplicitamente dichiarata nella formulazione del problema: come vedremo, strategie diverse conducono a modelli probabilistici distinti, che determinano risposte diverse al problema. Numeriamo le buste da 1 a 3 e consideriamo innanzitutto la seguente strategia: il presentatore guarda di nascosto le due buste che gli sono rimaste in mano e ne apre sempre una vuota (nel caso in cui entrambe le buste siano vuote, diciamo che apre quella con numero più basso). Allora la risposta è che vi conviene cambiare busta, perché la probabilità di trovare il premio passa da 13 a 23 . Per convincersene, notiamo che l’esperimento aleatorio può essere descritto dallo spazio campionario W = {1, 2, 3} ⇥ {1, 2, 3} = {w = (i, j) : 1 i, j 3}, dove w = (i, j) significa che il premio è nella busta i e voi scegliete inizialmente la busta j. Definiamo gli eventi Ak := “il premio è nella busta k” = {(i, j) 2 W : i = k} , B` := “voi scegliete inizialmente la busta `” = {(i, j) 2 W : j = `} , dove k, ` 2 {1, 2, 3}. Quale probabilità P è sensato mettere su W ? Innanzitutto è ragionevole assumere che il premio sia in ciascuna busta con la stessa probabilità, ossia P(A1 ) = P(A2 ) = P(A3 ) = 13 . In secondo luogo, è naturale supporre che la vostra scelta iniziale della busta sia indipendente da quale busta contenga il premio, ossia gli eventi Ak e B` siano indipendenti per ogni k, ` 2 {1, 2, 3}. Di conseguenza, una volta specificati i valori di r` := P(B` ) per k = 1, 2, 3 — per esempio r1 = r2 = r3 = 13 se scegliete inizialmente una busta “a caso” — risulta determinata la probabilità P su W , dato che P({(k`)}) = P(Ak \B` ) = P(Ak ) P(B` ) = 13 r` . Possiamo 1.3 Probabilità condizionale e indipendenza 49 finalmente determinare la probabilità degli eventi a cui siamo interessati, ossia F := “tenendo la busta inizialmente scelta, trovate il premio” G := “cambiando la busta, trovate il premio” . (1.55) È chiaro che possiamo riformulare F = “il premio è nella busta scelta inizialmente” = {(i, j) 2 W : i = j} , pertanto 1 1 P(F) = P({(1, 1)}) + P({(2, 2)}) + P({(3, 3)}) = (r1 + r2 + r3 ) = . 3 3 D’atro canto, con un momento di riflessione ci si convince che, cambiando busta, trovate il premio se e solo se esso non è nella busta da voi scelta inizialmente: in tal caso infatti il premio è in una delle due buste rimaste inizialmente in mano al presentatore, e lui provvede ad aprire quella vuota. Questo significa che G = F c e dunque 2 P(G) = P(F c ) = 1 P(F) = , 3 come annunciato. Si noti che il risultato non dipende dalle probabilità rk con cui effettuate la vostra scelta iniziale, come è peraltro intuitivo. Mentre è intuitivamente chiaro che la probabilità di trovare il premio tenendo la busta inizialmente scelta vale 13 , il fatto che la probabilità diventi 23 se si cambia busta può apparire prima vista sorprendente. Per convincersi intuitivamente di questo fatto, suggeriamo di riflettere sull’osservazione sopra esposta: cambiando busta, si trova il premio ogniqualvolta esso non è nella busta inizialmente scelta, dunque in media due volte su tre. Chi non fosse convinto, può provare un esperimento concreto ripetendo il gioco molte volte, eventualmente con l’ausilio di un computer. Per esercitare l’intuizione su problemi analoghi, suggeriamo gli esercizi 1.7 e 1.8. Per concludere, mostriamo come la risposta cambia in funzione della strategia adottata dal presentatore. Supponiamo ad esempio che il presentatore apra una a caso delle due buste che gli sono rimaste in mano: se tale busta contiene il premio, il gioco finisce; se invece è vuota, vi viene proposta la possibilità di cambiare la busta che avete scelto inizialmente con quella rimanente. Mostriamo che in questo caso è indifferente cambiare o non cambiare busta: in entrambi i casi, se il presentatore apre una busta vuota, la probabilità (condizionale) di trovare il premio vale 12 . Per formalizzare il problema, conviene “arricchire” lo spazio campionario W introdotto in precedenza, in modo che i suoi elementi descrivano, oltre alla busta che contiene il premio e a quella scelta inizialmente, anche la busta aperta dal presentatore. Una scelta naturale è dunque W̃ := {w = (i, j, k) : i, j, k 2 {1, 2, 3}, k 6= j}. Preferiamo tuttavia alleggerire le notazioni, immaginando che voi scegliate sempre la busta numero 1 (come abbiamo visto in precedenza, e come è intuitivo, la strategia con cui viene scelta la carta iniziale risulta alla fine irrilevante). Poniamo dunque 50 1 Spazi di probabilità discreti: teoria Ŵ := {w = (i, k) : i 2 {1, 2, 3}, k 2 {2, 3}} , A` = “il premio è nella busta `” = {(i, k) 2 Ŵ : i = `} , e richiediamo, come in precedenza, che P̂(A1 ) = P̂(A2 ) = P̂(A3 ) = 13 . Inoltre, definendo per m 2 {2, 3} l’evento Cm := “il presentatore sceglie la busta m” = {(i, k) 2 Ŵ : k = m} , richiediamo che P̂(Cm |A` ) = 12 per ogni ` 2 {1, 2, 3} e m 2 {2, 3}, perché il presentatore apre una busta “a caso”. Ciò significa che per ogni w = (i, k) 2 Ŵ 11 1 = , 32 6 ossia P̂ è la probabilità uniforme su Ŵ . Introduciamo ora l’evento D := “la busta aperta dal presentatore è vuota” = {(i, k) 2 Ŵ : k 6= i} = {(1, 2), (1, 3), (2, 3), (3, 2)} , che ha probabilità P̂(D) = |D| |Ŵ | = 4 6 = 23 . Ricordando gli eventi F e G, definiti infor- malmente in (1.55), dobbiamo calcolare P̂(F|D) e P̂(G|D). Avendo assunto che voi scegliate inizialmente la busta numero 1, possiamo identificare F = {(i, k) 2 Ŵ : i = 1} = {(1, 2), (1, 3)} , da cui segue che, se il presentatore apre una busta vuota, la probabilità (condizionale) di trovare il premio mantenendo la busta scelta inizialmente vale P̂(F|D) = P̂(F \ D) |F \ D| 2 1 = = = . |D| 4 2 P̂(D) Per quanto riguarda l’evento G, possiamo scrivere G = {(i, k) 2 Ŵ : i 6= 1, k 6= i} = {(2, 3), (3, 2)} . poiché, cambiando busta, trovate il premio se e solo se il premio non è nella busta numero 1 né nella busta aperta dal presentatore. Di conseguenza, se il presentatore apre una busta vuota, la probabilità (condizionale) di trovare il premio cambiando busta è data da P̂(G|D) = P̂(G \ D) |G \ D| 2 1 = = = . |D| 4 2 P̂(D) 51 come annunciato in precedenza. dove w = (i, k) significa che il premio è nella busta i, voi scegliete inizialmente la busta 1 e il presentatore apre la busta k (da cui la restrizione k 2 {2, 3}). Per determinare la probabilità P̂ da mettere su Ŵ , definiamo per ` 2 {1, 2, 3} l’evento P̂({w}) = P̂({(i, k)}) = P(Ai \Ck ) = P(Ai ) P(Ck |Ai ) = 1.3 Probabilità condizionale e indipendenza Esempio 1.23 (Paradosso dei figli). Una coppia ha due figli(e). Assumendo che ciascun figlio possa essere maschio o femmina con la stessa probabilità, indipendentemente dal sesso dell’altro figlio, rispondiamo alle domande seguenti: (1) Se il primogenito è maschio, qual è la probabilità che anche il secondogenito lo sia? (2) Se il secondogenito è maschio, qual è la probabilità che anche il primogenito lo sia? (3) Se almeno un figlio è maschio, qual è la probabilità che anche l’altro lo sia? Per descrivere il sesso dei due figli, introduciamo lo spazio campionario W = {mm, m f , f m, f f }, dove ab indica che il primogenito è di sesso a e il secondogenito di sesso b. È facile convincersi che le ipotesi di indipendenza e di equiprobabilità del sesso dei figli corrispondono a munire W della probabilità uniforme, cioè P({mm}) = P({m f }) = P({ f m}) = P({ f f }) = 14 . Introducendo gli eventi A := “il primogenito è maschio” = {mm, m f } , B := “il secondogenito è maschio” = {mm, f m} , e interpretando le domande poste come probabilità condizionali, le risposte si ottengono con semplici calcoli: essendo A [ B = {mm, m f , f m} e A \ B = {mm}, (1) P(A \ B|A) = (2) P(A \ B|B) = P(A\B) P(A) P(A\B) P(B) (3) P(A \ B|A [ B) = = = |A\B| |A| |A\B| |B| = 12 ; = 12 ; P((A\B)\(A[B)) P(A[B) = P(A\B) P(A[B) = |A\B| |A[B| = 13 . Sebbene i calcoli siano del tutto elementari, la risposta all’ultima domanda è a prima vista sorprendente e merita una discussione. Il punto chiave sta nel significato dell’espressione “se almeno un figlio è maschio”. Ricordiamoci dell’interpretazione frequentistica della probabilità (condizionale e non): selezionando in modo indipendente un grande numero di famiglie con due figli, all’incirca un quarto di queste sarà del tipo mm (ossia avrà entrambi i figli maschi), un quarto sarà m f , un quarto sarà f m e un quarto sarà f f . Se ci restringiamo alle famiglie in cui almeno un figlio è maschio, otteniamo un sottoinsieme costituito dai tre tipi mm, m f e f m, tutti all’incirca con la stessa numerosità: di conseguenza, delle famiglie in cui almeno un figlio è maschio, all’incirca una su tre ha entrambi i figli maschi e due su tre hanno invece un maschio e una femmina, in accordo con la risposta trovata sopra. L’argomento frequentistico appena esposto contribuisce a chiarire il significato da attribuire alla probabilità condizionale e, allo stesso tempo, ne mette in evidenza le importanti limitazioni. Nella soluzione del problema abbiamo tradotto automaticamente l’informazione “sappiamo che almeno un figlio è maschio” con il concetto matematico di condizionamento. Tuttavia, affinché questo procedimento sia giustificato, occorre che il processo con cui tale informazione è stata ottenuta corrisponda 52 1 Spazi di probabilità discreti: teoria realmente a un “campionamento uniforme” dell’insieme delle famiglie in cui almeno un figlio è maschio. Per fare un esempio, immaginiamo di accedere ai dati del censimento Istat e di costruire un database contenente tutte e sole le coppie italiane con due figli, di cui almeno uno maschio: se si sceglie una famiglia a caso all’interno del database, la probabilità che entrambi i figli siano maschi corrisponde effettivamente (all’incirca) a 13 . Il problema è che esistono diversi modi alternativi molto naturali in cui si può venire a conoscenza dell’informazione che almeno un figlio è maschio, che non possono essere tradotti con il semplice condizionamento. Un esempio concreto contribuirà a chiarire la situazione. Data una coppia con due figli(e), immaginiamo che venga scelto uno dei due figli a caso e si scopra che è un maschio. Sulla base di questa informazione, qual è la probabilità che anche l’altro figlio sia maschio? Come vedremo tra un istante, la risposta in questo caso vale 12 . L’informazione “un figlio scelto a caso risulta maschio” non corrisponde dunque al semplice condizionamento rispetto all’evento “almeno un figlio è maschio”. Ingrandiamo lo spazio campionario W in modo da descrivere anche quale figlio viene scelto, ponendo W 0 := W ⇥ {1, 2} = {mm1, mm2, m f 1, m f 2, f m1, f m2, f f 1, f f 2} , dove mm1 significa che il primogenito e il secondogenito sono maschi e viene scelto il primogenito, ecc. Si noti che gli eventi prima introdotti A := “il primogenito è maschio” e B := “il secondogenito è maschio” diventano ora A = {mm1, mm2, m f 1, m f 2} , 0 B = {mm1, mm2, f m1, f m2} . Per determinare la probabilità P da mettere su W 0, 1 , 4 dal momento che le probabilità dei sessi dei figli presenti nella famiglia sono le stesse di prima. Infine, visto che il figlio viene scelto “a caso”, imponiamo che P(A \ B \C) |A \ B \C| |A \ B| 2 1 = = = = . P(C) |C| |C| 4 2 Esempio 1.24 (Un caso giudiziario). Una donna venne assassinata, il marito era il principale sospettato. Nel corso delle indagini si scoprı̀ che il marito aveva più volte picchiato la moglie. L’accusa affermò che questo fatto rappresentava un importante indizio per la colpevolezza. La difesa ribatté che, secondo i dati forniti dalla Polizia di Stato, tra gli uomini che picchiano le loro mogli, solo 1 su 10 000 finisce poi per assassinarla. Pertanto tale dato contribuisce solo in modo molto marginale alla tesi di colpevolezza. In primo grado il giudice accolse la tesi della difesa. In secondo grado l’accusa rilevò il seguente errore nell’argomento della difesa. La frazione 10 1000 fornisce una stima della probabilità che una donna venga ammazzata dal marito condizionalmente al fatto che il marito la picchiasse. Ma noi non solo sappiamo che il marito la picchiava, ma anche che qualcuno ha effettivamente assassinato la donna! Quindi, per utilizzare l’intera informazione disponibile, occorre calcolare la probabilità che “una donna venga ammazzata dal marito” condizionalmente all’evento “la donna veniva picchiata dal marito ed è stata ammazzata da qualcuno”. Per formalizzare il problema, consideriamo una popolazione numerosa e sufficientemente omogenea di donne sposate, e consideriamo i seguenti eventi, relativi ad un individuo casualmente scelto in questa popolazione: Si noti che l’evento “la donna viene assassinata da qualcuno” corrisponde a B [ C, pertanto la probabilità che desideriamo calcolare è P(B|A \ (B [ C)). Notando che B \C = 0, / possiamo riscrivere questa probabilità nella forma più conveniente P(B \ A \ (B [C)) P(B \ A) P(B|A) = = P(A \ (B [C)) P((B [C) \ A) P(B [C|A) P(B|A) = . P(B|A) + P(C|A) P(B|A \ (B [C)) = 1 P0 ({mm1}|{mm1, mm2}) = , 2 da cui segue che P0 ({mm1}) = P0 ({mm1, mm2}) P0 ({mm1}|{mm1, mm2}) = P0 (A \ B|C) = 53 A = “la donna è stata picchiata dal marito” B = “la donna viene assassinata dal marito” C = “la donna viene assassinata da una persona diversa dal marito” . è naturale richiedere che P0 ({mm1, mm2}) = P0 ({m f 1, m f 2}) = P0 ({ f m1, f m2}) = P0 ({ f f 1, f f 2}) = 1.3 Probabilità condizionale e indipendenza 11 1 = . 42 8 Con analoghi argomenti si mostra che P0 ({w}) = 18 per ogni w 2 W 0 , dunque P0 è la probabilità uniforme su W 0 . Introducendo l’evento C := “il figlio scelto è maschio” = {mm1, mm2, m f 1, f m2} , otteniamo infine la probabilità che entrambi i figli siano maschi, sapendo che quello scelto è maschio: Sappiamo che P(B|A) = 10 1000 , mentre non conosciamo il valore di P(C|A). Un’informazione utile è la seguente: secondo i dati della Polizia, nella totalità della popolazione circa una donna su 100 000 viene assassinata (dal marito o da qualcun altro), cioè possiamo assumere che P(B [C) = 1001000 . Vediamo come questo dato, insieme ad alcune assunzioni naturali, possa permettere di dare una stima di P(C|A). È ragionevole assumere che tutte le donne, vengano o meno picchiate dal marito, abbiano la stessa probabilità di essere assassinate da una persona diversa dal marito. Questo significa che P(C|A) = P(C), ossia gli eventi A e C sono indipendenti. D’altro canto P(C) P(B [ C), per cui mettendo insieme le precedenti considerazioni otteniamo la stima 54 1 Spazi di probabilità discreti: teoria P(B|A \ (B [C)) = P(B|A) P(B|A) + P(C) P(B|A) = P(B|A) + P(B [C) 1 10 000 1 10 000 + 1001000 = 10 . 11 1.3 Probabilità condizionale e indipendenza 55 B := “in città vi sono almeno due individui con i requisiti richiesti” , C := “nel database c’è esattamente un individuo con i requisiti richiesti” , Quindi, la sola informazione che avesse picchiato la moglie, rende la probabilità che il marito sia l’assassino almeno 10 11 ' 91%! Il marito fu poi condannato. . . occorre dunque calcolare P(B|C). Notiamo che B \C = B0 \C, dove Esempio 1.25 (Un altro caso giudiziario). Dalle indagini relative ad un omicidio è emerso che il colpevole possiede un determinato set di caratteristiche (per es. capelli rossi, zoppicante, ecc.) che lo rendono piuttosto raro: si stima che una frazione p ⌧ 1 di popolazione possegga tali caratteristiche. La città in cui si è svolto l’attentato ha n abitanti, con np ' 0.05. Una ricerca su un database di individui schedati ha identificato un unico individuo che possiede il set di caratteristiche. Per affermar la colpevolezza di tale individuo, l’accusa argomenta come segue: Possiamo inoltre assumere che gli eventi B0 e C, riferendosi a gruppi distinti di individui, siano indipendenti. Ci riduciamo dunque a calcolare La probabilità che in città vi siano almeno due individui con il set di caratteristiche cercato è circa (np)2 = 0.0025. Pertanto, l’individuo trovato è con probabilità 1 (np)2 = 0.9975 l’unico con tale set di caratteristiche. La sua colpevolezza è accertata con probabilità 99.75%. Questo argomento è sbagliato, in particolare la conclusione. Vediamo perché. Una ragionevole assunzione è che ogni individuo possegga il set di caratteristiche cercato con probabilità p, indipendentemente dagli altri. Pertanto, per quanto visto nel paragrafo 1.3.4, se Ak denota l’evento “in città ci sono k individui con il set di caratteristiche”, si ha ✓ ◆ n k P(Ak ) = p (1 p)n k . k In particolare P(A0 ) = (1 p)n , P(A1 ) = np(1 p)n 1 , (1.56) quindi la probabilità che vi siano almeno due individui con i requisiti richiesti è P [(A0 [ A1 )c ] = 1 (1 p)n np(1 p)n 1 ' n(n 1) 2 1 p2 ' (np)2 , 2 B0 := “tra gli individui non schedati almeno uno ha le caratteristiche richieste” . P(B|C) = Se indichiamo con m il numero degli individui della città inseriti nel database, la prima formula in (1.56) con n m invece che n dà P(B|C) = P(B0 ) = 1 (1 p)n m ' (n m)p ' np = 0.05 , (1.58) dove abbiamo fatto l’ipotesi, molto verosimile, che m ⌧ n. Dunque, sulla base delle conoscenze acquisite, la probabilità che l’individuo trovato sia l’unico con le caratteristiche date, e quindi che sia colpevole, è P(Bc |C) = 95%, probabilmente non sufficiente a fugare “ogni ragionevole dubbio”. Per apprezzare la sottigliezza della questione, consideriamo il seguente quesito. Senza aver condotto alcuna ricerca su database, qual è la probabilità che l’autore dell’omicidio non sia l’unico individuo in città con le caratteristiche richieste? In questo caso, l’unica informazione disponibile è che “esiste almeno un individuo in città con le caratteristiche richieste” (l’assassino), che corrisponde all’evento Ac0 . Dobbiamo pertanto calcolare P(B|Ac0 ). Osservando che B = (A0 [ A1 )c , si ottiene P(B|Ac0 ) = P ((A0 [ A1 )c |Ac0 ) = (1.57) dove la prima approssimazione si ottiene con uno sviluppo di Taylor al secondo ordine della funzione f (p) = 1 (1 p)n np(1 p)n 1 attorno a p = 0. La stima dell’accusa va dunque corretta di un fattore 12 . Ma non è certo questo l’errore più rilevante, anche perché la correzione rende l’argomento ancor più stringente. Il punto fondamentale è che l’accusa non ha tenuto conto del fatto che un individuo con il set di caratteristiche dato è già stato trovato. La quantità probante non è dunque la “probabilità che vi siano in città almeno due individui con i requisiti richiesti”, bensı̀ la “probabilità che vi siano in città almeno due individui con i requisiti richiesti condizionalmente al fatto che la ricerca nel database ne ha identificato uno”. Considerando gli eventi P(B \C) P(B0 \C) P(B0 ) P(C) = = = P(B0 ) . P(C) P(C) P(C) P ((A0 [ A1 )c ) . P Ac0 Grazie alla relazione (1.57) si ha P ((A0 [ A1 )c ) ' 12 (np)2 . Analogamente, grazie a (1.56), si ha P (Ac0 ) = 1 (1 p)n ' np, pertanto 1 P(B|Ac0 ) ' np = 0.025 , 2 che differisce di un fattore 12 dal risultato (1.58) trovato sopra! Analogamente a quanto abbiamo visto nell’Esempio 1.23, i risultati ottenuti mostrano che l’informazione “la ricerca nel database ha individuato un individuo con le caratteristiche cercate” non corrisponde al semplice condizionamento rispetto all’evento “in città esiste almeno un individuo con le caratteristiche cercate”.