Il dilemma del prigioniero iterato

by user

on 06 июля 2016

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download Il dilemma del prigioniero iterato

Transcript

Il dilemma del prigioniero iterato

Cooperazione di Agenti Informatici
Corso di Laurea Specialistica in “Informatica”
A.A. 2008/09
Prof. Alberto Postiglione
UD 2.2.2: Dilemma del Prigioniero
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 2
Bibliografia

Axelrod, Robert “Giochi di reciprocità”, Feltrinelli, 1985
Vincent Van Gogh,
La ronda dei prigionieri, 1890
1
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 3
Dilemma


Un dilemma è una di quelle situazioni apparentemente
insolubili in cui qualsiasi strategia ha i suoi pro e i suoi
contro.
Qual è la cosa migliore da fare? Analizzare le possibilità e
optare per la scelta che consenta
• di correre i minori rischi possibili
• e, allo stesso tempo, di garantire il risultato più alto.

il che spesso significa non ottenere il risultato migliore in
assoluto, ma il migliore tra quelli che permettono di limitare i
rischi.
Ma la maggior parte delle volte la partita è composta da
molte manches ma a tutti non interessa vincere la battaglia, ma
la guerra.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 4
Antefatto

(Von Neumann e Morgenstern, 1944)

2 persone, sospettate di aver commesso un grave crimine
insieme, vengono arrestate
• la polizia non ha sufficienti prove per dimostrare la loro
•
•
colpevolezza
e quindi può solo incriminarli per reati minori
… a meno che uno dei due confessi!
2
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 5
La proposta …

Chiusi in celle separate a ciascuno dei due prigionieri viene
fatta una proposta: “se confessi il crimine ed accetti di
testimoniare contro il tuo compagno, ti libereremo!”
• se entrambi accettano la proposta, si discrediteranno a vicenda
•
agli occhi del giudice, ed incapperanno in una dura condanna;
se nessuno dei due accetta, la pena sarà molto lieve per
entrambi.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 6
Formalizzando la situazione
Prigioniero B
Confessa contro
il compagno
Non parla
Prigioniero A
Non parla
Confessa
contro il
compagno
Pena molto
lieve per
entrambi
Scarcerazione per
B, massima pena
per A
Scarcerazione per Pena piuttosto
A, massima pena
severa per
per B
entrambi
3
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 7
Quale scelta è la migliore?


Se i due prigionieri potessero interagire e scegliere una
strategia comune, con ogni probabilità opterebbero per non
parlare.
Dovendo scegliere senza conoscere l’intenzione del
compagno, la strategia che minimizza il rischio risulta essere
quella di tradire. Scegliendo di tradire, infatti:
• si viene scarcerati, nel caso in cui il compagno non confessi a
•

sua volta;
si evita la pena massima, nel caso in cui il compagno tradisca.
Siccome il singolo individuo è portato a tradire, la situazione
raggiunta è per forza di cose una soluzione sub-ottimale del
problema!
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 8
Il dilemma del prigioniero

Il gioco si svolge sotto le ipotesi dell’Assioma di Razionalità’
• Nessun giocatore sceglie un’azione se ne ha a
disposizione un’altra che gli permette di ottenere risultati
migliori, qualunque sia il comportamento dell’avversario

Questo gioco (forse, in assoluto, quello più studiato) mostra
una situazione in cui
• Un comportamento razionale prescrive, necessariamente, ai
giocatori un comportamento che li porta ad una situazione
peggiore, per entrambi, di un’altra situazione possibile

Il dilemma del prigioniero (sopratutto nella sua versione
iterata) ha innumerevoli applicazioni
4
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 9
Il dilemma del prigioniero

Due agenti razionali hanno la possibilità di scegliere tra 2
mosse:
• COOPERAZIONE (C)
• DEFEZIONE (D)

Essi giocano l’uno contro l’altro, in modo simultaneo (alla
mossa n uno non conosce la scelta che farà l’altro)

Gioco simultaneo, a somma non nulla, con
informazione imperfetta, dato che ogni giocatore sceglie
senza conoscere la scelta dell’altro giocatore, in cui i giocatori
muovono una volta sola
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 10
Il dilemma del prigioniero

La matrice dei payoff è la seguente:
Coopera Non Coopera

Coopera
(3, 3)
(0, 5)
Non Coopera
(5, 0)
(1, 1)
Le ricompense sono:
• R=3 Premio per la reciproca cooperazione
• P=1 Punizione per la mutua defezione
• T=5 Premio per la tentazione
• S=0 Ricompensa del “babbeo”

Si noti che 2R > T+S (in questo modo è premiato un
comportamento cooperativo)
5
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 11
Il dilemma del prigioniero

Cosa faranno i due agenti?
• Se il secondo agente COOPERA allora il primo:
• guadagna 3 se COOPERA
• guadagna 5 se NON COOPERA
• Se il secondo agente DEFEZIONA allora il primo:
• guadagna 0 se COOPERA
• guadagna 1 se NON COOPERA
• In entrambi i casi gli conviene DEFEZIONARE
• In questo caso si dice che la strategia di Defezionare è quella
DOMINANTE
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 12
Il dilemma del prigioniero

L’assioma di razionalità impone ad entrambi di NON
COOPERARE (è l’unico comportamento “razionale”)
• e guadagnano entrambi 1
• invece che 3 che guadagnerebbero se entrambi cooperassero



La defezione assicura una ricompensa superiore alla
cooperazione
Se entrambi defezionano la ricompensa è minore di quella
che avrebbero ottenuto se avessero cooperato.
Dilemma del prigioniero giocato 1 sola volta:
COMPORTAMENTO NON COOPERATIVO
6
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 13
Il dilemma del prigioniero iterato

Molto più interessante è il caso del gioco nella sua variante
ITERATA che è un gioco COOPERATIVO.
• Si suppone che ad ogni ripetizione (prova), i giocatori facciano
•
le loro scelte simultaneamente
e, subito dopo una prova, ciascuno venga a conoscenza della
scelta effettuata dall’altro.

Nella versione iterata il guadagno di un giocatore è la somma
di tutte le ricompense ottenute nelle varie mosse intermedie.

Nella versione Iterata nessun giocatore sa quando terminerà
il gioco (altrimenti la strategia dominante, in base all’assioma
della razionalità, è ancora quella Non Cooperativa)
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 14
Perché il modello è così generale?

Esistono moltissimi esempi, nelle interazioni umane tanto
quanto in natura, che rispettano la stessa matrice dei payoff.

La molteplicità delle applicazioni del modello basato sul
dilemma del prigioniero iterato dipende dal fatto che esso
cattura con semplicità una caratteristica fondamentale di
molte interazioni, cioè la tensione tra
• i vantaggi, a breve periodo, di un comportamento
•
completamente egoistico
la necessità di ottenere la cooperazione degli altri agenti per
avere successo nel lungo periodo.
7
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 15
Perché il modello è così generale?

Il dilemma del prigioniero è un paradigma per le scienze
sociali (come economia, politica e sociologia) e per le scienze
biologiche (come l’etologia o la biologia evolutiva).

Molti processi naturali vengono spiegati per mezzo di
modelli in cui gli esseri umani sono impegnati in giochi come
il dilemma del prigioniero iterato.

Questa vasta applicabilità conferisce a questo gioco la sua
sostanziale importanza.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 16
Perché il modello è così generale?

Dilemma del prigioniero tra due imprese
• In questo caso cooperare significa fissare un prezzo alto e non
•

cooperare fissare un prezzo basso.
La reciproca non cooperazione comporta un risultato peggiore
rispetto alla reciproca cooperazione, in termini di minori
profitti.
Dilemma del prigioniero tra impresa e consumatore
• Per l'impresa cooperare significa offrire un prodotto di alta
•
•
qualità mentre non cooperare offrirne uno di bassa qualità.
Per il consumatore cooperare significa acquistare il prodotto
mentre non cooperare non acquistarlo.
La strategia dominante dell'impresa è di offrire un prodotto di
bassa qualità. Il consumatore sceglie di non acquistarlo.
8
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 17
Perché il modello è così generale?

Dilemma del prigioniero tra creditore e nuovo debitore
• Per il creditore cooperare significa concedere il credito mentre
•
•
non cooperare non concederlo.
Per il nuovo debitore cooperare corrisponde alla restituzione
del debito, mentre non cooperare alla mancata restituzione.
Poichè la strategia debolmente dominante del nuovo debitore
è quella di non restituire il debito, il creditore non concede il
credito richiestogli.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 18
Perché il modello è così generale?


Negli ultimi due casi, il Dilemma del prigioniero ha payoffs
asimmetrici, in quanto a parità di coppie di strategie il payoff
per i due giocatori non è eguale.
Rispetto alla matrice dei payoffs presentata in precedenza, il
Dilemma del prigioniero asimmetrico potrebbe avere, ad
esempio, i seguenti payoffs
Consumatore-Creditore/
Impresa-Debitore
No restituzione Sì restituzione
(=Non coopera) (coopera)
No credito(=Non coopera)
0,0
7,-2
Sì credito(Coopera)
0,0
5,5
9
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 19
Perché il modello è così generale?

I biologi Paul E. Turner dell’Università di Valencia e Lin
Chao dell’Università della California hanno dimostrato che
un virus, il fago φ6 , si comporta anch’esso secondo le regole
del dilemma del prigioniero.
• Un virus è una particella che vive sfruttando le funzioni vitali
di una cellula ospite.

Turner e Chao hanno lavorato sul φ6 e sul suo clone mutante
φH2.Le premesse sono due:
• il fago φ6 produce una grande quantità di prodotti
•
intracellulari necessari alla replicazione del suo cugino mutante
φH2
il mutante φH2 vive meglio quando è in solitudine.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 20
Perché il modello è così generale?

Il virus egoista φH2, vivendo meglio “in solitudine”, si
accaparra la maggior parte delle risorse disponibili,
abbassando, però la potenziale capacità cooperativa di φ6
(che consiste nel riprodurre e generare prodotti che servono
ad entrambi).

In termini evolutivi, il virus egoista, privando φ6 delle risorse
necessarie, allo stesso tempo peggiora anche la sua
condizione perché φ6 è indispensabile affinché φH2 stesso
possa replicarsi.
10
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 21
Perché il modello è così generale?

Entrambi trarrebbero maggior vantaggio se cooperassero
(esattamente come i due prigioniero), infatti così facendo il
generoso φ6 avrebbe le risorse che gli servono e,
continuando a sopravvivere, garantirebbe anche la
replicazione dell’egoista φH2.

Tuttavia φH2 vive meglio se solo e, temendo di non
sopravvivere, preferisce sfruttare per sé tutte le risorse
disponibili e dunque non cooperare.

Ancora una volta ci troviamo di fronte ad un equilibrio che
sembra irrazionale perché non consente ad entrambi di trarre
il maggiore profitto possibile dalla situazione in corso.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 22
Perché il modello è così generale?


Lo scenario del dilemma del prigioniero è spesso usato per
illustrare il problema di due Stati impegnati in un conflitto
armato.
Entrambi saranno d’accordo nelle due possibili strategie a
loro disposizione:
• incrementare la presenza militare
• o giungere ad un accordo.



Se mai si optasse per l’accordo, nessuno dei due potrà mai
avere la certezza che l’altro rispetti l’accordo stesso;
per questa ragione la strategia dominante di entrambi sarà
incrementare la presenza militare.
Il paradosso è che si tratta della scelta razionale, che tuttavia
produce un effetto apparentemente irrazionale.
11
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 23
Perché il modello è così generale?





Un altro interessante esempio si rifà alle corse ciclistiche
Prendiamo in considerazione due ciclisti a metà percorso,
mentre il gruppo è a grande distanza dietro di loro.
I due ciclisti spesso lavorano insieme (mutua cooperazione)
dividendo tra loro la fatica data dal trovarsi davanti, senza
nessuno che li difenda dal vento.
Se nessuno dei ciclisti fa la fatica di stare davanti, il gruppo li
raggiungerà presto (mutua defezione).
Una situazione frequente vede uno dei ciclisti fare tutto il
duro lavoro da solo (coopera) e ciò, alla fine condurrà alla
vittoria del secondo (tradisce) che ha avuto l’opportunità di
sfruttare la scia apertagli dall’altro ciclista.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 24
Perché il modello è così generale?

Una banale ma familiare serie di esempi del dilemma del
prigioniero può essere constatata alla guida di un auto.
• Dalle violazioni del codice stradale
• alla guida imprudente,
questi comportamenti avvantaggiano chi li adotta, ma
peggiorano la situazione generale del traffico e la sicurezza di
tutti.
12
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 25
Tornei di strategie (Axelrod)

Prima di procedere oltre, facciamo un breve resoconto degli
studi di Axelrod che precedono la pubblicazione del volume
“The Complexity of Cooperation”

Axelrod era alla ricerca di una strategia
ottimale per la versione iterata del
Dilemma del Prigioniero
Robert Axelrod

Pensò di mettere direttamente e confronto varie strategie,
organizzando due “tornei”, aperti all’intera comunità
scientifica.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 26
Tornei di strategie (Axelrod)

Ai tornei vennero iscritte strategie implementate al computer.

Coloro che fornirono le strategie facevano parte di una
comunità molto variegata

Ogni strategia poteva essere al massimo di “memoria 6”

Le strategie vennero fatte “scontrare” a due alla volta, con un
girone all’italiana
13
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 27
Tornei di strategie (Axelrod)

Per stabilire quali fossero le strategie migliori, Axelrod
assegnò dei valori numerici alle varie situazioni di gioco:

Il punteggio di ogni strategia è dato dalla somma dei
punteggi ottenuti in ognuno degli n-1 incontri.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 28
1° Torneo

1° torneo: 14 programmi;

Durata del gioco: 200 iterazioni (valore sconosciuto ai
partecipanti)
14
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 29
Analisi dei risultati del 1° Torneo

Strategia vincente: Tit-For-Tat (di tipo molto cooperativo)

La strategia TFT ha un comportamento molto semplice:
• come prima mossa, sceglie la cooperazione;
• successivamente, ripropone l’ultima mossa giocata
dell’avversario.
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 30
Analisi dei risultati del 1° Torneo

Nel 1° torneo, su 14 strategie,
• Nessuna delle prime 8 deviava per prima dalla cooperazione
• Strategie che erano impazienti di deviare ottennero presto il
•
pagamento 5, ma poi dovettero sopportare la ripetizione di
reciproche deviazioni e pagamenti miseri.
D’altra parte, i programmi che erano sempre remissivi e
cooperativi furono duramente maltrattati dai loro avversari.
15
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 31
2° Torneo

2° torneo: 63 programmi + 1 (che si comportava in maniera
totalmente casuale)

Durata del gioco: ogni match non aveva una durata fissata.
Invece, dopo ogni singola mossa, in una partita:
• c’era una probabilità di 1/200 che il gioco finisse
• e una probabilità di 199/200 che il match andasse avanti, con
una durata media quindi, per ogni match, di circa 200 mosse.

Tutti erano a conoscenza dei risultati del primo torneo (con
la vittoria di TFT)
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 32
Analisi dei risultati del 2° Torneo

Strategia vincente: Tit-For-Tat (di tipo molto cooperativo)

TFT non vinse tutti i singoli match,
• ma quando andò sotto, andò sotto di poco,
• mentre i programmi realizzati espressamente per batterlo si
massacrarono tra di loro.
16
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 33
Strategia Tit-for-Tat (TFT)

La strategia che risultò vincente in entrambi i tornei, fu
la più semplice tra tutte quelle ricevute: la “Tit-for-Tat”
• ideata dal teorico dei giochi canadese Anatol Rapoport ed era
costituita da cinque “istruzioni” in Fortran

Axelrod spiegò il successo di TFT in termini di quattro
comportamenti:
• Non essere invidioso
• Non essere il primo a deviare
• Ricambia cooperazione e deviazione
• Non essere troppo furbo
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 34
Strategia Tit-for-Tat (TFT)

Quindi, nel caso di 1 iterazione:

Nel caso di n iterazioni (n non noto a priori)

Successivamente la TFT è stata applicata anche in altri
ambiti.
• La strategia più razionale è quella non cooperativa
• La strategia migliore è quella cooperativa
• La strategia migliore è quella cooperativa
• in politica internazionale nel periodo della guerra fredda
• In branchi di pesci per raggiungere la cooperazione
• In cause di divorzio per ottenere equità di comportamento
•…
17
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 35
Bibliografia aggiuntiva






Robert Axelrod, Giochi di reciprocità, Feltrinelli, 1985
Robert. S. Pindyck Daniel L. Rubinfeld, Microeconomia,
cap 12-13, Zanichelli
Powers Richard, Il dilemma del prigioniero, Bollati
Boringhieri, 1996
I “dilemmi” della vita in un romanzo che racconta la storia di
una famiglia americana di provincia
Marek e Kaminski, Games Prisoners Play, Princeton
University Press, 2004
Youssef Cohen, Radicals, Reformers, and Reactionaries:
The Prisoner's Dilemma and the Collapse of
Democracy in Latin America, University Of Chicago
Press, 1994
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 36
Bibliografia aggiuntiva


Anatol Rapoport, Albert M. Chammah, Prisoner's
Dilemma, University of Michigan Press, 1965
Richard Dawkins, The Selfish Gene, Oxford University
press, 1989
• Un capitolo è dedicato alle implicazioni del Dilemma del
Prigioniero nella biologia.


William Poundstone, Prisoner's dilemma: John von
Neumann, game theory and the puzzle of the bomb,
Anchor Books, 1993
Fostering Economic Policy Coordination in Latin
America: The REDIMA Approach to Escaping the
Prisoner's Dilemma United Nations, 2005
18
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 37
Bibliografia aggiuntiva

Armando Massarenti, Strategie per cooperare, anzi per competere,
Il Sole 24 ore, 1, 10, 2000.
•

Franco Carlini, L’altruismo conviene, Il Manifesto, 23/12/01
•

http://www.swif.uniba.it/lei/rassegna/011223c.htm
Un articolo di Giampietro Allasia e Umberto Cerruti
•

http://www2.polito.it/didattica/polymath/htmlS/info/BIBLIOID/Axel
rod.htm
http://alpha01.dm.unito.it/personalpages/cerruti/dochtml/dilemma/dilemma.htm
Scoprire gli URP e la loro presentazione del Dilemma
•
•
http://www.urp.it/Sezione.jsp?idSezione=952&idSezioneRif=949
http://www.urp.it/Sezione.jsp?idSezione=949&idSezioneRif=38
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 38
Bibliografia aggiuntiva

Il Dilemma interattivo
• http://www.dm.unito.it/personalpages/cerruti/Az1/dilframe
s.html


The ethical spectacle, Vol. I, No. 9 September 1995,
dedicato al Prisoner’s Dilemma.
Il Dilemma del Prigioniero nell’amore, nella politica, nel
cinema e molto altro
• http://www.spectacle.org/995/index.html

Prisoner’s Dilemma sulla Stanford Enciclopedia of Philosophy
• http://plato.stanford.edu/entries/prisoner-dilemma/
19
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 39
Bibliografia aggiuntiva




Prisoner’s Dilemma in Mathworld
http://mathworld.wolfram.com/PrisonersDilemma.html
Prisoner’s Dilemma da giocare in classe
http://www.indiana.edu/~econed/pdffiles/summer00/Holt
.pdf
Frattali e Dilemma del Prigioniero
http://classes.yale.edu/fractals/Panorama/SocialSciences/P
risDil/PrisDil.html
Prisoner’s Dilemma sulla Wikipedia
http://it.wikipedia.org/wiki/Dilemma_del_prigionierohttp:/
/en.wikipedia.org/wiki/Prisoner%27s_dilemma
Prof Alberto Postiglione
Cooperazione di Agenti Informatici (08/09)
UD 2.2
13/05/2009
Dia 40
Bibliografia aggiuntiva

Il Dilemma del Prigioniero da giocare contro il computer
• http://www.princeton.edu/~mdaniels/PD/PD.html
• http://serendip.brynmawr.edu/playground/pd.html
20