...

Introduzione: Informazioni, dati e modelli

by user

on
Category: Documents
11

views

Report

Comments

Transcript

Introduzione: Informazioni, dati e modelli
Intanto…………Benvenuti !!
Vorrei cominciare con 2 recenti
copertine di riviste importanti
Science Magazine
11 febbraio 2011
The Economist
25 febbraio 2010
IBM (e non solo) stima che ogni giorno , l’umanità crea
2,5 x 1018 cioè 2,5 quintilioni di dati elementari (bytes)
2.500.000.000.000.000.000
2,5 miliardi di miliardi (circa 600 miliardi di DVD)
Messi uno sull’altro (senza custodia) sarebbe una colonna di oltre 700.000
KM 2volte la distanza terra-luna
Secondo le stime di Science (Hilbert & Lopez - 2010):
La quantità totale di informazioni archiviate nel mondo nel 2007 sarebbe
stata pari a pari a:
2,95 x 1020 = 295.000.000.000.000.000.000
295 miliardi di miliardi
Se la stima IBM è (anche approssimativamente) corretta
nel 2012 dovremmo stimare 5.500 miliardi di miliardi
200 volte il 2007 e
circa il 50% accumulato negli ultimi 2 anni
(l’incremento è esponenziale)
Praticamente ormai qualsiasi attività umana lascia traccia digitale
archiviabile grazie ad una tecnologia PERVASIVA:
(esempi mmmmolto parziali)
Sensori del clima
posts nei social media
Foto e video digitali
Registrazione di acquisti
Segnali GPS
E-mail
Analisi del genoma umano
Ricerche Internet
Transazioni di borsa
Esami Universitari
Visite mediche
…………..
Intanto abbiamo un problema di unità di misura
(e si comincia con l’ABC della Statistica…)
Nome
Simbolo Multiplo Valori rappresentabili
bit
byte
kilobyte
megabyte
gigabyte
terabyte
petabyte
exabyte
zettabyte
yottabyte
b
B
kB
MB
GB
TB
PB
EB
ZB
YB
21
2
28
256
210
1.024
220
1.048.576
230
1.073.741.824
240
1.099.511.627.776
250
1.125.899.906.842.620
260
1.152.921.504.606.850.000
270
1.180.591.620.717.410.000.000
280 1.208.925.819.614.630.000.000.000
miliardi di
miliardi
miliardi
Alcuni esempi:
Bytes (8 bits)
– 1 byte: un carattere; ad esempio una lettera
- 3 bytes: 1 Pixel (punto sullo schermo) a 16 milioni di colori
– 100 bytes: un SMS, un telegramma
Kilobyte (1,000 Byte)
– 2 Kilobytes: una pagina scritta
Megabyte (1,000,000 Byte)
- 4 Megabytes: Immagine a tutto schermo 1280 x 1024
– 5 Megabytes: Una canzone in mp3, tutte le opere di Shakespeare
- 700 megabytes : Film in formato DVIX
Gigabyte (1,000,000,000 Byte)
– 4 Gigabyte: un film in qualità DVD
- 21 gigabytes: Foto con Canon eos 600D
Altri esempi
Terabyte (1,000,000,000,000 Byte)
– 1 Terabyte:
fogli di carta stampati ricavati da 50,000 alberi; da ogni albero si ricavano
circa 80.000 fogli
-18,75 terabyte:
Le informazioni contenute nella Biblioteca del Congresso di Washington
Petabyte (1,000,000,000,000,000 Byte)
– 200 Petabytes: tutto il materiale stampato finora
Exabyte (1,000,000,000,000,000,000 Byte)
– 5 Exabytes: tutte le parole dette dall’uomo finora
Tanto??? SI e NO
1022 bit
10.000.000.000.000.000.000.000 bit;
decine di triliardi di bit
1,8 × 1022 bit (2,25 zettabit)
Informazioni che (se esistesse una tecnica per farlo) potrebbero essere
contenute in un grammo di DNA.
Vabbè, ma tutta questa esplosione di informazioni ci riguarda??????
Ho paura di sì, perché l’effetto più impressionante è sullo studio e l’analisi dei
fenomeni, o meglio sui dati a disposizione per “capire” il mondo
Cioè il punto in cui si esercitano le capacità degli Statistici
Oggi il tema fondamentale della conoscenza e del governo dei fenomeni è il
trattamento della informazione
Forse aveva ragione Hal Varian, chief economist at Google che nel 2009 diceva:
“I keep saying that the sexy job in the next 10 years will be statisticians, and
I’m not kidding.”
Effetti……alcuni
Quando il progetto Sloan Digital Sky Survey (SDSS) ha iniziato a
raccogliere dati astronomici nel 2000, ha accumulato più dati nelle sue
prime settimane che in tutta la storia dell'astronomia.
Continuando a una velocità di circa 200 GB per notte, SDSS ha
accumulato più di 140 terabyte di informazioni.
Quando il Large Telescope Synoptic Survey, successore di SDSS, sarà
in linea nel 2016 si prevede di acquisire tutta la informazione fin qui
raccolta da SDSS ogni cinque giorni.
Nel 2010 i 4 principali sensori del Large Hadron Collider (LHC) del CERN di
Ginevra
hanno prodotto 13 petabytes (13,000 terabytes) di dati sulle particelle
elementari costituenti la materia.
Il Bosone di Higgs (la particella di Dio quello che giustifica il fatto che le
cose materiali abbiano una massa)
è stato “scoperto” scavando tra questi dati…..
Si stanno moltiplicando le analisi statistiche testuali sulle frasi postate nei social
network e nei blogs
L’obiettivo è determinare la relazione tra “mood” delle frasi e comportamenti dei
soggetti economici:
Alcune:
Kevin Voigt (November 15, 2010). "Google searches predict stock market moves". CNN.
Paul Marks (April 5, 2012). "Online searches for future linked to economic success". New
Scientist.
Casey Johnston (April 6, 2012). "Google Trends reveals clues about the mentality of richer
nations“
Nikolaos Askitas & Klaus F. Zimmermann, 2009. "Google Econometrics and Unemployment
Forecasting," Applied Economics Quarterly, Duncker & Humblot, Berlin
Simeon Vosen & Torsten Schmidt, 2011. "Forecasting private consumption: survey‐based
indicators vs. Google trends," Journal of Forecasting, John Wiley & Sons, Ltd.,
Vanessa Fox (2012) Marketing in the Age of Google, Revised and Updated: Your Online
Strategy IS Your Business Strategy
Nel 2012, l'amministrazione Obama ha annunciato il Big Data
Project, una iniziativa di ricerca e sviluppo sulle modalità di utilizzo
di grandi basi di dati come supporto alle decisioni di governo.
Il progetto si compone di 84 diversi programmi di ricerca e coinvolge
sei dipartimenti governatici.
Circa 1 miliardo di dollari di finanziamento
Il governo federale degli Stati Uniti sei dei dieci supercomputer più
potenti al mondo.
Walmart
la più grande catena del pianeta operante nella grande distribuzione
organizzata.
gestisce più di 1 milione di transazioni con i clienti ogni ora, dati che
alimentano archivi da più di 2,5 petabyte L'equivalente di 200 volte le
informazioni contenute in tutti i libri della Biblioteca del Congresso degli
Stati Uniti
Il Falcon Credit Card Fraud Detection System controlla più di 2 miliardi
di carte di credito in tutto il mondo
Sono dati in tempo reale sul comportamento di milioni di consumatori in
tutto il mondo
E poi Internet “spontanea” : Ogni ora
12.000.000.000
40.000.000
3.000.000
340.000
80.000
27.000
5.600
2.000
Senza contare i
90.000
di e-mail inviate (di cui 10 mil spam)
materiali condivisi su facebook
di Tweet
foto caricate su facebook
video visti su youtube
video caricati su facebook
nuove offerte su E-bay
ore di video caricati su youtube
messaggi immediati
(SMS over phone or over Internet)
Generati da
2.000.000.000
utenti internet
1.900.000.000
utenti con mail
1.200.000.000
utenti Internet Mobile
600.000.000
utenti Facebook
200.000.000
utenti Twitter
Che hanno scaricato
1.760.000.000
40.000.000.000
di apps nella settimana di Natale
39 milioni in Italia
di apps dall’apertuta dell’I-store
230.000.000
di brani musicali scaricati
illegalmente ogni giorno
Inoltre tra chi ha internet, ha effettuato almeno 1 acquisto in rete:
80% in USA
89% in UK
87% in Francia
In Italia 1 abitante su 3, circa il 50% di chi ha Internet
Alcune considerazioni specifiche:
Ricordate?
Circa il 50% della informazione tecnico scientifica viene “rimpiazzata”
ogni 2 anni
Aggiungiamo che (Forbes e Ministero dell’Istruzione USA)
I 10 lavori più ricercati nel 2010 NON esistevano nel 2004
Che conseguenza possiamo trarre … per noi?
1. Il 50% delle conoscenze TECNICHE SPECIFICHE acquisite nei primi
anni di università diventano obsolete prima della laurea.
2. Dobbiamo attrezzarci a formare studenti
per lavori che ancora non esistono
che useranno tecnologie ancora da inventare
per risolvere problemi che oggi non abbiamo
ALLORA ATTENZIONE A QUANDO SI INVOCANO LAUREE
“PROFESSIONALIZZANTI” AD ALTO CONTENUTO TECNICO
APPLICATIVO!!
COME SI FA?????
DIFFICILE PERO’ UNA COSA LA SAPPIAMO:
INTANTO BISOGNA FAR CAPIRE CHE IL PUNTO NON E’ SAPER RISOLVERE
RISOLVERE OGNI SINGOLO PROBLEMA
CIOE’ NON E’
CONOSCERE IL MAGGIOR NUMERO DI METODI
Ma…. ADDESTRANDOSI SUI METODI,
IMPARARE COME SI RISOLVONO I PROBLEMI
Niente di nuovo….. Non avete imparato a contare imparando tutti i numeri……vi hanno
insegnato un “meccanismo” un “trucchetto” che vi mette in grado di numerare
qualsiasi insieme.
MA A VOLTE CI SI DIMENTICA DI QUESTO
IO ci provo,
Cercando di farvi capire in questo corso che le singole tecnologie
statistiche che affronteremo sono parte di un metodo
E che non esiste una casistica in cui “è meglio questo” o è “e meglio quello”
E il termine “MODELLO” di cui mi occuperò tra poco è un termine che ha in
sé questa generalizzazione
Se, finito il corso, avrete anche una piccola idea di questo, allora mi sarò
guadagnato lo stipendio!
COMINCIAMO
INSOMMA….. UN OCEANO DI INFORMAZIONI
E tutti sono convintissimi che in quell’oceano ci sia una miniera d’oro favolosa!
Facciamo 2 considerazioni:
1.
Per quanto enorme questa quantità è risibile di fronte alla complessità di
alcuni fenomeni: ad esempio rappresenta appena l’1% delle informazioni
codificate nel DNA delle cellule di un uomo
2.
Solo per leggere le informazioni fin qui accumulate un essere umano
impiegherebbe circa 50.000 miliardi di anni (non facendo altro). Cioè Più
di 2.000 volte l’età dell’Universo (a far data dal Big Bang)
Certo non tutto è importante, ma come si fa a capire se una cosa è importante
senza conoscerla???
E’ una situazione da
“BIBLIOTECA DI BABELE” (J.L.Borges)
si
descrive
un
allucinante
universo
che
essenzialmente
è
una biblioteca spazialmente infinita composta di sale esagonali, che raccoglie
disordinatamente tutti i possibili libri di 410 pagine che contengono tutte le
sequenze di caratteri senza ordine, in tutte le possibili combinazioni.
Naturalmente molti libri sono sequenze di caratteri senza senso, però ci sono tutti
i libri famosi già scritti e quelli ancora da scrivere, c’è anche il libro che dice
la “VERITA’”
Ma come si trova un libro nella Biblioteca di Babele????
Semplice, si consulta il catalogo!
Ma…
Come è fatto il catalogo della Biblioteca di Babele ???
Poiché contiene tutte le possibili sequenze di caratteri che riempiono 410 pagine,
vi sono libri che differiscono anche per un solo carattere.
Come si distinguono libri diversi per una sola lettera???
Non c’è modo se non leggere tutto il libro!!!
Il catalogo della Biblioteca di Babele è la biblioteca stessa!
Tutte le combinazioni, cioè la totale casualità, il massimo di entropia non consente
di selezionare alcuna informazione, né di utilizzare conoscenza per definire
strategie di comportamento.
Tutto il processo evolutivo umano è una lotta per identificare un segnale in una
marea di stimoli casuali.
Come si fa??? Occorre trovare un mondo più semplice, una biblioteca meno “piena”
E dove sta? Nella nostra testa! Probabilmente la nostra arma evolutiva vincente è
stata la possibilità di semplificare mediante CONCETTI situazioni complicate.
Ciò ci ha permesso di fissare situazioni ripetitive nella memoria e di scoprire
REGOLARITA’
Una parola che rappresenta in sintesi questa
operazione di semplificazione è sicuramente la
parola
CHE COS’E’ UN MODELLO ???
Andremo a vedere sul vocabolario il
significato della parola per proviamo
a consultare Google Immagini:
ricercando la parola MODELLO
Personaggio/
prototipo in cui identificarsi?
Personaggio/oggetto da imitare a cui tendere
Raffigurare cose invisibili……
O mai viste….……
Riproduzione su diversa «scala»
Criterio uniforme per la comunicazione
Libretto di istruzioni
Rappresentazioni del mondo
?????????????
Le parole sono importanti !
Almeno 9 significati per la parola MODELLO:
1 ogni cosa o persona ritenuta esemplare e, come tale, degna di essere imitata:una donna che è stata un modello di
saggezza; il Partenone è un modello di architettura classica
2 originale da riprodurre, a cui conformarsi: copiare, seguire un modello; prendere,avere, tenere, proporre a modello ' in
partic., oggetto o persona che un artista, un artigiano intende riprodurre: lo scultore prese come modello un vecchio
3 uomo che per professione posa per pittori, scultori; uomo che posa per fotografie indossando capi di abbigliamento;
indossatore
4 prototipo industriale; per estens., oggetto prodotto in serie che riproduce un prototipo industriale: inventare un nuovo
modello di sedia pieghevole; produrre un nuovo modello di utilitaria; comprare l'ultimo modello di lavatrice
5 abito confezionato in un solo esemplare secondo un disegno originale; per estens., il disegno, la linea di un abito o d'un
altro capo d'abbigliamento: sfilata di modelli; un modello esclusivo; un bel modello di scarpe
6 riproduzione tridimensionale in scala ridotta di un oggetto o di una struttura | realizzazione in scala ridotta di qualcosa
che si intende costruire, nella realtà per lo più a scopo sperimentale o di studio; plastico: un modello in legno, in creta, in
gesso. DIM. modellino
8 in logica matematica, ogni interpretazione che, assegnato un significato a ciascun simbolo di un linguaggio formale, rende
vere tutte le formule del linguaggio
9 (scient.) schema teorico che descrive un fenomeno o un insieme di fenomeni mettendone in evidenza le caratteristiche
strutturali ritenute più rilevanti: modello dell'atomo, del cervello; modello matematico, insieme di equazioni che descrivono
in modo semplificato le relazioni ipotizzate tra una serie di fenomeni, allo scopo di spiegarne o prevederne lo svolgimento.
MODELLO: quante definizioni!
•Oggetto proposto per essere copiato
•Persona o cosa esemplare da imitare
•Prototipo, oggetto da riprodurre in serie
•Stampo da fonderia
•Riproduzione bi-tridimensionale in scala ridotta
Poi dagli oggetti ai concetti:
•Rappresentazione di situazioni reali (linguaggio)
•Sistema di idee legate da relazioni
•Ideale, archetipo, situazione ottimale
•Schema teorico concettuale relazionale
COMUNE A TUTTI: rappresentazione, imitazione, generalizzazione
COMUNE A TUTTI I SIGNIFICATI (core semantico):
rappresentazione, imitazione, generalizzazione
3 caratteristiche (Stachowiak,1973):
mapping feature: Un modello è bastato su un “originale”
reduction feature: Un modello riflette solo una (rilevante) selezione delle caratteristiche
(proprietà) dell’”originale”
pragmatic feature: Un modello deve essere “usabile” al posto dell’originale rispetto a
qualche fine
NB: Una “copia” NON è un modello
MODELLO:
L’origine:
MODULUS diminutivo di MODUS = MISURA
“Piccola misura”
Riduzione di una situazione complessa e articolata ad una “misura”
Controllabile, maneggevole, utilizzabile
E’ la situazione in sé? NO è una semplificazione utile a dati scopi
E’ CIO’ CHE RIMANE “REGOLARE, FISSO” ANCHE SE L’ASPETTO ESTERIORE CAMBIA
QUINDI E’ UNA COSTRUZIONE MENTALE, NON UN DATO DI FATTO. UNA ASTRAZIONE
CONCETTUALE NON UN OGGETTO
Cosa vi fa dire che questo sono….. Sedie????
E queste?
E poi?
…..sono la stessa lettera?
F FFF F FF F F F F FF F F F F F F F F
ATTENZIONE PERO’…..sono la stessa lettera?
No!
ALFABETO EBRAICO
Ripassiamo alcuni MODELLI
che conosciamo bene
Sottolineando gli aspetti di cui abbiamo parlato
PROBABILMENTE IL PRIMO MODELLO: IL LINGUAGGIO
SCOPO E’ LA COMUNICAZIONE
Ovviamente, non potendo “ascoltare” i linguaggi antichi dobbiamo ragionare su ciò
che possiamo vedere:
la scrittura
Uno dei primi modelli
E’ una scena di caccia, banale però alcuni
elementi sono importanti:
Perché gente affamata e in perenne lotta per
il cibo perde tempo a disegnare queste
cose?????
1. E’ contenta per una caccia abbondante
2. Ricorda a sé stessa e ad altri “come” è
avvenuta la caccia
3. “tanti cacciatori disposti con ordine
possono uccidere un branco di animali più
grossi più numerosi di loro”
4. Non si tratta di “QUEL” branco si tratta di
“QUALSIASI” branco!! E’ UN MODELLO
Ancora… governare / dirigere una mandria una battuta di caccia…..
Un altro modello…più cruento
Prima modelli di oggetti ……..4000 A.C
Significa…..
IL FARAONE CONQUISTA IL POPOLO DEL DELTA
Prima modelli di oggetti ……..
Poi suoni………………la lingua non è più rappresentazione diretta di oggetti
E’ adesso capace di “rappresentare” un oggetto astratto…. Un nome
Cioè un insieme di suoni legato ad una persona, non la persona
Nascono le “parole” insiemi di suoni che non rappresentano direttamente gli
oggetti, ma evocano immagini dell’oggetto nella mente di chi le ascolta.
Inizialmente si comunicano oggetti, descrizioni del mondo, situazioni
Ma presto sono le parole che cominciano a inventare oggetti mondi e situazioni
ATTENZIONE lo strumento che comunica il mondo vive anche di vita propria,
CREA il mondo
Questa caratteristica è tipica della concettualizzazione umana….. Cioè dei
MODELLI
Chi e?
Omero !!!! (forse)
Che “crea” le
motivazioni
(false) della
Guerra di Troia
Il bello è che la
ricostruzione “vera”
si basa su Omero…
Altri mondi creati dalle parole…e dalle immagini
Come possono le parole creare le cose?
“Stratificando” nella mente, il passaggio da oggetti
concreti a significati astratti.
Esempi:
(Lo sport di capire come nascono le parole, è molto illuminante):
Ipotenusa = upoteinousa da upoteinw
upo (sotto) teinw (tendo a forza), ciò che sta sotto a chi è teso con forza
Si riferisce alla corda “ben tesa” utilizzata per misurare i campi:
quando tutto è ben teso, l’angolo tra i due cateti è retto.
Il lato sotto l’angolo retto è chiamato, ovviamente, IPOTENUSA!
Numero = Dalla radice sanscrita namas, cibo, porzione assegnata;
in greco nemw, distribuisco, spartisco e quindi amministro, regolo, da cui nemesi,
distribuzione, attribuzione a ciascuno del giusto e nomo, legge, uso, regola,
costume, disposizione.
In latino numesus che diventa numerus, ente che specifica la quantità.
Come possono le parole creare le cose?
“Stratificando”, nella mente significati. Un esempio
La maggior parte delle parole “matematiche” è di origine greca:
Matematica = maqhmatikh (thcnh)  maqhema  manqanw
Arte dell’imparare:
la matematica nasce coll’insegnamento cioè dalla teorizzazione dellle tecniche
finalizzata alla trasmissione del sapere
Dalla radice MA (lingue indoeuropee) che significa Misurare e Pensare, cioè
“misurare con la mente”. Dall’azione di misurare alle tecniche di misura
Sono i Greci che fanno il salto alla matematica….prima:
Geometria =
arte di misure la terra (Egiziani e mesopotamici – Nilo e Tasse)
Aritmetica = ariqmhtikh (thcnh)  ariqmos
Arte del contare, ma prima di conteggio significa “ordine, disposizione”
Dalla radice AR (lingue arie) che significa Unire, disporre in ordine
UN SECONDO MODELLO PIU’ ASTRATTO: I NUMERI
Quanti sono gli oggetti nei cerchi ????
E qui?
v
v
v
v
v
v
Uhmm un po’ più complicato…….no?
v
v
Non è difficile dimostrare che è presente in ognuno di noi
una percezione diretta del numero, una capacità
immediata di distinguere insiemi con una quantità diversa
di elementi, che però non è legata al contare. Primo caso
Nel secondo caso, NON percepiamo direttamente i
numeri, dobbiamo contare CONTARE
Questo perché una percezione immediata della quantità
esiste, ma non supera il numero quattro.
Esistono una miriade di esperimenti in proposito e altre prove derivano
dai linguaggi ad esempio :
In latino solo i numeri da 1 a 4 hanno genere e declinazione, mentre da 5
in poi no.
Inoltre i romani chiamavano i figli dal primo al quarto con nomi senza
rapporto con i numerali; dal quinto in poi i nomi diventavano Quintus,
Sextus, Septimius, Octavius etc.
Stesso discorso per l’anno romano che, prima della riforma giuliana, era di
10 mesi: il primo era Martius, poi Aprilis, Maius e Iunius; dal quinto mese
in poi troviamo non a caso Quintilis, Sextilis, September, October etc.
Questo tipo di percezione non è una vera e propria "struttura culturale", e
nemmeno è una prerogativa umana: molti animali la hanno e la usano;
il saper distinguere ad "occhio" le quantità di insiemi piccoli, non rende le
nostre capacità aritmetiche superiori a quelle di un gatto o di una gallina.
Anche qui molti esperimenti cito solo un aneddoto diventato famoso:
Un contadino voleva uccidere un corvo che aveva fatto il suo nido in
cima a una torre, dentro ai suoi poderi.
Ma ogni volta che si avvicinava, l’uccello volava via, fuori dalla portata
del suo fucile, finché non si allontanava. Solo allora il corvo ritornava
nella torre, riprendendo le sue dannose incursioni sui terreni del
contadino.
Questi pensò allora di chiedere aiuto a un suo vicino. I due uomini
armati entrarono insieme nella torre, ma poco dopo ne uscì soltanto
uno. Il corvo però non si lasciò ingannare, e non ritornò al nido finché
non fu uscito anche il secondo contadino.
Per riuscire ad ingannarlo entrarono poi tre uomini e poi quattro e
cinque. Ma il corvo ogni volta aspettava che fossero usciti tutti prima
di far ritorno al nido.
Soltanto in sei finalmente, i contadini ebbero la meglio, infatti il corvo
aspettò che cinque di loro fossero usciti e quindi fiducioso rientrò
sulla torre, dove il sesto contadino lo uccise.
Quindi il corvo sapeva contare “solo” fino a 5 …
Se la percezione, il conteggio “innato” dei numeri arrivo fino a 4-5, significa che
il resto è frutto di una astrazione concettuale, di un modello di conteggio
Che NON prevede di percepire e conoscere “direttamente” e a memoria tutti i
numeri, ma
Di conoscere il il modo (modello) in cui i numeri si susseguono, cioè come si
passa da un numero al successivo,
QUALUNQUE SIA IL NUMERO DI PARTENZA….
Non si conoscono i numeri se si sanno tutti…. Si conoscono se si sa “COME
COSTRUIRLI” !!!
Questo NON è “CONTARE” è il
“MODO (MODELLO) DI CONTARE”
Non sottovalutate il problema:
Il “MODO (MODELLO) DI CONTARE”
Lo conosciamo bene e ci sembra naturale però…..
Potrebbe essere descritto come segue:
Se devi contare delle cose:
1. Prima devi definire (capire) cosa accomuna quelle cose
2. Poi per contarle devi definire (capire) cose le distingue
Uno Statistico direbbe:
1. Prima devi definire il collettivo di interesse
2. Poi devi definire le unità statistiche di quel collettivo
BANALE E SEMPLICE??? UHM …. NON SEMPRE:
Definisco il collettivo arance:
1. Non considero i limoni (perché non-arance)
2. Distinguo due oggetti sferici nel collettivo
3. CONTO 2 “arance”
Idem per i limoni e conto 3 “limoni”
MA se definisco il collettivo “AGRUMI”?????
Nonostante le regole della maestra elementare (“non si possono sommare le
pere con le mele!”
CONTERO’ 5 “agrumi”
DUNQUE CONTARE NON E’ UNA OPERAZIONE COSI’ SEMPLICE COME
L’ABITUDINE CI PORTA A PENSARE
INOLTRE C’E’ IL PROBLEMA CHE, UNA VOLTA CONTATI DEGLI OGGETTI, IL
LORO NUMERO VA RAPPRESENTATO IN UN SIMBOLO……
PER:
NON CONTARE DUE VOLTE
RACCONTARLO AD ALTRI
CONTROLLARE QUELLO CHE SI FA
ETC…
Nasce il linguaggio del modello dei numeri….
E ci abbiamo messo un sacco di tempo per inventarlo…..
Anche qui con un po’ (poca) immaginazione
Possiamo ricostruire come è successo che un MODELLO di conteggio sia
diventato SIMBOLO
E poi abbia generato l’oceano di manipolazioni che riaguardano prima numeri poi
simboli numerici, poi solo simboli
Che chiamiamo
ARITMETICA
MATEMATICA
GEOMETRIA
…STATISTICA…
Immaginiamo un pastore che non sappia «contare» e che sorvegli un
gregge di pecore, che rinchiude ogni sera in una caverna.
Le pecore, supponiamo, sono 55, ma il nostro uomo non sa che cosa sia «il
numero cinquantacinque». Egli sa soltanto di avere «molte» pecore.
Poiché ciò è impreciso, egli vorrebbe accertarsi, ogni sera, che tutte le
pecore siano felicemente rientrate.
Un giorno ha un’idea: si siede all’entrata della caverna e vi fa penetrare
le pecore a una a una. Per ognuna che passa davanti a lui, fa un intaglio su
un pezzo di osso (o di legno). Così, senza conoscere il vero significato
aritmetico, egli ha praticato, al passaggio dell’ultimo animale,
cinquantacinque intagli.
Le sere seguenti, facendo rientrare le sue pecore, sempre una alla volta,
passa progressivamente il dito sull’intaglio da una estremità all’altra
dell’osso. Se il dito raggiunge l’ultima, il nostro pastore si sentirà
tranquillo, poiché tutte le sue pecore sono al sicuro.
Il meccanismo è travolgente, se uno si stufa a fare tanti intagli o ha paura di
sbagliarsi a contare tante tacche, si inventa un altro simbolo che ne riassume
molti:
Esempio: I Romani erano (in origine) soprattutto un popolo di pastori, e il
conteggio delle pecore avveniva con l'intaglio di tacche su bastoni: per
facilitare la lettura, ogni cinque tacche si faceva una tacca a forma di "V",
ed ogni dieci una "X"; poi altre forme vennero introdotte per "50", "100" e
così via:
Questo “spiega” anche alcune stranezze dei numeri romani, la notazione
sottrattiva, che viene usata per indicare il quattro ed il nove (quaranta, novanta,
novecento...):
IV = 4 ; IX = 9 ; XIX = 19 ; XL=40 ; XC= 90, CM = 900
La notazione sottrattiva è un residuo della pratica dell'intaglio vista sopra; la
scrittura " IV " invece di "IIII" ricorda la posizione del quattro nella serie:
" IIIIV ", come il nove si rappresenta "IX" dalla serie: IIIIVIIIIX (vedi la
figura seguente).
E’ un primo esempio di numerazione POSIZIONALE)
Ancora… il linguaggio i siboli usati prendono vita e creano
Nuovi concetti
La cinquina, la decina
Ma anche, implicitamente il concetto di somma e sottrazione
Premessa della numerazione infinita cioè dei NUMERI NATURALI
Prima incisioni per contare il bestiame
O “grani” per contare le preghiere…..
Fig. 1: Un rosario cristiano (a sinistra) e una collana di grani di preghiera islamica (a
destra). Usate per recitare un certo numero fissato di preghiere, queste collane hanno
tutte il medesimo principio: il fedele le "sgrana" con le mani enunciando per ogni grano la
preghiera dovuta. Non c'è così bisogno di saper contare.
Il principio chiave delle prime
numerazioni
È il concetto di corrispondenza
biunivoca
Una semplice estensione della
percezione fino a 4, che va
d’accordissimo con le nostre dita
visibili
Corrispondenza biunivoca, ancora oggi la usiamo
Facciamo un esempio: entriamo in un teatro, supponendo che tutti i posti siano
occupati e che nessuno sia in piedi. A ogni poltrona corrisponde dunque uno e
un solo spettatore (e viceversa).
Noi riassumiamo questa situazione dicendo che vi sono «tanti» spettatori
quanti sono i posti, o anche che i due insiemi comportano lo «stesso numero»
di elementi o, ancora, che hanno la stessa «cardinalità».
Così, grazie al processo di corrispondenza biunivoca, il senso comune ci
permette di affermare (senza contare!) se i gruppi considerati hanno o meno
eguale numero di elementi
Ma che succede se si vuole contare arrivando a quantità piuttosto
elevate?
La soluzione adottata è quella di dare valori diversi ai simboli usati; ad
esempio un modo ancora in uso presso le tribù dell'Africa Occidentale
per contare i capi delle loro mandrie, è quello di infilare conchiglie forate
in cordicelle di diverso colore: quelle nella cordicella bianca
rappresentano un'unità, quelle nella cordicella azzurra rappresentano
dieci capi, e quelle nella cordicella rossa cento capi:
Fig. 1: Le sei conchiglie lungo i fili indicano il numero 123
Ancora un modello modifica la realtà, inventa modi “nuovi” per trattare gli stessi
oggetti reali da cui è stato originato
Fig. 1: La figura mostra come usando le falangi delle due
mani sia possibile contare fino a 28.
Fig. 2: In alcune zone della Cina, tramite
l'uso dei vari lati delle articolazioni delle
dita (si usa ogni dito per le successive
potenze del dieci), si contava fino a
100.000 utilizzando una sola mano.
Alcune popolazioni neolitiche, ad esempio i
Gumulgal australiani contavano in base 2, ossia in sistema binario
È già implicito il concetto di somma infinita…….
Esempio
1 = urapon
2 = ukasar
3 = ukasar-urapon
4 = ukasar-ukasar
5 = ukasar-ukasar-urapon
6 = ukasar-ukasar-ukasar
7 = ukasar-ukasar-ukasar-urapon
Ma il linguaggio NON E’ MAI solo una rappresentazione di oggetti, idee e
concetti
HA sempre una vita “propria”, ci si aspetta che alcune azioni svolte sugli
elementi del linguaggio abbiano una corrispondenza anche nel modo degli
oggetti
In questo senso il linguaggio è un MODELLO
Alcuni esempi: le altre operazioni
LA MOLTIPLICAZIONE egiziana
Per eseguire la moltiplicazione prendevano il primo fattore
dell’operazione e continuavano a raddoppiarlo tenendo conto dei
vari risultati.
Poi addizionavano i vari moltiplicatori in modo che la loro somma
risultasse il moltiplicatore di partenza.
Quindi sommavano i risultati delle moltiplicazioni dove era stato
utilizzato il moltiplicatore per formare la somma precedente, e quindi
sommavano i relativi prodotti, ottenendo così il risultato finale.
NON CONTA
Ad esempio, per fare
17x13=………
T OT A LE
1
17
2
34
4
68
8
136
13
221
1+ 4 + 8= 13
17+ 68+ 136= 221
LA MOLTIPLICAZIONE greca
Per i greci moltiplicare significava calcolare l’area di una figura piana

GEOMETRIA
Un altro linguaggio….ad esempio 5x4
IDEALMENTE: costruisci un rettangolo con un lato da 5 (bastoncini,
mattoni, corde…..UGUALI) e uno da 4 (….UGUALI)
Conta quanti “quadratini” da 1x1 contiene il rattangolo
1
2
3
4
1
1
6
11
16
2
2
7
12
17
3
3
8
13
18
4
4
9
14
19
5
5
10
15
20
I Greci fanno di questo linguaggio un’arte:
Noi scriviamo le relazioni matematiche con un linguaggio molto diverso:
ax  bx  cx = x(a  b  c)
Un greco l’avrebbe disegnato così:
x
ax
+
a
bx
b
+
cx
c
=x
(a+b+c)x
a+b+c
E scritto così
Si prenda un segmento lo si divida in quanti parti si voglia, la somma delle aree
dei rettangoli, di altezza data, costruiti sulle parti sarà uguale all’area del
rettangolo di pari altezza costruito sull’intero segmento
Un altro esempio:
(a  b) 2 = a 2  b 2  2ab
a
b
a
ab
b²
a²
ba
a
b
b
a
Un altro esempio:
a 2  b 2 = (a  b)( a  b)
a²
a
b
b²
b
a-b
a
a
+
b
Un altro esempio:
( x  a)( x  b) = x 2  (a  b) x  ab
b
x
bx
ab
b
x²
ax
x
x
a
Anche le equazioni:
ax=b
esempio
3x=2
noi diremmo “quale altezza deve avere un rettangolo di base 3 affinchè la sua area sia
uguale a 2?”
Per loro il problema era: “come si costruisce una stanza di 2 metri quadri di superficie
sapendo che una delle pareti è lunga 3 metri???”
Come trovavano la soluzione?
Vedevano una equazione come una bilancia a due piatti in equilibrio: se faccio le stesse
operazioni sul piatto di destra e su quello di sinistra, la bilancia rimane in equilibrio.
Allora manovravano i “pesi della bilancia” (a destra e sinistra) in modo da isolare il
numero cercato (la x)
Nel nostro caso dividevano per 3 il peso dei due piatti
A destra rimane x, a sinistra 2/3, cioè la soluzione
E la parete della stanza?
Per i greci 2/3 significa: prendi una corda uguale alla parete di 2 metri, tagliala in 3
parti uguali e costrusci una parete lunga 2 pezzi di corda
Grattacapi per architetti:
Si sa che un tempio è “gradito agli dei” se la sua lunghezza è il doppio della sua
larghezza (x).
Sparta ha un tempio di 100 m² di superficie, io voglio per Atene un tempio che
abbia una superficie doppia, costruiscilo!
Come si fa? Bisogna sapere lunghezza e larghezza del tempio da costruire:
Equazione
x(2x)=200  2x²=200  x²=200/2  x²=100  x=10
Fatto! Il tempio deve essere largo 10 metri e lungo 20!!
Bravo architetto!
Non va sempre così bene:
Al centro del tempio di Sparta c’è un altare quadrato cha ha una superficie di
di 1 m² (cioè un lato di 1 metri), naturalmente l’altare del tempio di Atene
deve essere il doppio di quello di Sparta.
Come si fa? Sembra più facile, c’è solo da calcolare quanto deve essere il lato
del quadrato per avere un’area di 2 m²
Equazione x²=2  x=2
Come facevano ad estrarre la radice?
Per tentativi (Erone) si prende un numero come ipotesi di radice e poi si migliora:
N=2; X0=1
X1 = (X0 + N/X0)/2
X1= (1+ 2/1 )/2 = 3/2
Ma 3/2² = 9/4 = NON E’ 2 (chesarebbe 8/4) nel nostro linguaggio è 2,25
Proviamo ad andare avanti:
X1= (3/2+ 2/(3/2))/2 = (3/2+4/3)/2=(17/6)/2=17/12 (1.41666666….)
Ma (17/12)²=289/144 = NON è 2 (2,00694444…..)
Meglio ma non ancora esatto! La domanda è: se andiamo avanti arriviamo alla
soluzione perfetta?
Il problema è VERA MATEMATICA:
NON VOGLIO TROVARE UNA SOLUZIONE PARTICOLARE, VOGLIO
CAPIRE SE ESISTE UNA SOLUZIONE.
Tra l’altro ragionare in questo modo non ha nulla a che fare con I templi e con
gli altari nè con Atene nè con Sparta ma riguarderà TUTTI I quadrati sia
quelli esistenti sia quelli da costruire!
PITAGORA CI RAGIONA SOPRA
Come sempre un disegno: come si fa a costruire un quadrato di area doppia?
Se raddoppio i lati, ottengo un’area quadrupla !
E’ il quadrato che ha come lato la diagonale che ha un’area doppia!
Sembra tutto risolto….. Basta calcolare la diagonale del quadrato che su vuole
raddoppiare
Pitagora sa come si fa……..ricorda il suo teorema!
“L’area del quadrato costruito sull’ipotenusa è uguale alla somma delle aree dei
quadrati costruiti sui cateti”
Consideriamo un triangolo isoscele
rettangolo di cateti=1
Allora la diagonale sarà d=(1²+ 1²)= 2
ahi siamo daccapo!
Ma pitagora vuole sapere se il problema ha una soluzione precisa! Cioè quanti
bastoncini utilizzare per disegnare la diagonale
Cioè il nostro problema non ha soluzione! Per quanto facciamo
avremo sempre una soluzione approssimata!
Disastro! Si dice che Pitagora abbia fatto affogare il discepolo che
ha trovato questa dimostrazione
Questo apre il problema dell’infinito!!!!!!
Il rapporto tra il lato e la diagonale di un quadrato è un numero che
non finisce mai!
Da quel momento se ne trovano in continuazione, il più famoso è il
rapporto tra il raggio di un cerchio e la sua circonferenza, il famoso
PI-greco
“OGGETTI” SCOPERTI DA UN MODELLO, CHE ESISTONO SOLO
NEL MODELLO
LE PRIME 5000 CIFRE DECIMALI DI PI GRECO
14159265358979323846264338327950288419716939937510582097494459230781640628620899
86280348253421170679821480865132823066470938446095505822317253594081284811174502
84102701938521105559644622948954930381964428810975665933446128475648233786783165
27120190914564856692346034861045432664821339360726024914127372458700660631558817
48815209209628292540917153643678925903600113305305488204665213841469519415116094
33057270365759591953092186117381932611793105118548074462379962749567351885752724
89122793818301194912983367336244065664308602139494639522473719070217986094370277
05392171762931767523846748184676694051320005681271452635608277857713427577896091
73637178721468440901224953430146549585371050792279689258923542019956112129021960
86403441815981362977477130996051870721134999999837297804995105973173281609631859
50244594553469083026425223082533446850352619311881710100031378387528865875332083
81420617177669147303598253490428755468731159562863882353787593751957781857780532
17122680661300192787661119590921642019893809525720106548586327886593615338182796
82303019520353018529689957736225994138912497217752834791315155748572424541506959
50829533116861727855889075098381754637464939319255060400927701671139009848824012
85836160356370766010471018194295559619894676783744944825537977472684710404753464
62080466842590694912933136770289891521047521620569660240580381501935112533824300
35587640247496473263914199272604269922796782354781636009341721641219924586315030
28618297455570674983850549458858692699569092721079750930295532116534498720275596
02364806654991198818347977535663698074265425278625518184175746728909777727938000
81647060016145249192173217214772350141441973568548161361157352552133475741849468
43852332390739414333454776241686251898356948556209921922218427255025425688767179
04946016534668049886272327917860857843838279679766814541009538837863609506800642
25125205117392984896084128488626945604241965285022210661186306744278622039194945
04712371378696095636437191728746776465757396241389086583264599581339047802759009
94657640789512694683983525957098258226205224894077267194782684826014769909026401
36394437455305068203496252451749399651431429809190659250937221696461515709858387
41059788595977297549893016175392846813826868386894277415599185592524595395943104
99725246808459872736446958486538367362226260991246080512438843904512441365497627
80797715691435997700129616089441694868555848406353422072225828488648158456028506
01684273945226746767889525213852254995466672782398645659611635488623057745649803
55936345681743241125150760694794510965960940252288797108931456691368672287489405
60101503308617928680920874760917824938589009714909675985261365549781893129784821
68299894872265880485756401427047755513237964145152374623436454285844479526586782
10511413547357395231134271661021359695362314429524849371871101457654035902799344
03742007310578539062198387447808478489683321445713868751943506430218453191048481
00537061468067491927819119793995206141966342875444064374512371819217999839101591
95618146751426912397489409071864942319615679452080951465502252316038819301420937
62137855956638937787083039069792077346722182562599661501421503068038447734549202
60541466592520149744285073251866600213243408819071048633173464965145390579626856
10055081066587969981635747363840525714591028970641401109712062804390397595156771
57700420337869936007230558763176359421873125147120532928191826186125867321579198
41484882916447060957527069572209175671167229109816909152801735067127485832228718
35209353965725121083579151369882091444210067510334671103141267111369908658516398
31501970165151168517143765761835155650884909989859982387345528331635507647918535
89322618548963213293308985706420467525907091548141654985946163718027098199430992
44889575712828905923233260972997120844335732654893823911932597463667305836041428
13883032038249037589852437441702913276561809377344403070746921120191302033038019
76211011004492932151608424448596376698389522868478312355265821314495768572624334
MODELLI SEMPRE PIU’ COMPLESSI
CON UTILIZZI DEL TUTTO INASPETTATI
Qualcuno “giusto” (che vuol dire?), qualcuno no!
Forse sarebbe meglio dire: qualcuno ha resistito, qualcuno no!
Per molto tempo abbiamo creduto che la terra fosse così:
E quindi ci aspettavamo questo………
Ci siamo ricreduti abbastanza presto
Ma ammettere abitanti agli antipodi era
considerata eresia fino a Galileo e oltre
……
“come fanno a vivere a testa in giù???”
Modelli sbagliati ma non sempre, anzi:
Ci sono state ottime modellizzazioni……Eratostene (3000 a.c.)!
…e altre meno buone:
Per più di 1000 anni abbiamo creduto che gli oggetti
cadessero con una velocità proporzionale al loro peso
(Aristotele 300 a.c.)
NON E’ VERO!!!!
La velocità dipende dall’altezza da cui cadono
(Galileo? 1500)
Oppure Tolomeo……….100 A.C.
Questo funziona, ma sembra incredibile!
Quando siete seduti in poltrona, non siete veramente a contatto della poltrona, ma
lievitate a un'altezza di 1 angstrom
(1 centomilionesimo di centimetro) da essa, poiché i vostri elettroni e quelli della
poltrona si oppongono con fermezza a qualsiasi ulteriore "intimità".
Anche la geometria ha i suoi problemi…..
Non è vero che la somma degli angoli interni di un triangolo è sempre di 180
gradi (Euclide)
Se prendiamo la terra e la “spianiamo” su un piano
la linea più breve (ORTODROMIA) che congiunge
due punti NON appare come una retta, ma come
una spezzata
Tracciando una retta sul piano di proiezione si
ottiene sulla sfera una curva a spirale
(LOSSODROMIA)
Il problema sta nel fatto che solo la LOSSODROMIA ha una angolazione costante rispetto ai
meridiani, cioè ai punti cardinali, quelli utili utili per la determinazione di una rotta
Quindi si corregge in continuo una rotta LOSSODROMICA per tentare di seguire la spezzata
ORTODROMICA
Prendiamo un modello apparentemente semplice che dovremmo conoscere bene:
(ci crediamo tanto profondamente da chiamarlo LEGGE)
La legge dei grandi numeri,
caso oppure teorema di Bernoulli
detta
anche
legge
empirica
del
descrive il comportamento della media di una sequenza di n variabili
casuali indipendenti e caratterizzate dalla stessa distribuzione di probabilità
(n misure della stessa grandezza, n lanci della stessa moneta ecc.)
al tendere ad infinito della numerosità della sequenza stessa (n).
In altre parole, grazie alla legge dei grandi numeri, possiamo fidarci che la
media che calcoliamo a partire da un numero sufficiente di campioni
sia sufficientemente vicina alla media vera.
Questa è la spiegazione, in linguaggio naturale del modello….
Ma che vuol dire? E come si verifica (o falsifica il modello)????
In che senso il modello è Utile/utilizzabile????
Procediamo nel modo più tradizionale, lanciamo una moneta tante volte
(1.000.000) e misuriamo la frequenza di Croci man mano che procediamo:
frequenza relativa delle uscite "testa"
0.51
Frequenza relativa
0.505
0.5
0.495
0.49
0.485
0.48
0
200,000
400,000
600,000
800,000
Lanci
Sembra tutto a posto… almeno da 20000 lanci in avanti
1,000,000
Perché «SEMBRA»?
L’impressione è che il numero di uscite tende ad adeguarsi alle aspettative
NON E’ COSI’! Il numero di «croci» che manca per raggiungere la frequenza
attesa, non diminuisca affatto
scostamento assoluto dalla frequenza teorica
500
Scostamento (numero di uscite)
400
300
200
100
0
500
100,500 200,500 300,500 400,500 500,500 600,500 700,500 800,500 900,500
-100
-200
-300
Lanci
Infatti se cambio la misura utilizzata per verificare la legge…..
Ma non basta, cambiamo metodo di osservazione/misura.
Lanciamo la moneta e definiamo una variabile a cui sommiamo +1 se viene testa o
– 1 se viene croce. Questo è il risultato:
somma dei lanci di una moneta (t=1, c=-1)
600
400
Somma cumulata
200
0
0
100,000
200,000
300,000
400,000
500,000
-200
-400
-600
-800
-1000
Sounds strange. Isn’t it?
Lanci
600,000
700,000
800,000
900,000 1,000,000
Siamo stati sfortunati?? No basta ripetere l’esperimento e si vede che
cambiano i «cammini», ma rimangono irregolari
File Excell
Allora, qual è il problema???
Il punto è che NON sono le singole uscite ad adeguarsi al modello, quanto il
fatto che aumenta il numero di lanci.
In sostanza dato che «misuriamo» l’aderenza del modello mediante una frazione,
la deviazione del numeratore rimane (relativamente) costante, mentre il
denominatore cresce costantemente.
Tra l’altro questo evidenzia il fatto che questa legge non è verificabile in senso
deterministico (a quanti lanci formuliamo il nostro giudizio???)
Esso è proprio una affermazione su un comportamento concettuale, una cosa
molto vicina ad un postulato
Se volessimo ridefinire la legge in termini di somma (e non di frequenza relativa)
Dovremmo dire così:
La probabilità che in un numero infinito di lanci la somma di T (=1) e C (=-1)
«passi» per lo 0 è pari a 1
Avete già incontrato un problema simile, definito in 2 dimensioni (come fossero
due lanci di moneta) e lo conoscete sotto il nome di «random walk»
Il grafico di un random walk (+1 o -1 su ascissa e ordinata) è ad esempio questo:
File Excell
Anche qui la probabilità di «passare per lo o in infiniti passi è=1
AH, allora il trucco è chiaro, in tutti i casi, cioè in tutte le dimensioni la
probabilità di «passare» per 0 è uguale a 1
NOOOO ! Un’altra curiosità di questo (banale) modello:
Un cammino tridimensionale come questo:
Ha una probabilità di passare per O
Pari a o,35 circa !!!!
In generale si dimostra che la probabilità decresce al crescere del numero di
dimensioni:
Probabilità di tornare all’origine
dopo infiniti passi
Dimensione del random walk
1
1
2
1
3
0.340537
4
0.193206
5
0.135178
6
0.104715
7
0.085849
8
0.072912
Qui la dimostrazione
http://mathworld.wolfram.com/PolyasRandomWalkConstants.html
Utile???
Beh ad esempio giustifica il cosiddetto «Teorema della rovina del giocatore»
In un gioco equo contro un banco con capitale (praticamente) illimitato un giocatore con capitale dato è
destinato a perdere SEMPRE.
Esempio roulette rosso/nero, punto sempre 1 € su un colore (nero):
Basta che si verifichi una sequenza i rossi abbastanza lunga da esaurire gli € che ho a disposizione.
Devo smettere di giocare e perdo tutto.
Il gioco è equo, di per sé, ma lo è diversamente per i due giocatori, la probabilità che la sequenza di
rossi superi il mio capitale è molto più alta di quella che la sequenza di neri superi il capitale del banco
SEMPLICEMENTE perché il banco ha più capitale
Attenzione anche il «gioco al raddoppio»
non risolve il problema, lo attenua solamente
Qui la dimostrazione
Tiriamo le somme: un modello per la costruzione di modelli?
In tutto questo processo il ruolo dei “dati” è centrale:
Come abbiamo visto negli esempi precedenti, la concettualizzazione del fenomeno “genera”
il modo di raccogliere e interpretare i dati
Un aspetto fondamentale del modello è la parte che descrive come le relazioni descritte
diventano percepibili sotto forma di osservazioni
Questa parte è denominato PROCESSO GENERATORE DEI DATI (GDP)
Quando le osservazioni sono sistematiche e devono essere confrontabili prendono il nome di
MISURE, se riguardano collettivi si tratta di MISURE STATISTICHE
E la statistica ????? Un esempio:
60
C=40+0.45 R
50
C=30+0.45 R
Consumi
40
30
C=20+0.45 R
20
C=10+0.45 R
10
C=1.5+4.12 R
0
0
5
10
15
Reddito
Stessa “pendenza” diverse “intercette”!!!!
20
25
In altri termini la elasticità del consumo rispetto al reddito
sono le stesse per tutti gli individui,
ciò che cambia è il “punto di partenza, cioè il consumo che corrisponde ad
un reddito 0
I dati sezionali “nascondono” questo fatto:
Sottostimano il “punto di partenza” (l’intercetta)
Sovrastimano l’elasticità (la pendenza)
Vi è Distorsione: essa distorsione si annulla solo se l’intercetta per ogni
individuo è la STESSA
Cioè una stima sezionale ipotizza un MODELLO di comportamento in cui la
parte non spiegata della relazione (l’intercetta) è la stessa per tutti gli
individui
Cioè nega l’ETEROGENEITA’ tra individui
1) E’ venuta alla luce una ipotesi del modello che non era stata esplicitata:
l’omogeneità tra le parti non osservate di ciascun individuo.
2) Solo una certa configurazione dei dati (osservazioni in più occasioni)
consente di esplicitare ed affrontare l’eterogeneità
3) Il modo in cui rappresentiamo con dati (simboli) il fenomeno (modello)
hanno una influenza diretta sulle leggi che regolano il linguaggio (la tecnica
) e quindi sulle conclusioni
4) Dobbiamo sempre occuparci del processo che ha generato i dati che può
non essere neutrale per il modello
Casistica di non neutralità delle misure.
Consideriamo un collettivo di unità statistiche, il DGP ha tra le sue caratteristiche più
importanti la relazione (se c’è) che lega le misure effettuate sulle diverse unità. La
casistica possibile è ampia, tra le assunzioni più comuni:
1.
Indipendenza (nota e utile, tuttavia un DGP poco verosimile: ad es: imprese di uno
stesso settore, pazienti di una stessa città….)
2.
Di solito misure ripetute relative ad una stessa unità sono più “simili” di quelle tra
unità diverse
3.
Di solito misure vicine nel tempo e nello spazio tendono ad essere più simili di
quelle più lontane
Il paradosso di Simpson:
Una indagine su 1000 persone ha dato i seguenti risultati:
Forze di lavoro
senza laurea
con laurea
Totale
Giovani
80
320
400
Anziani
480
120
600
Totale
560
440
1000
Disoccupati
senza laurea
con laurea
Totale
Giovani
24
48
72
Anziani
24
4
28
Totale
48
52
100
Calcoliamo i tassi specifici:
Tasso disocc.
senza laurea
con laurea
Totale
Giovani
30%
15%
18%
Anziani
5%
3%
5%
Sia per i giovani che per gli anziani, il tasso di disoccupazione dei laureati è inferiore
Esempio:
Supponiamo di osservare il comportamento di acquisto di un gruppo di
consumatori. Supponiamo che la probabilità che uno di essi acquisti un
certo bene in una settimana sia = 0.5
Allora la probabilità di osservare 4 acquisti consecutivi sarà:
0.5 x 0.5 x 0.5 x 0.5 = 0.0625 = 6.25%
Se però supponiamo che ci sia relazione temporale tra i comportamenti, ad es.
la prob di acquisto in una settimana scende a 0.10 se c’è stato acquisto nella
precedente, allora la proba di 4 acquisti consecutivi diventa:
0.5 x 0.1 x 0.1 x 0.1 = 0.0005 = 0.5%
E’ evidente che nel secondo caso 4 acquisti consecutivi sono una eventualità
molto più remota, e i nostri giudizi sull’adattamento del modello si
modificano in maniera radicale.
Come contromisura a questa difficoltà di definizione delle misure, spesso
ricorriamo a processi di selezione delle unità che hanno lo scopo di
eliminare (minimizzare) le relazioni tra le misure.
Gli strumenti sono Piano sperimentale e campionamento casuale semplice.
Ciò che in una parola chiamiamo DISEGNO nel quale dobbiamo fronteggiare due
obiettivi in conflitto:
Le unità devono rappresentare un collettivo, anche la sua variabilità, quindi
dovrebbero essere “diverse” (campionamento)
Vogliamo eliminare l’effetto di variabili individuali di disturbo e quindi
dovrebbero essere “uguali” (esperimento)
Spesso siamo in presenza di misture dei due disegni, distinguiamo allora le
variabili in:
Sperimentali = controllate (assegnate) spesso casualmente(trattamenti)
Campionarie = non controllabili, tipiche dell’unità, osservate come sono.
N.B. il tempo è sempre non sperimentale
Nel caso di esperimenti la casualità è garanzie di indipendenza
Nel caso di campionamento il meccanismo di selezione garantisce la casualità
solo parzialmente, ciò che viene controllato non è l’intensità della variabile,
ma solo la scelta delle unità da osservare
Cioè la indipendenza (o dipendenza) è una concettualizzazione da modello, non
risiede nel meccanismo di selezione.
Oltre a ciò in non pochi casi, è manifesto che la selezione delle unità non
garantisce la indipendenza, ma suggerisce solo una forma controllata di
dipendenza.
Esempio osservazioni ripetute, immaginiamo che la osservazione nel tempo t
possa dipendere da quella di t-1.
Ovviamente questa è una assunzione resa apparente mente più “innocente” dal
fatto che siamo portati ad ammettere che ciò che succede “dopo” è
influenzato da ciò che succede “prima”. Ma è un modello
Per es nel modello del “reddito permanente” non succede così.
Il paradosso di Simpson:
MA….il tasso per l’intera popolazione????
Forze di lavoro
senza laurea
con laurea
Totale
Giovani
80
320
400
Anziani
480
120
600
Totale
560
440
1000
Disoccupati
senza laurea
con laurea
Totale
Giovani
24
48
72
Anziani
24
4
28
Totale
48
52
100
Tasso
Totale
9%
12%
10%
Ha un andamento OPPOSTO! È più alto per i laureati ooopppps!
Il paradosso di Simpson:
Come mai?
Questo paradosso è detto appunto di Simpson ed è dovuto al fatto che
il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore
percentuale di laureati;
trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione e età, nonché
quella tra età e titolo di studio) fa giungere a conclusioni errate.
E’ un caso di selezione “INFORMATIVA” cioè NON IGNORABILE
Naturalmente sono possibili esempi identici nei casi più disparati
I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma
semplicemente devono tenere conto della interazione cioè devono essere letti in
modo diverso di quanto non farebbe un lettore o analista superficiale:
Sulla base dei dati possiamo dire che:
In generale (marginale di riga), tra persone laureate ci sono più disoccupati che tra
persone senza laurea
Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si
analizzano i dati), ma considerando tutti i dati, si può inoltre dire
I giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani
(marginale di colonna)
ma sia tra i giovani che tra gli anziani avere una laurea riduce il "rischio
disoccupazione" alla metà (celle della tavola)
Per gli amanti della formalizzazione, il problema è che
p( X / LG )  p( X / LG )
e
p( X / LG )  p( X / LG )
NON
implica
p ( X / L)  p ( X / L)
Dove X=disoccupato (SI/NO)
L = Laureato (SI/NO)
G = Giovane (SI/NO)
e il segmento sulle lettere indica l’evento complementare
Ovviamente il problema è che è sempre possibile immaginare una disaggregazione
da cui ogni tabella può provenire……
PROBLEMA DELL’ETEROGENEITA’ NON OSSERVATA
Francois Bavaud e Patricia Roux, “The means inversion paradox: when the whole is
inverted relatively to each of its parts” Casi concreti:
il tasso di ammissione postgraduate all’università della California è più basso per le donne, ma in
ogni singola facoltà la situazione è invertita (le donne scelgono facoltà meno permeabili)
Il livello salariale aumenta con il grado accademico e con l’anzianità in America. Ma per una data
facoltà si inverte la tendenza. Le università danno salari alti per attrarre nuovi venuti, ma possono
limitarsi a piccoli aumenti per mantenere gli impiegati in servizio.
Le condanne a morte sono leggermente più alte se ad essere difeso è un bianco rispetto a un
nero. Ma se si guardano le vittime, vale il contrario. Le punizioni sono più severe se la vittima è un
bianco, e gli omicidi sono intrarazziali.
 In ogni regione della Francia, il consumo di patate è più alto tra i contadini, che tra i noncontadini, ma la tendenza è invertita nel complesso. Molti contadini vivono in regioni dove si
mangiano poche patate.
La mortalità infantile nel Nord della Francia è più alta nelle famiglie in cui la donna non ha un
lavoro fuori casa, ma ogni categoria di impiegati ha comportamento inverso. Nelle ragioni di
minatori la mortalità è alta, e tradizionalmente le mogli dei minatori non lavorano fuori casa.
Interessante è anche cercare di capire cosa sia meglio guardare: le sottocategorie o l’insieme
dei dati?
È abbastanza chiaro che le sottocategorie sono più chiare, anche se entrambe le scelte sono
corrette. Bavaud e Roux sottolineano come non sia possibile trovare condizioni quadro tipiche
che permettano di escludere questo paradosso: raccomandano quindi di fare sempre
riferimento alle sottocategorie, quando queste sono disponibili.
Tuttavia il paradosso di inversione può avere luogo anche con sotto-sottocategorie rispetto alle
sottocategorie, e così di seguito.
È chiaro che nessun ricercatore può frazionare indefinitamente i propri dati in sottocategorie.
Inoltre al crescere delle sottocategorie, crescono le possibilità di inversione (se ci sono le
categorie sesso, ceto sociale, e età, ognuna può presentare correlazioni con ogni altra variabile,
e raddoppiare i sottogruppi significa una esplosione combinatoria di controlli da effettuare).
Inoltre le variabili non esplicitamente recensite da uno studio possono presentare dei paradossi
di inversione assolutamente non controllabili, nemmeno dal più zelante dei ricercatori.
I modelli di selezione offrono uno strumento per affrontare (in parte) il paradosso
Altri esempi (non tutti di paradosso di Simpson):
la maggior parte degli incidenti automobilistici avvengono a velocità moderata e si
verificano pochissimi incidenti a velocità superiori a 150 km/h. (meglio correre?)
la probabilità di morire in Marina durante il conflitto Ispano-americano era pari a 9/1000. Il
tasso di mortalità nella città di New York in quel periodo era 16/1000
(Era più sicuro andare in guerra?)
In un certo anno i mancini sono il 15 per cento di tutti i bambini americani alla nascita. Però
la percentuale di mancini si riduce al 5 per cento fra i 50 enni e solo all'1 per cento tra gli
ultra 80 enni. (Il mancinismo è una causa di morte prematura?)
La maggior parte degli automobilisti guida a velocità moderate ed è naturale che la maggior
parte degli incidenti si verifichi a queste velocità.
I marinai sono giovani adulti in piena salute; la popolazione di New York ha una differente
composizione della popolazione, che dovrebbe includere bambini, anziani, malati. Questa
popolazione, nell'insieme ha una mortalità più elevata dei giovani adulti in salute.
le persone che oggi hanno una cinquantina d'anni sono state forzate fin dall'infanzia, com'era
d'uso allora, da insegnanti e famigliari, ad utilizzare la mano destra, così la percentuale di
mancini ufficiali diminuisce con l'aumentare dell'età. Però, in conseguenza del fatto che non si
cerca di "correggere" un problema inesistente.
Il paradosso del compleanno: qual è la probabilità che due persone su p persone
presenti in una stanza compiano gli anni nello stesso giorno?
Più alta di quanto potrebbe sembrare! Facciamo il ragionamento inverso:
data una qualunque persona del gruppo vi sono 364 casi su 365 in cui il compleanno di
una seconda persona avvenga in un giorno diverso; se si considera una terza persona,
ci sono 363 casi su 365 in cui compie gli anni in un giorno diverso dalle prime due
persone e via dicendo. Cioè
Quindi la probabilità dell’evento complementare è:
Altri ragionamenti controintuitivi:
Il test clinico
Il 2% della popolazione è ammalata: P(M)= 0.02
Sappiamo che:
il 95% dei malati viene trovato positivo ad un test:
il 5% dei sani viene trovato positivo ai test:
P(S)= 0.98
PM(T+) = 0.95
PS(T+) = 0.05
La probabilità di essere sani dopo essere stati trovati positivi a un test è:
PT+ (S)= PS(T+) * P(S) / ( PS(T+) * P(S) + PM(T+) * P(M)) = 0.72
Il secondo figlio (più ingenuo)
Caso A: 2 figli almeno uno dei figli è maschio
Casi possibili: MM, MF, FM
P(MM)= 1/3
Caso B: il più vecchio è maschio
Casi possibili: MM, MF
P(MM)=1/2
Il paradosso del secondo asso:
Caso A: ho un asso
Caso B: ho l’asso di picche
P (2° asso) = 5359 / 14498
P(2° asso) = 11686/20825
P< 0.5
P>0.5
Non siete convinti?
Guardate un caso più semplice: 4 carte…..le coppie possibili sono:
Caso A = 1 su 5 (5 coppie con almeno 1 asso)
Caso A = 1 su 3 (3 coppie con asso di picche)
Roulette: strategie di gioco
DATI: 18 numeri neri, 18 rossi, 2 verdi.Capitale di partenza: 50€ = x
Giocando solo sul rosso o sul nero, per raddoppiare a 100€ è conveniente:
1)Giocare 1 € alla volta?
2)Giocarsi tutto subito?
(probabilità di vincita ogni puntata: p = 18/38, probabilità di perdita :q = 1-p = 20/38
Giocando 1 € alla volta: probabilità di vincere 100 €:
1-(q/p)x /1-(q/p)b = 0,0051
Giocando tutto in una volta:
Probabilità di vincere 100 € =
18/38 = 0,474 >> 0,0051
Il paradosso delle buste:
In un ipotetico gioco a premi, al concorrente vengono presentate due buste chiuse, ciascuna
contenente l'indicazione di un premio in denaro, che il concorrente riceverà, se la sceglie.
È noto che il valore indicato in una busta è esattamente il doppio di quello dell'altra, ma non
si sa quale delle due contenga il premio maggiore.
Il concorrente può ottenere il premio di una sola busta, ma gli viene data la possibilità di
effettuare la scelta definitiva anche dopo aver aperto a suo piacere una busta ed averne visto
il valore.
Dopo aver aperto la busta scelta per prima, vi conviene aprire e prendere l’altra o no?
Sembrerebbe indifferente se prendere l’altra o no………PERO’
RAGIONIAMO:
Supponiamo che nella busta aperta abbiate trovato 1000€
Se aprite l’altra:
O perdete
500 €
O guadagnate 1000€
Poiché la probabilità che nella seconda busta ci siano 2000€ è pari a 0.5
Il guadagno atteso dal cambio sarà :
0.5 (1000€) – 0.5 (500€) = 250€ Vi conviene Cambiare!!!!! MA SIAMO SICURI ?
Il ragionamento si basa sulle due condizioni:
1. probabilità del 50% per il caso favorevole e altrettanto per quello contrario;
2. conoscenza del valore del premio contenuto in una busta.
Queste assunzioni sarebbero entrambe corrette di per sé, ma non lo sono
contemporaneamente. Infatti si riferiscono a due casi ben distinti:
Caso 1 - buste chiuse, nessun paradosso
Chiamiamo X e Y (con Y=2X) i valori, non noti, distribuiti in modo equiprobabile tra le due buste.
Ora, se si apre prima la busta con X, nel cambio si troverebbe Y=2X con un guadagno pari a X.
Se si apre prima la busta con Y, nel cambio si troverebbe X, con un perdita netta pari a X.
Cioè il guadagno e la perdita sono uguali ed equiprobabili, come intuitivamente doveva essere.
Non si può applicare il ragionamento iniziale del paradosso, perché il valore A, trovato all'apertura
della prima busta, varrebbe una volta X e una volta Y.
Sarebbe sbagliato quindi dire che una perdita pari ad A/2 (quando si cambia dopo aver aperto
prima la busta col valore maggiore, e A=Y=2X) sia diversa da un guadagno pari ad A (quando si
cambia dopo aver aperto prima la busta col valore minore, e A=X).
3. 2. Caso 2 - una busta aperta
chiamiamo A il valore trovato nella busta aperta. Stavolta la vincita può essere solo A e la perdita solo
A/2. Ma non possiamo più affermare con certezza che la probabilità tra i due casi sia la stessa. Essa
dipende fortemente dal valore di A, in relazione alla distribuzione di probabilità dei premi possibili.
In altre parole, dipende dal criterio con cui sono stati scelti i premi da inserire nelle buste.
Ad esempio: Premio massimo definito
Supponiamo, ad esempio, che il premio maggiore nella buste sia stato scelto a caso (con uguale
probabilità) tra zero e 2 milioni, come valore massimo. Di conseguenza il premio minore sarà compreso
tra zero e un milione, con la stessa distribuzione di probabilità.
In queste condizioni, se il valore A trovato nella prima busta è inferiore ad un milione abbiamo
una buona probabilità di guadagnare nel cambio.
Ma, ovviamente, avremmo la certezza di una perdita, se cambiassimo quando A è maggiore di un
milione!
Se poi decidessimo di cambiare in ogni caso, ci accorgeremmo che, a conti ben fatti, il valore atteso del
guadagno sarebbe esattamente zero. Infatti, calcolando correttamente il valore della perdita per la
probabilità di perdere, si trova esattamente un risultato uguale al valore del guadagno per la probabilità
di vincere.
Anche in questo caso il paradosso scompare. Il ragionamento iniziale non è applicabile, in quanto non
teneva conto del limite massimo dei premi.
Il Paradosso di Condorcet
•
•
A, B e C
rappresenta
no partiti o
candidati
1, 2 e 3 sono
gruppi, es.
Sinistra,
Destra e
Centro.
1° scelta
2° scelta
3° scelta
Cittadino 1
Partito A
Partito B
Partito C
Cittadino 2
Partito B
Partito C
Partito A
Cittadino 3
Partito C
Partito A
Partito B
Doppio turno
•
•
•
•
•
Votazione a doppio turno: i due partiti che al primo turno hanno ottenuto più voti si scontrano
fra loro (mentre il terzo partito viene eliminato dalla votazione).
Eliminiamo A
Cittadino 1
Partito B Partito C
Cittadino 2
Partito B Partito C
B >> C.
Cittadino 3
Partito C Partito B
Eliminiamo B
Cittadino 1
Partito A Partito C
Cittadino 2
Partito C Partito A
C >> A
Cittadino 3
Partito C Partito A
Eliminiamo C
Cittadino 1
Partito A Partito B
Cittadino 2
Partito B Partito A
A >> B
Cittadino 3
Partito A Partito B
Non c’è transitività!
esempio
42% dei votanti
26% dei votanti
15% dei votanti
17% dei votanti
1. Memphis
1. Nashville
1. Chattanooga
1. Knoxville
2. Nashville
2. Chattanooga
2. Knoxville
2. Chattanooga
3. Chattanooga
3. Knoxville
3. Nashville
3. Nashville
4. Knoxville
4. Memphis
4. Memphis
4. Memphis
Al primo turno passano Menphis (42%) e Nashville (26%)
Ma la secondo turno
Menphis riamne a 42% e Nashville passa a 58%
Viene eletto Nashville che è la prima scelta di appena il 26% dei votanti
Se non vi è venuto mal di testa potete andare avanti:
http://it.wikipedia.org/wiki/Elenco_di_paradossi
Fly UP