...

Statistica spaziale: dati e prime analisi

by user

on
Category: Documents
28

views

Report

Comments

Transcript

Statistica spaziale: dati e prime analisi
www.dst.unive.it\ ∼gaetan
Statistica spaziale:
dati e prime analisi
Carlo Gaetan
Dipartimento di Statistica
Università Ca’ Foscari Venezia
Venezia, 2 dicembre 2009
IUAV
1/ 73
www.dst.unive.it\ ∼gaetan
Sommario
Introduzione: tipi di dati spaziali
Dati puntuali
Dati geostatistici
Dati di area
IUAV
2/ 73
www.dst.unive.it\ ∼gaetan
Esempi di dati spaziali (dataset in R)
1. Altezze piezometriche in una regione detta Wolfcamp Aquifer
(Texas, USA)
2. Biomassa di blue grama rilevata in una zona di 200 x 200
metri vicino a Elgin (Arizona, USA)
3. Numero di morti dovuti a SIDS nelle contee dello stato del
North Carolina (USA)
4. Valori dei pixel di una immagine satellitare
5. Posizione e diametri di alberi in una regione di 200 x 200
metri nel southern Georgia (USA)
6. Altri ...
IUAV
3/ 73
www.dst.unive.it\ ∼gaetan
Ingredienti di base I
• Le osservazioni provengono da ben identificati siti in una parte
di uno spazio. Consideremo lo spazio geografico.
• La localizzazione di questi siti sono note e etichettano le
osservazioni.
• Le osservazioni e/o le localizzazioni sono modellate come
variabili casuali.
• Variabili risposta:
I
I
I
univariate, multivariate
continue, categoriali
a valori reali oppure no
localizzazione delle osservazioni sulla variabile risposta:
I
I
I
IUAV
punti: regioni, segmenti, curve
irregolare, su una griglia
di forma regolare oppure no
4/ 73
www.dst.unive.it\ ∼gaetan
Ingredienti di base II
I
spazio euclideo oppure no
• Meccanismo di generazione della localizzazione
I
I
noto, non noto
casuale, non casuale
• Notazioni
I
I
I
I
I
IUAV
spazio delle posizioni possibili: S (consideremo S come un
piano)
punto arbitrario in S: s
regione di studio: D sottoinsieme di S
localizzazione di n osservazioni: s1 , . . . , sn
osservazioni: Z (s1 ), . . . , Z (sn )
5/ 73
www.dst.unive.it\ ∼gaetan
Dati geostatistici: altezze piezometriche
La variabile d’interesse esiste in ogni punto della regione ma si
osserva solo la risposta in un insieme finito di localizzazioni.
Piezometric head measurements
at the Wolfcamp Aquifer (Texas, USA)
●
●
●
●●
●●
100
●
●
●
●
●
●
●
●
●
50
1200
●
●●
●
●
●
●
●
600
●
●
●
●
●
● ●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●●
●
● ●
●
●
150
●
100
●
●
0
−50
0
●
x
100
200
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
−200
●
●
●
●
●
●
−150
200
0
●
●
●
−100
−150
−100
●
●
50
●
●
●
●
●
●
●
●
−50
●
●
●
● ●
● ●
●●
●
●
●● ●
●
● ●
y
●
●
●
●
−100
800
●
●
●●
●
●
●
●
●
●
●
y
1000
●
●
●
400
Piezometric head
●
●
●
●
−200
●
●
●
−300
●
●
●●
●
●
●
●
●
●
●
−100
0
100
x
IUAV
6/ 73
www.dst.unive.it\ ∼gaetan
Dati geostatistici: biomassa del blue grama
Si noti come la localizzazione possa essere regolare.
1500
Bluegrama
●
●
y
30
●
1000
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
10
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
0
●
●
●
●
500
●
●
●
1000
x
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1500
●
●
1000
●
●
●
500
●
●
●
●
1500
0
●
0
●●
●
●
2000
●
●
500
●
●
●
y
●
20
biomass
●
●
2000
0
500
1000
1500
x
IUAV
7/ 73
www.dst.unive.it\ ∼gaetan
Dati su reticolo
La variabile d’interesse esiste ed è osservata solo in un insieme
finito di localizzazioni.
0.0
32
0.2
34
0.4
36
0.6
38
0.8
40
1.0
Sudden infant deaths
in North Carolina for 1974−78
−84
IUAV
−82
−80
−78
−76
0.0
0.2
0.4
0.6
0.8
1.0
8/ 73
www.dst.unive.it\ ∼gaetan
Dati puntuali
I dati sono le localizzazioni (supposte casuali). Qualche volta nelle
localizzazioni si osserva una variabile risposta (mark), in questo
caso il diametro.
Locations seedlings and saplings
●
●
●
●
Locations and diameters of Longleaf pine trees
● ● ●●
●
●
●
● ●● ●●● ● ● ●
●
●
●
●
●
● ●
● ● ●●
●
●●
●
●
●●
●● ● ●
●●●●
●● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●●
●
●
●
●
●
●
●●
● ●●● ●
●● ●
●● ●
●
●●
●
●
●
●
●● ●●●●● ●
● ● ●●●● ●●● ● ●●
●
●●●● ●
●
●
●
●● ● ●
●
● ●
●
●
●
●
●
●
●
●
● ● ● ● ●●●
●●
●●●
●
●
●●
● ● ●
●●●
●
●
●
●
●
●
●
● ●● ● ●
● ●
●
● ●●
●
●●
●
●
●
●
●
●
●
●
●
●● ● ●
● ●
●● ●
● ● ●●
●●●●●● ●●●●●● ● ●
●
●
●● ● ●● ●
●
●● ●
●
●
●
●●●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●● ●
●●●
●
● ●●● ●●●●
●● ●
●
● ●●
●
●
● ● ●● ● ●● ●
●●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●● ●
●●
●
●● ● ●
●
●
● ●●
● ●●
●
●
● ● ●● ●
●
●● ●
●
● ● ●●
●
● ● ● ● ●●●
● ●
●
●● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●●●
●
● ●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●●●●
●
●
●
● ●●
●
●
●●
●
●
●
● ●●
●●●
●
●
●
●●●●
● ●
●
●
●● ●
●
●
●
●
IUAV
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
● ●
●
●
●
9/ 73
www.dst.unive.it\ ∼gaetan
Tipi di strutture spaziali I
Legge di Tobler
“Osservazioni prese da siti vicini tendono ad essere più simili di
osservazioni prese a siti distanti.”
• Strutture di larga scala
I
I
I
Funzione media per dati geostatistici
Vettore delle medie per dati areali
Intensità per un processo di punto
• Strutture di piccola scala
I
I
I
IUAV
Variogramma, funzione di covarianza
Matrice di vicinanza per dati areali
Funzione K di Ripley
10/ 73
www.dst.unive.it\ ∼gaetan
Tipi di strutture spaziali II
• Stazionarietà (il comportamento del processo generatore dei
dati è simile in tutti i sottoinsiemi di S)
I
I
struttura di larga scala costante
struttura di piccola scala che dipende dalla posizione relativa
• Isotropia (il processo è stazionario e la struttura di piccola
scala dipende solo dalla distanza tra siti).
IUAV
11/ 73
www.dst.unive.it\ ∼gaetan
Alcuni obiettivi della statistica spaziale I
• Inferenza sulla struttura spaziale (verifica sull’esistenza di una
struttura spaziale, stima di questa). Importante per la validità
delle procedure statistiche !
• Inferenza sulla struttura non spaziale (stima degli effetti di un
trattamento, effetti delle covariate, stima del numero di punti)
Residential burglaries and vehicle
thefts per thousand households, 1980
6
7
8
Zi
9
10
11
12
13
14
under 9.84
9.84 − 11.64
11.64 − 14.81
14.81 − 18.76
over 18.76
11
12
13
14
under 23.08
23.08 − 30.48
30.48 − 39.1
39.1 − 45.83
over 45.83
11
11
12
13
14
under 19.02
19.02 − 29.33
29.33 − 39.03
39.03 − 53.16
over 53.16
15
Household income (in $1,000)
15
15
Housing value (in $1,000)
6
7
8
9
10
11
HOVALi
6
7
8
9
10
11
INCi
Zi = β0 + β1 INCi + β2 HOVALi + ηi
IUAV
12/ 73
www.dst.unive.it\ ∼gaetan
Alcuni obiettivi della statistica spaziale II
• Previsione di variabili non osservate (kriging, disegno spaziale
ovvero come scegliere nuovi siti per nuove osservazioni ovvero
come riposizionare i siti esistenti)
Average daily ozone values over 1987 summer in Chicago
Average daily ozone values: prediction
30
●
●
20
●
●
●
●
●
●
●
●
10
50
●
●
●
●
●
●
●
●
30
●
20
●
●
●
0
35
●
−10
−10
10
●
●
●
0
●
●
40
●
y
●
40
Ozone
45
●
●
●
−20
●
−30
−20
−10
0
10
x
IUAV
20
30
40
−20
30
●
−30
●
●
●
●
●
−20
−10
0
10
20
30
13/ 73
www.dst.unive.it\ ∼gaetan
Alcuni obiettivi della statistica spaziale III
• estrazione di segnale, ricostruzione di immagini
IUAV
x
z
ẑ(0)
ẑ
14/ 73
www.dst.unive.it\ ∼gaetan
Dati puntuali
IUAV
15/ 73
www.dst.unive.it\ ∼gaetan
Processi di punto
• Un processo di punto è un meccanismo generatore che
determina la posizione di un insieme di n punti s1 , . . . , sn nello
spazio.
• Da un punto di vista probabilistico un processo di punto può
essere caratterizzato dal numero di punti che cadono in una
regione prefissata A, N(A). Questo numero è una variabile
casuale. L’area di A sarà indicata con |A|.
Centri di 69 città in un altopiano della Spagna
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
IUAV
●
●
●
●
●●
●
●
●
●
●
16/ 73
www.dst.unive.it\ ∼gaetan
Esempi di configurazioni spaziali I
Casualità completa
Centri di 69 città in un altopiano della Spagna
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
IUAV
●
●
●
●
●●
●
●
●
●
●
●
17/ 73
www.dst.unive.it\ ∼gaetan
Esempi di configurazioni spaziali II
Regolarità
Cellule di una sezione istologica
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
IUAV
●
●
18/ 73
www.dst.unive.it\ ∼gaetan
Esempi di configurazioni spaziali III
Aggregazione
Posizione di alberi di sequoia
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
IUAV
19/ 73
www.dst.unive.it\ ∼gaetan
Caratteristiche di un processo di punto I
• N(A) è una variabile casuale con una certa media E(N(A))
• Questa media varia con A. Se consideriamo una regione di
area infinitesima ds possiamo definire l’intensità del processo
come
E (N(ds))
λ(s) = lim
|ds|
|ds|→0
Tale funzione è detta funzione d’intensità del primo ordine.
• Un processo stazionario è tale per cui λ(s) assume un valore
costante λ su tutta la regione ; quindi E (N(A)) = λ|A|
IUAV
20/ 73
www.dst.unive.it\ ∼gaetan
Caratteristiche di un processo di punto II
• La funzione di intensità di secondo ordine caratterizza la
dipendenza spaziale, ed è definita come
λ2 (si , sj ) =
E (N(dsi )E (N(dsj )
|dsi ||dsj |
|dsi |,|dsj |→0
lim
• Per un processo stazionario,
λ2 (si , sj ) = λ2 (si − sj ) = λ2 (h)
con h il vettore differenza tra si ed sj per un processo
stazionario.
IUAV
21/ 73
www.dst.unive.it\ ∼gaetan
Casualità spaziale completa e Processo di Poisson
omogeneo I
• Si consideri una regione prefissata A.
• La casualità spaziale completa (Complete Spatial
Randomness) nella regione A corrisponde alla generazione di
un processo di Poisson omogeneo.
• Un processo di Poisson omogeneo d’intensità λ ha due
caratteristiche:
1. per ogni n punti nella regione “i punti si distribuiscono
uniformemente in A”
2. il numero di punti nella regione A ha una distribuzione di
Poisson con media λ|A| (|A| è l’area di A)
IUAV
22/ 73
www.dst.unive.it\ ∼gaetan
Casualità spaziale completa e Processo di Poisson
omogeneo II
λ=100
λ=200
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
● ●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●
● ●
● ●●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
IUAV
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
23/ 73
www.dst.unive.it\ ∼gaetan
Casualità spaziale completa e Processo di Poisson
omogeneo III
Il numero atteso di linee che si intersecano una regione convessa
del piano A è pari a λp(A), p(A) è il perimetro di A. La lunghezza
attesa totale delle linee che attraversano una regione del piano è
pari a λπ|A|
λ=10
IUAV
24/ 73
www.dst.unive.it\ ∼gaetan
Stima non parametrica della funzione di intensità I
n
X
1
s − si
λ̂(s) =
K
τ2
τ
i=1
dove K (·) è una densità di probabilità bivariata simmetrica rispetto
l’origine, detta kernel. Il parametro τ > 0 è noto come ampiezza di
banda (bandwidth) e determina il grado di “lisciamento”
dell’intensità stimata (rappresenta il raggio del disco centrato su s
entro cui i punti si contribuiscono alla stima di λ(s)).
IUAV
25/ 73
www.dst.unive.it\ ∼gaetan
Stima non parametrica della funzione di intensità II
●
●
●
●
0.8
●
●
100
0.4
0.6
x
0.8
1.0
300
800
400
0.6
900
y
500
0.4
400
100
200
300
400
800
900
500
600
0.2
700
900
800
1000
0
0.2
200
700
●
●
0.0
0.6
y
0.4
●
●
●
300
0.2
●
60
0.0
●
●
●
●
●
●
●
●●
●
●
● ●
●
0.0
●
●
●
● ●
● ●
●●
● ●
●
● ●
●
●
●
●
● ●
●
●●
●
●
● ●●
●
● ● ●
● ●● ● ●
●
● ●
●●
●
●
●●
●●
●
● ●●
●
●●
●
●●
●● ●●●
●
●
● ●
● ●
●
●●
●●
●
●
●
●
● ● ●
● ● ●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
● ●● ● ●
●
●● ●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
● ●●
●
● ●●
●
●
●
●
● ●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
● ●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ● ●
●●
●
●
● ●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ● ●
●●● ●
● ●
● ●
●
●
●●
●
●● ● ●
●
●
●
●
●
●●●
●
●
●
●
●
●●
● ●
●
●
●●
●
●
●●
●
● ●
●●
●
●● ●
●
● ●
●●●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
● ●● ●●
●
●
● ●
●
●
● ●●
●●
●●
●
●
●
●
●
●
●
● ●●
●
●●
●
●● ● ●
●
●
●
●
●●
●
●
●
●
●
● ●●
●
●
● ●
●
●●
●
●
●
●
●
●
●
● ●● ●
●
● ● ●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
●● ● ●
●
●
●
● ● ●●
● ●
●
●
●
●
●
●
● ●
●
● ● ●
●
●
●
● ● ●
●
●
●●
●
●
●
●
● ●
● ●
●
●
● ● ●
●
●
●
●
●
1.0
●
●
●
0.8
1.0
τ=0.01
0.0
0.2
0.4
0.6
0.8
1.0
x
Posizione di aceri in un terreno di 19.6 acri (Lansing Woods,
Clinton County, Michigan USA)
IUAV
26/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley I
• La funzione K di Ripley
K (h) =
E(N0 (h))
λ
dove
I
I
IUAV
N0 (h) è il numero degli eventi che stanno dentro un cerchio di
raggio h con centro un evento arbitrario
λ è l’intensità del processo.
27/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley II
• Nel caso di un processo di Poisson omogeneo (CSR)
K (h) = πh2
infatti in un cerchio di raggio h in media abbiamo un numero
atteso di punti
E(N0 (h)) = λ × ’Area cerchio di raggio h’ = λπh2
• Nel caso di aggregazione K (h) > πh2
• Nel caso di regolarità K (h) < πh2
IUAV
28/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley III
LA stima di K è data da
b (h) =
K
1
λ2 |A|
una stima per λ è
IUAV
{#di coppie (si , sj ) con distanza ≤ h}
b= n
λ
|A|
29/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley IV
Residenze di giovani criminali, i cui crimini sono stati registrati nel
1971 a Cardiff (Galles, UK).
K
X
●
●
● ●
●●
●
●
●
●
●
●●●
●●
●
●
●● ●
●
● ●
●
● ●●
●
●
● ● ●●
●● ● ●
● ●
● ● ● ●● ●●●
●
●
● ●●
●
●
●●
●
●●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●●
●
●●
●
● ●
●
●
●
●
●
●
●
●
● ●
1500
1000
● ●
●
●
●
K(r)
●
●●●
●
●
●
●
●
●
●
●
500
●
●
●●
● ●
●
●
●
●
●
●
●
●
0
●
● ●
●
●
●● ●
●
● ●
●●
●
●
iso
theo
●
0
5
10
15
20
r
Presenza di aggregazione !
IUAV
30/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley V
0.20
K
Cellule di una sezione istologica
●
iso
theo
●
●
0.15
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.05
●
●
0.10
●
●
K(r)
●
●
●
●
●
●
0.00
●
●
0.00
0.05
0.10
0.15
0.20
0.25
r
Presenza di regolarità
IUAV
31/ 73
www.dst.unive.it\ ∼gaetan
Funzione K di Ripley VI
350
K
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
50
●
●
●
●
●
●
250
●
●
●
●
iso
theo
●
●
●
●
●
●
200
●
●
●
K(r)
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
0
●
●
●
150
●
100
●
300
Centri di 69 città in un altopiano della Spagna
0
2
4
6
8
10
r
IUAV
32/ 73
www.dst.unive.it\ ∼gaetan
Dati geostatistici
IUAV
33/ 73
www.dst.unive.it\ ∼gaetan
Notazioni
Considereremo una regione S che è un sottoinsieme di R2 (per
semplicità), un punto s avrà coordinate s = (x, y )0 . In n punti
distinti s1 , . . . , sn
●
100
●
●
●
●●
●●
●
●
●
●● ●
●
50
●
●
●●
●
●
●
●
●
●
●
0
●
y
●
●
●
●
●
●
●
−50
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●●
●
●● ●
●
●
−150
−100
●
●
●
●
●●
●
−200
● ●●
●
●
●
●
−100
0
●
●
●
●●
●
●
●
●
●
100
x
vengono considerate n osservazioni Z (s1 ), . . . , Zs (n)
IUAV
Piezometric head measurements
at the Wolfcamp Aquifer (Texas, USA)
34/ 73
www.dst.unive.it\ ∼gaetan
La stima della componente di larga scala I
Si supponga che
Z (s) = µ(s) + ε(s)
con ε(s) componente d’errore. Si vuole trovare una stima µ
b(s) di
µ(s), mediante le n osservazioni Z = (Z( s1 ), . . . , Z (sn ))0
disponibili. Per questo consideremo vari metodi.
Media aritmetica
• Ipotesi: Si suppone che la superficie Z (·) si muova attorno ad
un valore ’centrale’ (µ ’costante’).
• Stima
µ
b(s) =
n
X
Z (si )/n
i=1
o
µ
b(s) = med{Z( s1 ), . . . , Z (sn )}0
IUAV
35/ 73
www.dst.unive.it\ ∼gaetan
La stima della componente di larga scala II
• Proprietà: semplicità, velocità di calcolo.
Media mobile
• Ipotesi: si suppone che la superficie µ(·) sia “sufficientemente
liscia”.
• Stima
µ
b(s) =
n
X
Z (si )I (ds,si ≤ r )/
i=1
n
X
I (ds,si ≤ r )
i=1
dove ds,si = ks0 − si k, oppure (k vicini) se
d(s,s1 ) ≤ · · · ≤ d(s,sn )
µ
b(s) =
n
X
Z (si )I (ds,si ≤ d(s,sk ) )/k
i=1
IUAV
36/ 73
www.dst.unive.it\ ∼gaetan
La stima della componente di larga scala III
• Proprietà: è necessario scegliere r o k (grado di lisciamento),
richiede algoritmi di ordinamento.
Medie pesate seconde le distanze Le singole osservazioni non
contribuiscono più in maniera uguale.
µ
b(s) =
n
X
i=1
−p
ds,s
Z (si )/
i
n
X
−p
ds,s
,
i
p≥0
i=1
Proprietà: semplicità, velocità di calcolo
Dati originari
Media pesata
z
z
x
x
y
IUAV
y
37/ 73
www.dst.unive.it\ ∼gaetan
Covarianza e Covarianza campionaria
Date due variabili casuali (non spaziali) X e Y
• Covarianza:
Cov(X , Y ) = E[(X − E(X ))(Y − E(Y ))]
Cov(X , X ) = E[(X − E(X ))2 ] = Var(X )
(varianza)
• Covarianza campionaria: date n osservazioni {x1 , . . . , xn },
{y1 , . . . , yn }
Pn
(xi − x)(yi − y )
sxy = i=1
n−1
sxx = sx2
IUAV
(varianza campionaria).
38/ 73
www.dst.unive.it\ ∼gaetan
Correlazione e Correlazione campionaria
Date due variabili casuali (non spaziali) X e Y
• Correlazione:
Cov(X , Y )
Corr(X , Y ) = p
Var(X )Var(Y )
misura standardizzata −1 ≤ Corr(X , Y ) ≤ 1
• Correlazione campionaria:
rxy =
sxy
sx sy
misura standardizzata −1 ≤ rxy ≤ 1
IUAV
39/ 73
www.dst.unive.it\ ∼gaetan
Auto covarianza
• Covarianza di una variabile con se stessa ?
• Covarianza di una variabile osservata in un sito (indichiamolo
con s) con una variabile osservata in un altro (indichiamolo
con s 0 )
Cov(Z (s), Z (s 0 )) = E{[Z (s) − E(Z (s))][Z (s 0 ) − E(Z (s 0 ))]}
IUAV
40/ 73
www.dst.unive.it\ ∼gaetan
Auto covarianza campionaria
Consideriamo un campione {z(s1 ), . . . , z(sn )}
• Covarianza di una variabile osservata in un sito (indichiamolo
con si ) con una variabile osservata in un altro (indichiamolo
con sj ). Ammettiamo che abbiano la stessa media
campionaria z.
ssi ,sj = (z(si ) − z)(z(sj ) − z)
• n(n − 1)/2 coppie (tante!)
• non molto utile (ovvero molto variabile) in quanto si riferisce
ad una sola coppia !
• potremmo pensare di raccogliere insieme le coppie con le
stesse caratteristiche ad esempio le coppie i cui siti sono
separati dalla medesima quantità si − sj = h
P
si −sj =h (z(si ) − z)(z(sj ) − z)
sh =
N(h)
IUAV
41/ 73
www.dst.unive.it\ ∼gaetan
(Semi) varianza campionaria delle differenze
E’ calcolata non sui dati ma su tutte le possibili differenze
(z(si ) − z(sj ))2
2
• è una misura di dissimilarità
• coppie vicine nello spazio dovrebbero avere valori simili e
quindi differenze vicine allo zero
IUAV
42/ 73
www.dst.unive.it\ ∼gaetan
Nuvola del variogramma I
Diagramma di dispersione delle coppie
si − sj ,
(z(si ) − z(sj ))2
2
150000
0
50000
semivariance
250000
nuvola del variogramma
0
100
200
300
400
distance
IUAV
43/ 73
www.dst.unive.it\ ∼gaetan
Nuvola del variogramma II
Utile nel rilevare
• valori anomali globali;
1e+06
200
dato errato
●
●●
−100
● ●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
● ●●
●
●
●● ●●●
●
●
●
●
●●
●
●● ●
●
●●
●
●
●
●●●
●
●
●●
●●
●
●
●
●●
0e+00
−200
●
−200
−100
0
X Coord
IUAV
●
●
semivariance
●
0
●
●
8e+05
●
6e+05
●
●
●
Y Coord
●●
●●
●
●
●●
4e+05
●
●
2e+05
100
●
●
100
0
100
200
300
400
distance
44/ 73
www.dst.unive.it\ ∼gaetan
Nuvola del variogramma III
• valori anomali locali;
200
4e+05
dato errato
●
●
●
●
●
●●
●●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●●
●
●
●●
● ●
●
● ●
●
●● ●
●
●
●
●
0e+00
−200
−100
0
X Coord
IUAV
●
●
●
−200
●
●●
● ●
●●
3e+05
● ●●
●
2e+05
0
●●●
●
●
● ●●
−100
Y Coord
●●
●●●
●
●
●
●
●
semivariance
100
●●
●
1e+05
●
●
100
0
100
200
300
400
distance
45/ 73
www.dst.unive.it\ ∼gaetan
Variogramma campionario
Il semi-variogramma campionario riassume la nuvola del
variogramma
X
1
γ
b(h) =
(z(si ) − z(sj ))2
2N(h)
si −sj =h
Nel caso in cui i siti non siano disposti su di un reticolo dobbiamo
creare dei contenitori (bins) per contenere le coppie che sono
separate approssimativamente da h
Piezometric head measurements
at the Wolfcamp Aquifer (Texas, USA)
250000
Variogramma campionario
●
●
●
●
●
●●
800
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●●
●
●
●● ●
●
●
●●
●
●
●
●
●
600
●
●
●
●
● ●
●
● ●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●●
●
● ●
●
●
150
●
●
●
●
100
●
●
50
●
●
●
0
−50
50000
●
●
y
1000
●
400
Piezometric head
●
150000
semivariance
1200
●
●
IUAV
−150
−200
−100
0
x
100
●
● ● ●
0
200
−100
−300
●
● ●
●
●
200
0
100
200
300
400
46/ 73
www.dst.unive.it\ ∼gaetan
Il variogramma nelle varie direzioni
Anisotropia: la variabilità dipende dalla direzione
Variogramma campionario nelle quattro direzioni :
N−S, NE−SW, E−W e SE−NW
0°
45°
90°
135°
200000
Piezometric head measurements
at the Wolfcamp Aquifer (Texas, USA)
●
●
●
●
●
●
● ●
● ●
●
●●
●
●
●● ●
●
● ●
●
●●
●
●
●
●
●
600
●
●
●
●
●
● ●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●●
●
● ●
●
●
150
●
150000
semivariance
800
●
●
●●
100
●
●
50
●
●
●
0
50000
●
●
●
●
●
y
1000
●
●
●
400
Piezometric head
●
100000
1200
●
●
−50
−300
−150
−200
−100
0
x
100
0
200
−100
200
0
100
200
300
400
distance
IUAV
47/ 73
www.dst.unive.it\ ∼gaetan
Esempio: precipitazioni in Svizzera
250
20000
I dati si riferiscono alla pioggia caduta sulla Svizzera l’8 maggio
1986, giorno in cui la nube di Chernobyl si è trovata al di sopra
dell’Europa centrale. I dati sono stati oggetti di una competizione
per trovare il miglior previsore di questi.
100
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●● ● ●
●
●●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
15000
150
●●
●
●
●
50
Y Coord
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
10000
●
●
●●
● ●
●
semi−variogram
200
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
−50
5000
0
●
●
0
IUAV
●
50
100
150
200
X Coord
250
300
350
50
100
150
h
200
48/ 73
www.dst.unive.it\ ∼gaetan
Modelli per la covarianza I
• Consideriamo la covarianza tra due siti Cov(Z (s), Z (s 0 )) in
generale questa dipenderà da s e s 0 .
• Supponiamo ora che Z (s) e Z (s 0 ) abbiano la stessa media e
che la covarianza dipenda solo da h = s − s 0
C (s − s 0 ) = Cov(Z (s), Z (s 0 )).
Tale ipotesi è detta stazionarietà,
Campo di colza in Lombardia
IUAV
Campo aleatorio stazionario
49/ 73
www.dst.unive.it\ ∼gaetan
Modelli per la covarianza II
• Introduciamo un’ulteriore restrizione la covarianza dipende
solo dalla distanza khk = ks − s 0 k
C (ks − s 0 k) = Cov(Z (s), Z (s 0 )).
’Campi’ lunari
IUAV
Campo aleatorio isotropico
50/ 73
www.dst.unive.it\ ∼gaetan
Variogramma (teorico)
• Definizione
Si supponga che tutti i siti s1 e s2
E(Z (s1 )) = E(Z (s2 ))
2γ(s1 − s2 ) = Var(Z (s1 ) − Z (s2 )),
La quantità 2γ è detta variogramma e γ è detto
semivariogramma.
• Relazione tra variogramma e covariogramma
Se il processo è stazionario
γ(h) = (σ 2 − C (h)).
IUAV
51/ 73
www.dst.unive.it\ ∼gaetan
Interpretazione del (semi)variogramma
• sill: asintoto del semivariogramma. Solamente i processi
stazionari in senso debole presentano un sill
• range: è la distanza h alla quale γ(h) diviene costante
(C (h) ' 0). Lo definiamo in maniera approssimata perché per
alcuni processi la correlazione è zero solo asintoticamente.
• nugget: discontinuità del variogramma
1.0
0.0
0.5
γ(h)
1.5
2.0
Variogram
0.0
0.5
1.0
1.5
2.0
2.5
3.0
distance
IUAV
52/ 73
www.dst.unive.it\ ∼gaetan
Esempi di (semi)variogramma (processi stazionari)
Modello esponenziale
γ(h) = σ 2 {1 − exp {−h/φ}}
σ 2 = 1, φ = 0.3
γ(h)
0.0
0.0
0.2
0.2
0.4
0.4
γ(h)
0.6
0.6
0.8
0.8
1.0
1.0
Modello pepita
(white noise)
0, h = 0
γ(h) =
σ 2 h 6= 0
σ2 = 1
0.0
0.5
1.0
1.5
distance
IUAV
2.0
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
distance
53/ 73
www.dst.unive.it\ ∼gaetan
10
8
6
y
4
2
0
0
2
4
y
6
8
10
Regolarità
0
2
4
6
8
10
0
2
4
x
8
10
8
6
y
4
2
0
0
2
4
y
6
8
10
esponenziale (φ = 0.2)
10
pepita
0
2
4
6
8
10
x
esponenziale (φ = 1)
IUAV
6
x
0
2
4
6
8
10
x
esponenziale (φ = 4)
54/ 73
www.dst.unive.it\ ∼gaetan
Esempi di (semi)variogramma (processi stazionari)
Modello wave
γ(h) = σ 2 {1 − φh sin( φh )}
σ 2 = 1, φ = 0.3
γ(h)
0.6
0.0
0.0
0.2
0.2
0.4
0.4
γ(h)
0.6
0.8
0.8
1.0
1.2
1.0
Modello gaussiano
2
γ(h) = σ 2 {1 − exp{− hφ }}
σ 2 = 1, φ = 0.3
0.0
0.5
1.0
1.5
distance
IUAV
2.0
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
distance
55/ 73
www.dst.unive.it\ ∼gaetan
10
8
6
y
4
2
0
0
2
4
y
6
8
10
Regolarità
0
2
4
6
8
10
0
2
4
x
10
10
8
0
2
4
y
6
8
6
y
4
2
0
0
2
4
6
8
x
wave (φ = .1)
IUAV
8
gaussiano (φ = 2)
10
√
gaussiano (φ = 0.6/ 3)
6
x
10
0
2
4
6
8
10
x
wave (φ = 2)
56/ 73
www.dst.unive.it\ ∼gaetan
Modelli di regressione:
dati geostatistici
variabilità=larga scala+ piccola scala
Z (s) = µ(s) + ε(s)
dove µ(s) componente di grande scala funzione deterministica
sufficientemente ’liscia’ e ε(s) componente di piccola scala
aleatoria.
IUAV
57/ 73
www.dst.unive.it\ ∼gaetan
Superfici di trend e covariate
1. Superfici: la componente di larga scala dipende dalle
coordinate
1.1 µ(s) = β0 + β1 x + β2 y ,
s = (x, y )0
1.2 µ(s) = β0 + β1 x + β2 y + β3 x 2 + β4 xy + β5 y 2
2. Covariate
µ(s) = β0 + β1 u(s).
IUAV
58/ 73
www.dst.unive.it\ ∼gaetan
Esempio: Acquifero del Texas
Perspective plot
Perspective plot
als
residu
terp$z
trend
wolf.in
Z (s)
Z (s)
x
x
x
y
IUAV
Perspective plot
y
=
=
µ(s)
β0 + β1 x + β2 y
y
+
+
ε(s)
ε(s)
59/ 73
www.dst.unive.it\ ∼gaetan
Esempio: Potenziali di ritenzione
Si considerano dei campioni prelevati dal suolo. Successivamente i
campioni vengono saturati con acqua e si misura il potenziale di
ritenzione ad una determinata pressione. Per ogni campione è nota
la frazione granulometrica d’argilla.
Potential
Clay
Residuals
residu
u
z
als
Z (s)
Z (s)
IUAV
x
x
x
y
y
=
=
µ(s)
β0 + β1 u(s)
y
+
+
ε(s)
ε(s)
60/ 73
www.dst.unive.it\ ∼gaetan
Previsione spaziale
• Problema: prevedere il valore Z (s) quando s è un punto non
campionato basandosi sui valori osservati z(s1 ), . . . , z(sn ).
• La soluzione è detta anche interpolazione
• Obbiettivo: costruzione di mappe
Si suppone che il modello sia dato da
Z (s) = µ(s) + ε(s).
Due approcci
b
1. Proporre un modello per µ(s), stimarlo (m(s)),
sottrarlo dai
b
dati εb(s) = Z (s) − m(s),
quindi modellare e prevedere i
residui εb(s)
2. Modellare e stimare simultaneamente µ(s) e ε(s)
IUAV
61/ 73
www.dst.unive.it\ ∼gaetan
Kriging
b (s) non distorto ottimo secondo il criterio
• Previsore lineare Z
dell’errore quadratico medio
b (s)]2
E[Z (s) − Z
• E’ un previsore ottimo solo rispetto al criterio e al modello
scelto
• Basato sulla teoria dei processi stocastici con funzioni di
covarianza
IUAV
62/ 73
www.dst.unive.it\ ∼gaetan
Kriging: caratteristiche
• Il previsore in ogni punto è una media pesata dei valori
osservati z(s1 ), . . . , z(sn )
b (s) = λ1 z(s1 ) + · · · + λn z(sn )
Z
• L’errore quadratico medio di previsione è calcolato
automaticamente nella procedura di calcolo.
• La superficie prevista è liscia il grado di lisciamento dipende
dal variogramma.
• I punti campionati sono previsti esattamente.
IUAV
63/ 73
www.dst.unive.it\ ∼gaetan
Kriging: esempio precipitazione in Svizzera
120
0
●
●
●35
●
60
60
70
80
●
●
70
●●
80
70
●
● ●
●
●
90
80
●
●
80
●
70
●
100
●
7●0
110
80
●
100
10
80
●
●
70
120
0
●
120
●
●
90
0
150
0
80
●
●
●
●
●
●
●
●
90
8●0
80
●
●
●
●
●
●
100
150
300
●
70
●
●
50
●
●
80
90
●
●
●
100
●
0
50
100
150
200
250
300
0
xgrid
Kriging
IUAV
70
●
●
●
●
●
●
●
100
●
90
●
●
0
300
●
●
50
●
● ●
80
●
90
70●
80
80
● 15
80
●
50
●
80
●
70
●
●
●
350
●
●
●
●
●
70
●
●
●●
●
●
●
80
●
●
80
●
●
●
●
●
●
70
●
●
●
●
200
●
●
150
● 250
●
●
90
●
●
●
400
80
●
●
●
●
●
●
●
80
100
●
90
●
●
●
●
●
●
ygrid
●
●
●
●
●
●
100
350
●
●
80
●
80
●
●
●
70
●
●
●
150
●
60
●
●
●
●
●
60
300
●
●
●
●
●
70
●
70
●
●
80
200
●
●
●
110
●
●
●
60●
●
●
●
●
●60●
●
150
●
80
●
80
●
●
●
90
●
●
●
●
●
250
200
●
6●0
●
120
100
●
●
●
150
●
●
●
●
●
ygrid
●
●
●
● ●
●
50
●
●
●
50
●
●
70
200
●
●
●
●
60
●
●
150
50
100
150
200
250
300
xgrid
√
Errore quadratico medio
64/ 73
www.dst.unive.it\ ∼gaetan
Kriging: esempio acquifero del Texas
Errore quadratico medio
di previsione
Kriging Universale
●
●
60
●
●
●
70
50
50
●
●
●
0
y
0
●
40
y
●
60●
●
60
●
●
●
50
●
●
●
●
●
●
●●
50
●
●
●
●
60
●
●
●●
●●
●
●
●
●
●
●
0
●
60
●
30
●
●●
●
50
●
●
●
50
100
●
50
●●
●●
100
●
●
●
●
●
0
●
0
70
●
60●
0
x
0
100
60
60
●
●
●
●
●
●
●
●
●
●
●
50
●
●
●
●
●
6●0
●
●
● ●●
60●
●
−200
●
●
●
●
50
50 ●
●
●
●
●
●
●
●
●
●
●
60●
60
● ●●
●
●
50
0
−150
●
●
●
●
●
●
●
●
−100
−50
−50
90
0●0
●
●
50
0
●
●
●
●
●
60
●
●
●
●
●
−100
●
80
−100
●
●
10
●
●
●
●
●
500●
●
●
●
●
●
●
●
60
●
●
−200
IUAV
●
●
●
●
60
●
●
●
●
●
●
●
●
−150
●
●
●
50●
●
●
●
●
●
−100
0
100
x
65/ 73
www.dst.unive.it\ ∼gaetan
Dati di area
IUAV
66/ 73
www.dst.unive.it\ ∼gaetan
Dati di area: notazioni
Una regione D è suddivisa in n aree Ai , i = 1, . . . , n e viene
osservato il valore su ogni area Zi = Z (Ai ), i ∈ S = {1, 2, · · · , n}.
0.0
0.2
0.4
0.6
under 27.91
27.91 − 29.26
29.26 − 31.02
over 31.02
0.8
1.0
Percentage with blood group A in Eire
0.0
IUAV
0.2
0.4
0.6
0.8
1.0
67/ 73
www.dst.unive.it\ ∼gaetan
Misure di vicinanza I
• Distanze tra i centroidi (dati continui)
• Matrice di prossimità (W = (wij ) di dimensione n × n.
Esempi:
Percentage with blood group A in Eire
Graph
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
IUAV
68/ 73
www.dst.unive.it\ ∼gaetan
Misure di vicinanza II
I
Matrice di contiguità (induce un grafo)
1 se Ai ha un confine in comune con Aj
wij =
0 altrimenti
I
W può essere non simmetrica
wij =
I
IUAV
lij
li
doveP
lij è la lunghezza della frontiera in comune tra Ai e Aj e
li = j lij è il perimetro di Ai
W(k) matrice di distanza al ritardo spaziale k ad esempio
(2)
wij = 1 se Ai e Aj non sono confinanti ma confinano tutte e
due con una regione Ak .
69/ 73
www.dst.unive.it\ ∼gaetan
Lisciamento
Medie mobili spaziali
µ̂i =
zi +
Pn
1+
Pj=1
n
j=1 wij
6100
6050
5900
5950
6000
under 27.91
27.91 − 29.26
29.26 − 31.02
over 31.02
5850
0
IUAV
Percentage with blood group A in Eire
5800
5800
5850
5900
5950
6000
6050
6100
Percentage with blood group A in Eire
under 27.91
27.91 − 29.26
29.26 − 31.02
over 31.02
wij zj
100
200
300
0
100
200
300
70/ 73
www.dst.unive.it\ ∼gaetan
Autocorrelazione e sue misure
Una W -misura dell’ autocovarianza spaziale è data da
Pn Pn
i=1
j=1 wi,j (zi − z)(zj − z)
P
C=
n Pn
i=1
j=1 wi,j
Questa autocovarianza deve essere normalizzata per ottenere una
autocorrelazione. Ad esempio con la varianza campionaria
aggiustata
Pn
(zi − z)2
(n − 1)s 2
2
=
s∗ = i=1
n
n
Ciò ci conduce alla definizione dell’indice di Moran
IUAV
71/ 73
www.dst.unive.it\ ∼gaetan
Indice di Moran
P P
n ni=1 nj=1 wi,j (zi − z)(zj − z)
C
P
M = 2 = Pn Pn
s∗
{ i=1 j=1 wi,j } ni=1 (zi − z)2
• L’indice di Moran M può uscire dall’intervallo [−1, +1] (non è
proprio un’autocorrelazione !)
• È tanto più grande quanto valori in siti vicini sono simili (è
tanto più piccolo quanto valori in siti vicini non sono simili) →
aggregazione o autocorrelazione positiva (repulsione o
autocorrelazione negativa)
• Il caso in cui le osservazioni sono indipendenti corrisponde ad
un valore di InM vicino a 0.
Nel nostro caso M = 0.554.
IUAV
72/ 73
www.dst.unive.it\ ∼gaetan
Indice di Geary
Riprendiamo la misura di dissimilarità (zi − zj )2 .
Una misura media
Pn Pn
2
i=1
j=1 wi,j (zi − zj )
P
P
D=
2 ni=1 nj=1 wij
Una misura media standardizzata è l’indice di Geary
P P
(n − 1) ni=1 nj=1 wi,j (zi − zj )2
D
P
G = 2 = Pn Pn
2
s
2 i=1 j=1 wij
i=1 (zi − z)
IUAV
• assume valori nell’intervallo [0, 2].
• valori prossimi a 1 indicano assenza di autocorrelazione. Valori
inferiori (superiori) a 1 indicano autocorrelazione positiva
(negativa)
• G assume valori vicino allo zero quando a siti vicini
corrispondono valori simili (legge di Tobler)
Nel nostro caso G = 0.38.
73/ 73
Fly UP