Tecniche di riconoscimento del parlante

by user

on 06 июля 2016

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Tecniche di riconoscimento del parlante

Transcript

Tecniche di riconoscimento del parlante

L@bphon
Tecniche di riconoscimento
del parlante
Luciano Romito
Dipartimento di Linguistica
Laboratorio di Fonetica
Università degli Studi della Calabria
Soriano sul Cimino 19 settembre 2007
Distribuzione dei periti/consulenti
intervistati sul territorio nazionale
Distribuzione del campione di periti/consulenti sul territorio nazionale
Valle d'Aosta
Piem onte
Lom bardia
Trentino Alto Adige
Friuli Venezia Giulia
Liguria
Veneto
Em ilia Rom agna
Toscana
Marche
Um bria
Lazio
Abruzzo
Molise
Cam pania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
?
Intervistato
Non Reperibile
Si rifiuta
Quante perizie/consulenze vengono
effettuate in Italia in un anno
Ad oggi e con poco più del 50%
del campione, nell’anno scorso,
tra perizie e consulenze, ne sono
state effettuate ben
594
Con quali metodi?
Incerto
11%
Uditivo
Parametrico
65%
Sonogrammi
Uditivo
13%
Parametrico
Incerto
Sonogrammi
11%
Con quale statistica ?
Smart
2%
Analisi regressiva
2%
Nessuna risposta
6%
Nessuna risposta
Spread
26%
Nessuna statistica
Confronto di medie
Nessuna statistica
38%
Anova
T-Student
Hotelling
Mahalanobis
Mahalanobis
8%
Hotelling
4%
T-Student Anova
2%
6%
Spread
Smart
Confronto di medie
6%
Analisi regressiva
Come viene fornita la risposta al
quesito?
15%
6%
13%
36%
Si/No
Similitudine in percentuale
Compatibilità
Giudizio in scala
rapporto di verisimiglianza
nessuna risposta
21%
9%
Forensic Speaker Identification


La FSI è una disciplina che rientra nella
Fonetica Forense così come questa è una
branca della Fonetica.
La Fonetica Forense oltre al FSI include
Speaker Profiling ed altro come già detto
Chi è il perito nel mondo?

periti Fonetisti Full Time


Periti occasionali (accademici etc)


Olanda, Germania, Svezia, Austria, Spagna e
Svizzera (Rose 2002:21)
Australia, Gran Bretagna (Braun and Kunzel
1998:4)
Italia (Romito-Galatà 2006)
Titolo di studio
Laurea
57%
Altro
2%
I grado
4%
Laurea
II grado
Conservatorio
4%
Conservatorio
I grado
Altro
II grado
33%
Laurea
Ingegneria
60%
Scienze statistiche
ed economiche
9%
Scienze letterarie
Medicina
Scienze
dell'informazione
6%
Altro
Scienze dell'informazione
Altro
6%
Medicina
6%
Ingegneria
Scienze statistiche ed
economiche
Scienze letterarie
13%
Diploma
Industriale
50%
Generico
28%
Ragioneria
Maturità Scientifica
Industriale
Generico
Maturità Scientifica
11%
Ragioneria
11%
Laureati
Età (in anni)
Diplomati
0%
<30
2%
4%
da 30 a 39
7%
21%
da 40 a 49
9%
17%
da 50 a 59
13%
15%
>60
5%
L’essere perito è una attività
principale
24%
76%
attività principale
si occupa di altro
Automatici Semiautomatici
Soggettivi

Confronto dei
sonogrammi

Confronto Uditivo
Aural-Spectrografic identification
Aural-Spectografic (voiceprint)
identification





Se parliamo di metodi soggettivi dobbiamo
ricordare che:
gli uomini e i computer (Ladefoged 2001:78-95)
il giudice … è un uomo
Acoustic Theory of Speech Production: il
comportamento di alcuni parametri acustici e
articolatoriamente interpretabile)
Metodo automatico (cfr. Clermont and Itahashi
1999)



Acusticamente esistono molti parametri che
possono essere usati per comparare le voci
la scelta è determinata da una approfondita
analisi linguistica
non esistono parametri ideali ma solo alcune
indicazioni:





a) mostrare una alta variabilità interparlatare e una
bassa variabilità intraparltore;
b) essere resistente al camuffamento
c) avere una alta frequenza di occorrenza
d) essere robusto durante la trasmissione
e) essere relativamente facile da estrarre e misurare
voiceprint identification




Tale metodo è stato sviluppato e commercializzato da
Kersta 1962
Tosi (“... the legal application of speaker identification,
which at present still consists mainly in the practice of
visual examination of spectrograms...”).
successivamente negli anni ‘70 ed in seguito ad una
serie di critiche (tra cui per ultimo Romito 2000) si è
deciso di utilizzare una combinazione del Metodo Uditivo
e di quello Visivo. (Hollien 1990:215)
Tale metodo viene chiamato Aural-Spectographic Method
(McDermott et al. 1996)*
Dove viene utilizzato




Questo metodo è ancora usato almeno
fino al 2001) dall’FBI (Nakasone and Beck
2001)*
Dalla Polizia Giapponese (Osanai 2001)
In Israele, Italia, Spagna, Columbia (Rose
2002)
Non viene più usato in Olanda e Germania
(Kunzel 1994:138)







riconoscere una voce è una abilità umana
I fonetisti di questa abilità ne fanno il proprio lavoro
questa abilità è stata per decenni riconosciuta dai
Tribunali (Gruber and Poza 1995:section 99)
la scienza e la letteratura è invece controversa:
il dato uditivo è sufficiente: Badwin 1979, Baldwin and
French 1990:9)
il dato uditivo non è necessario anzi non serve (Furui
1989)
Bisogna combinare le due tecniche acustico e uditivo
(Kunzel 1987, 1995:76-81; French 1994:173-4)



non tutti hanno la stessa abilità
(Ladefoged and Ladefoged 1980:45;
Hollien 1995:15, Foulkes and Barron
2000:182)
alcune voci sono più facilmente
identificabili (Popçun et al. 1989, Rose and
Duncan 1995:12,16)
altre voci sono più simili tra loro rispetto
ad altre
Caratteristiche associate alla
identificazione uditiva




L’esposizione
Più si ascolta una voce più questa diventa
familiare e quindi più facilmente
identificabile (Ladefoged and Ladefoged
1980:49)
più una voce è familiare più è facile capirla
anche in contesti rumorosi.
a volte la familiarità della voce sembra
facilitare il compito invece…
Caratteristiche associate alla
identificazione uditiva






La quantità.
esperimenti mostrano che nell’ascolto di una sola parola
l’errore è del 69%, lo stesso scende al 34% con una
frase e al 17% con ascolti di 30 sec. (Rose 2002:102)
La distanza tra gli ascolti
Errore del 50% dopo 10 minuti. 57% dopo un giorno,
61% dopo 7 giorni, 68% dopo 15 gg.
Competenza della Lingua o dialetto sia nel confronto sia
conoscenza da parte dell’ascoltatore
One is far more likely to identify a voice as a given
person’s if one is expecting to hear that person’s
voice>> Ladefoged 1978, Ladefoged and Ladefoged
1980:47, Broeders 1995:155 Romito 2000.
Approfondimento del
Metodo sonografico

Non c’è accordo


Esistono almeno due protocolli



(Gruber and Poza 1995:section 54-71)
Il primo sviluppato da VIAAS (Voice Identification and
Acoustic Analysis SubCommittee, della International
Association for Identification pubblicato negli atti
dell’associazione VCS 1991)
Il secondo protocollo è quello dell’FBI (Koenig
1986:2089-90)
I protocolli sono molto simili, entrambi sono
soggettivi e basati sull’esperienza dell’esperto
VCS 1991:373-9

Ideally, the exemplar should be spoken [by the
suspect] in a manner that replicates the
unknown talker, to include speech rate, accent,
(whether real or feigned), hoarseness, or any
abnormal vocal effect… In general, the suspect
is instructed to talk at his or her natural
speaking rate: if this is markedly different from
the unknown sample, efforts should be made
through recitation to appropriately adjust the
speech rate of the exemplar… Spoken accents or
dialects, both real and feigned should be
emulated by the known speaker… If any other
unique aural or spectrally displayable speech
characteristics are present in the questioned
voice, then attemps should be made to include
them in the exemplars.
AFTI

Visual comparison of spectrograms
involves, in general, the examination of
spectrograph (??) features of like sounds
as portrayed in spectrograms in terms of
time, frequency and amplitude… Aural
cues… include resonance quality, pitch,
temporal factors, inflection, dialect,
articulation, syllable grouping, breath
pattern disguise, pathologies and other
peculiar speech characteristics
Critiche












Dove è la scientificità?
Il riconoscimento della voce e il riconoscimento visivo interessano differenti
parti del cervello (cfr. Blakemore 1977:161-4)
L’emisfero destro viene utilizzato per il riconoscimento dei volti e l’emisfero
sinistro per le voci.
Inoltre dipende anche se le voci sono familiari. Le voci familiari vengono
riconosciute dall’emisfero destro come i volti.
Al momento attuale il metodo uditivo non utilizza un metodo analitico ma
più che altro intuitivo
Non ci sono evidenze nell’esaminatore o caratteristiche numerabili
Non si conoscono gli elementi minimi della comparazione (Hollien
1990:215)
Come può la voce essere discriminata con questo metodo?
Utilizza parametri qualitativi o quantitativi? (Aitken 1995:14-15)
I dati di partenza sono differenti.
Non basta parlare di contorni formantici.
Bisogna definire una serie di passi attuabili da qualunque laboratorio e che
conducano allo stesso risultato
“Foto A ‘orno’ di ‘Buongiorno’. La prima formante corrisponde alla ‘o’,
quindi la ‘r’, consonante occlusiva, seguita dalla ‘n’ e
successivamente di nuovo la seconda formante della ‘o’ conclusiva in
quanto non seguita da consonante. […] Dopo la ‘b’ occlusiva […]
segue la prima formante corrispondente alla ‘i’, quindi la inspirazione
e la successiva espirazione con la ‘l’ e la successiva formante di ‘e’,
sempre con la stessa ripresa di energia tra la inspirazione e la
espirazione conclusiva. [...] Nella foto 2 si evidenzia un inviluppo
compresso con la prima formante (i) e quella terminale, seconda
formante della ‘e’ confermando la mancanza di armoniche proprio
dalla compressione dell’inviluppo e da esaltazioni particolari. [...]
Solo in qualche occasione si è visualizzata l’esaltazione di formanti,
rimanendo per il resto piuttosto contenuta, né si è rilevata
esaltazione nella fase di espirazione finale per la tendenziale
caratteristica di pronuncia veloce e ripresa rapida nella parte
terminale. Infatti in alcuni oscillogramma non risulta presente tale
manifestazione poiché il soggetto riesce in un’unica espirazione a
pronunciare l’intera parola, senza necessità di recupero.
Approfondimento del
Metodo uditivo




Metodo uditivo attraverso ascoltatori inesperti
Metodo uditivo attraverso un campione
ristretto di esperti fonetisti (trained
phonetician)
Single vs multiple choice
Familar vs unfamilar voices
Metodo Uditivo

Nei metodi uditivi vi è il Panel approach


il Direct processing


comparazione di coppie di frasi e risposta in
percentuale di diversi tipi sia solo percettivi
che fino alla identificazione di parti molto
tecniche ed acustiche.
dove un ascoltatore esperto ascolta un intero
brano e identifica la voce.
l’Aural-Perceptual Approach (cfr. tabella)
Uditivo sfruttando la memoria a
breve termine

Voce Anonima A


Voce Anonima B


Rumore Bianco
Voce Nota C


Rumore bianco
Voce Anonima B


Rumore bianco
Voce Anonima A


rumore bianco
Rumore bianco
Voce Nota D

Rumore bianco

Voce Anonima B

Voce Anonima A

Voce Anonima A

Voce Anonima B

Voce Anonima A

Voce Anonima B
costruzione test





Per questa fase possono essere utilizzati diversi programmi che operano con
piste separate
Nella creazione di questi set di confronto particolare attenzione deve essere
posta sul tentativo di ricreare le stesse condizioni qualitative.
Ciascun set deve essere composto rispettando la seguente struttura:
[set Z = voce X + silenzio + voce Y (+ rumore)]
dove




a) “silenzio” inserito tra “voce X” e “voce Y” è della durata di 1,2 secondi;
b) “(+ rumore)” è il rumore di fondo presente nelle conversazioni intercettate e
che deve essere aggiunto alla porzione del saggio fonico con un operazione di
mixing
c) “voce X” e “voce Y” possono essere rispettivamente, una porzione della
conversazione intercettata e una del saggio fonico (o viceversa), sulla base,
ovviamente, delle frasi precedentemente ritenute utili di durata 2,4 sec.
D) “rumore” è rumore bianco che resetta e prepara la memoria a breve termine
per un nuovo confronto.
Esempio
Esecuzione del Test





Il gruppo di ascoltatori
Il test deve essere sottoposto ad un campione di ascoltatori di
almeno 50 unità. Gli ascoltatori, di età media compresa tra i 18 e i
35 anni, sono provenienti dalle province sia del sospettato che delle
voci anonime (ovviamente questo prevede una analisi dialettologica
preventiva)
Nessuno dei soggetti su specifica richiesta soffre o ha sofferto di
disturbi di tipo uditivo tali da inficiare le risposte fornite durante il
test.
Modalità e luogo di esecuzione del test
Il test si svolge all’interno di una camera silente o anecoica. Le
registrazioni del test devono essere riprodotte in modalità
stereofonica con sorgente sonora frontale. Il test viene condotto in
presenza di un operatore con funzioni di supervisore e coordinatore
del test stesso.



Premesse fatte agli ascoltatori
Prima di sottoporre il test agli ascoltatori, agli
stessi vengono fatte alcune premesse per un
corretto svolgimento delle operazioni di
valutazione loro richieste. Nello specifico viene
loro illustrata brevemente la prova da svolgere:
dare una risposta secondo la tabella che segue
soffermando l’attenzione solo ed unicamente
sulla somiglianza o meno delle voci ascoltate.
ETA'_____________
SESSO: M ‫ڤ‬
_____
F‫ڤ‬
PROVENIENZA____
__________
Scala di giudizio
SI
NO
Set
confronto
1
2
…
0%
25%
50%
75%
100%
I risultati del Test







Il test deve essere così composto:
20 set di confronto, relativi alla comparazione tra il saggio fonico e
le voci anonime;
10 set di confronto, relativi alla comparazione tra le voci anonime;
10 set di confronto, relativi alla comparazione tra le voci note;
10 set di controllo di cui con risposta “no” e con risposta “si”.
Vengono accettati e utilizzati al fine della comparazione uditiva solo
quei test che superano il set di controllo con almeno 25 risposte
corrette su 30.
Solo alla fine il risultato ottenuto, frutto di una analisi soggettiva,
avrà valore scientifico.
Domande da porsi sul proprio
metodo






Precisely what parameters were used to
compare the samples?
How can the parameters be justified?
In what way were the parameters quantified?
What decision procedures were used? What for
exemple, were the threshold?
How can these decision procedures be justified?
What is the probability of observing the
differences between samples assuming same
speaker origin/different speaker origin?