...

Il contesto e l`intelligibilità la misura dell`intelligibilità e il rapporto

by user

on
Category: Documents
7

views

Report

Comments

Transcript

Il contesto e l`intelligibilità la misura dell`intelligibilità e il rapporto
Il contesto, l’intelligibilità
e il rapporto segnale-rumore
I convegno Nazionale AISV
Associazione Italiana di Scienze della Voce
Padova 2-4 dicembre 2004
Romito Luciano
Laboratorio di Fonetica
Università della Calabria
Perché questo lavoro?

<< sento e trascrivo **** e questo
viene confermato dal rapporto S/N
superiore a 10 dB e quindi l’intelligibilità
del segnale è superiore al 90%>>
2
La qualità del segnale
È chiaro quindi che una misura di
non può essere
effettuata
 La qualità qualità
del segnale
è determinata
esclusivamente
con determinazioni
dall’intensità,
dalla intelligibilità,
dalla
oggettive. L’intelligibilità per esempio è
distorsione,
riconoscibilità
del
unadalla
grandezza
che deve essere
valutata con misure soggettive.
parlatore ecc.
3
Intelligibilità e comprensione



Un ascoltatore, un canale trasmissivo
prestabilito, liste di frasi, parole o logatomi un
parlatore addestrato, o voce sintetica
I = 100 R/T (%)
Il valore ricavato fornisce una misura
quantitativa della qualità del sistema di
trasmissione impiegato.
4
Grafico sulla intelligibilità
5
Il nostro test
riascolto
Parlatore 3 parlanti
maschi
Canale
TEST
Voce naturale
Voce Sintetica
parole
frasi
Loquendo
Ascoltatore
brani
Esperti trascrittori
Senza alcun tipo di
addestramento
Frasi con parole
assonanti
Frasi con
risposta chiusa
situazioni
6
Fare un buco nell’acqua
I ragazzi mangiano un panino
Vivo in Via Silvio Pellico 87
Il campione






Mi piace schiacciare un pisolino
Mi piace snocciolare un pisolino
Parole
Frasi
Brani
Frasi con parole assonanti
Frasi con risposta chiusa
situazioni Di solito
Alta-Media e
Bassa
prevedibilità
sento/mento/pento/lento/vento
Lucia, la ragazza di Osvaldo, ha
ricevuto un bel regalo. Lui le ha
voluto comprare un cuore di carta. A
San Valentino Ubaldo vuole regalare
un fiore di carta a Maria.
7
Il campione






Parole
Frasi
Brani
Frasi con parole
assonanti
Frasi con risposta
chiusa
situazioni
Alta-Media e Bassa
prevedibilità
-20 dB
-10 dB
0 dB
+ 10 dB
Diversi rapporti
di S/N
0 dB
5 dB
10 dB
15 dB
20 dB
8
Obiettivi

Riguardo il parlatore:


Riguardo l’ascoltatore:


Valutare la differente risposta utilizzando un campione di ascolto di
esperti e un campione di ascolto senza alcun addestramento;
Riguardo il canale;


Valutare l’intelligibilità utilizzando un parlatore esperto e una voce
sintetica (loquendo)
Riconsiderare il rapporto segnale/rumore in termini di Segnale
Informazione - segnale disturbante e prevedibilità;
Riguardo L’intelligibilità:


misurare l’importanza del contesto nella percezione/comprensione
di una produzione linguistica;
E quindi differenziare l’intelligibilità dalla comprensione e dalla
interpretazione;
9
Ricerca in corso


Valutare la diversa risposta nella
percezione di segnali con musica
sovrapposta;
Differenziare le risposte in base alla
differente musica sovrapposta: classica
e strumentale, lirica e cantata, modelli e
scale occidentali vs modelli e scale
orientali;
10
Le ipotesi




Fino a che punto, l’ascoltatore fa riferimento al contesto, alle
conoscenze condivise, alle proprie personali esperienze
linguistiche, di fronte ad un messaggio inintelligibile.
Quanto, e in che modo, la percezione di ciò che precede
influenza ciò che segue nella sequenza fonica,
ma soprattutto,quanto è possibile che avvenga il contrario: se la
catena parlata viene percepita sull’asse temporale che
inequivocabilmente scorre dal passato verso il presente,
possono gli eventi percepiti successivamente influenzare la
percezione di eventi precedenti?
Il rumore sovrapposto al segnale influenza in maniera minore o
maggiore alla sovrapposizione di altro segnale o di musica ecc. è
sufficiente il rapporto S/N o forse tale rapporto,almeno in
Linguistica deve essere sostituito dal rapporto SI/SD e dalla
misura della comprensione
11
Acquisizione e trattamento del materiale



Tutto il segnale acquisito è stato normalizzato. La
normalizzazione dei dati è stata effettuata tentando
di riportare i segnali ad una intensità ottimale, ovvero
intorno a 70dB.
La scelta del rumore è ricaduta sul rumore bianco,
poiché considerato il più adatto ai nostri scopi.
In ogni frase è stata individuata la parola da
mascherare, ed il rumore scelto è stato modellato
direttamente sulla parola prescelta.
12
Esempio di sovrapposizione di
rumore
13
Voce sintetica-Voce naturale
Rapporto
S/N
0 dB
5 dB
10 dB
15 dB
20 dB
I% per i
gruppi
I % per i
livelli
n.
frase
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Voce naturale
Bassa Prevedibilità
F nor F alter
F sen
sen
10
10
55
95
45
5
80
5
0
85
5
5
100
25
60
95
70
55
95
80
75
85
70
65
55
10
20
85
45
5
95
75
45
55
75
35
85
70
85
85
40
85
95
70
100
95
65
80
100
80
90
70
70
90
90
70
80
60
55
55
81
52
62
54
Voce sintetica
Media Prevedibilità
F nor
F alter
F sen
sen
90
5
5
80
25
100
95
75
10
100
65
65
50
5
55
100
90
70
70
65
35
90
75
60
95
45
100
95
45
35
95
60
90
100
90
95
95
95
80
95
100
95
100
100
95
75
80
65
90
60
20
100
45
95
100
95
75
95
100
95
90
66
74
67
Alta Prevedibilità
F nor
F alter F sen
sen
55
25
45
70
65
70
25
45
10
95
75
45
85
70
95
100
75
70
100
90
80
95
100
90
95
55
60
95
75
85
95
20
85
100
100
95
100
90
95
95
95
80
100
15
15
90
80
90
95
95
95
100
80
30
95
90
100
95
55
90
89
70
76
71
Bassa Prevedibilità
F nor
F alter F sen
sen
90
20
20
90
30
50
45
0
0
90
20
25
80
5
85
95
60
40
90
80
75
70
55
65
65
45
70
80
10
5
80
30
80
60
30
20
80
85
40
90
55
80
100
85
95
95
40
30
85
80
85
90
30
80
95
90
100
70
80
50
82
46
61
55
Media Prevedibilità
F nor
F alter
F sen
sen
55
10
0
85
5
90
45
50
0
100
25
85
95
80
55
90
80
90
100
65
100
95
80
70
100
75
95
85
85
90
100
50
95
95
95
65
100
90
95
100
55
95
100
100
95
85
80
90
95
85
55
95
40
100
100
70
50
100
95
70
91
66
77
74
F nor
Alta Prevedibilità
F alter F sen sen
75
70
85
85
85
100
95
100
100
100
95
95
85
100
95
90
100
100
95
100
40
30
80
30
90
90
85
85
75
40
60
90
45
90
85
100
45
85
100
90
20
15
5
35
75
100
95
85
65
70
90
80
70
95
85
95
95
95
100
100
92
72
73
79
14
Voce sintetica Voce naturale
Rapporto
S/N
0 dB
5 dB
10 dB
15 dB
20 dB
I% per i
gruppi
n.
frase
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Voce naturale
Voce sintetica
BP
10
95
80
85
100
95
95
85
55
85
95
55
85
85
95
95
100
70
90
60
MP
90
80
95
100
50
100
70
90
95
95
95
100
95
95
100
75
90
100
100
95
AP
55
70
25
95
85
100
100
95
95
95
95
100
100
95
100
90
95
100
95
95
BP
90
90
45
90
80
95
90
70
65
80
80
60
80
90
100
95
85
90
95
70
MP
55
85
45
100
95
90
100
95
100
85
100
95
100
100
100
85
95
95
100
100
AP
75
70
85
85
85
100
95
100
100
100
95
95
85
100
95
90
100
100
95
100
81
90
89
82
91
92
15
Voce sintetica Voce naturale
90
80
70
60
50
Voce naturale
voce sintetica
40
30
20
10
0
S-N=0dB
S-N=5dB
S-N=10dB
S-N=15dB
S-N=20dB
16
Gruppo1 (SI)
Gruppo2 (SI)
Gruppo1 (NO)
Gruppo2 (NO)
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
100
90
87,6 86,7
86
80,4
80
72
70
64,9
%
60
50
54,3
43,4
41
40
Gruppo 1
S/N = 20
SI
Gruppo 2
S/N = 20
SI
43.4
54.3
7.3
12.0
1.1
4.0
31,4
30
20
20
18,4
10
12,4 13,3
12
8,9
Gruppo 1 (SI)
Gruppo 2 (SI)
Gruppo1 (NO)
Gruppo2 (NO)
100
0
S/N=-20dB
S/N=-10dB
S/N=0dB
90
S/N=+10dB
84
78,2
80
Alta Prevedibilità
80
77,8
70
58,2
%
60
58,9
56
56
50
40
Gruppo1 (SI)
Gruppo2 (SI)
Gruppo1 (NO)
Gruppo2 (NO)
30
99,6 100
100
21,5
92
90
20
13,8
84,4
10
80
16
12
7,6
75,3
4
4
1,1
68
70
0
63,3
S/N=-20dB
S/N=-10dB
S/N=0dB
S/N=+10dB
%
60
50
Bassa Prevedibilità
44
40
27,3
30
20
20
14,1
12
10
7,3
0
0
S/N=-20dB
S/N=-10dB
S/N=0dB
Media Prevedibilità
Stesso segnale; Stesso valore in S/N;
Stesso gruppo di ascoltatori
Il solo rapporto S/N per il calcolo della
intelligibilità è insufficiente
0,4
0
S/N=+10dB
L’importanza del rapporto S/N
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
S/N = 20
SI
S/N = 10
SI
S/N = 0
SI
S/N = +10
SI
43.4
64.9
80.4
87.6
7.3
63.6
84.4
99.6
1.1
7.6
78.2
77.8
Si (%)
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
S/N =20
SI
S/N = 10
SI
S/N = 0
SI
S/N = +10
SI
54.3
72.0
86.0
86.7
12.0
68.0
92.0
100
4.0
4.0
80.0
84.0
Gruppo 1
Gruppo 2
18
L’importanza del contesto
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
Gruppo 1
S/N = 20
SI
Gruppo 2
S/N = 20
SI
43.4
54.3
7.3
12.0
1.1
4.0
Gruppo 1
S/N = 0
SI
Gruppo 2
S/N = 0
SI
80.4
86.0
84.4
92.0
78.2
80.0
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
(%)SI
Risposte
Frasi con alta
prevedibilità
Frasi con prev.
normale
Frasi con
prev.minima
Gruppo 1
S/N = 10
SI
Gruppo 2
S/N = 10
SI
64.9
72.0
63.6
68.0
7.6
4.0
Gruppo 1
S/N = +10
SI
Gruppo 2
S/N = +10
SI
87.6
86.7
99.6
100
77.8
84.0
19
Alta Prevedibilità
Grado di prevedibilità alto
Risposte (%)
Fare un buco nell’acqua
Tirarsi la zappa sui piedi
S/N = 20
SI NO NR
100 0
0
100 0
0
S/N = 10
SI NO NR
100 0
0
100 0
0
S/N = 0
SI NO NR
100 0
0
100 0
0
S/N = 10
SI NO NR
100 0
0
-
20
Prevedibilità normale
Grado di prev. normale
Risposte (%)
Ho letto una rivista interessante
Ho letto un articolo interessante
Ho letto un caso interessante
Ho letto un libro interessante
S/N = 20
SI
NO
S/N = 10
NR
SI
NO
S/N = 0
NR
SI
S/N = 10
NO
NR
0
0
SI
NO
NR
0
0
1.8 96.4 1.8
81.8 18.2
0
100
100
21
Prevedibilità minima
Gruppo 1 prevedibilità minimo
Risposte (%)
Le vie di Rodi sono variopinte
Le vie di Cenadi sono variopinte
Le vie di Ionadi sono variopinte
Le vie di Olivadi sono variopinte
Gruppo 2 prevedibilità minimo
Risposte (%)
Le vie di Rodi sono variopinte
Le vie di Cenadi sono variopinte
Le vie di Ionadi sono variopinte
Le vie di Olivadi sono variopinte
S/N = 20
SI NO NR
0 54.6 45.4
S/N = 10
SI NO NR
S/N = 0
SI NO NR
S/N = 10
SI NO NR
1.8 54.6 43.6
0
61.8 38.2
25.5 70.9 3.6
S/N= 20
SI NO NR
0 60 40
S/N= 10
SI NO NR
0
40
S/N= 0
SI NO NR
S/N= 10
SI NO NR
60
20
40
40
60
40
0
22
Frasi con risposta chiusa
Si (%)
Frasi con risposta
chiusa gruppo 1
Frasi con risposta chiusa
Risposte (%)
Il pesce è gesso
Il pesce è lesso
Il pesce è messo
Il pesce è nesso
S/N =20
S/N = 10
S/N = 0
S/N = +10
23.6
50.2
70.1
94.2
S/N = 20
SI NO NR
5.5 80 14.5
S/N = 10
SI NO NR
S/N = 0
SI NO NR
S/N = 10
SI NO NR
21.8 67.3 10.9
63.6 36.4
0
70.9 29.1
0
23
SI
NR
NO
lesso
nesso
messo
100
90
80
80
%
70
60
56, 4
50
40
30
20
10
1 4, 5
1 4, 5
9, 1
5, 5
0
Risposte totali
(NO)
Il pesce è gesso
24
Situazioni
Gruppo 1 (%)
Risposte
Situazioni
S/N = 20
SI
NO
NR
1.8
78.5 19.7
Gruppo 2 (%)
Risposte
Situazioni
S/N = 20
SI
NO
NR
3.3
63.3 33.4
S/N = +10
SI
NO
NR
37.9
60.0
2.1
S/N= +10
SI
NO
NR
66.7
33.3
0
25
Il limite
delle
frasi
ad
Alta
Poter schiacciare un pisolino con un rapporto S/N pari a –5dB è
stata riconosciuta con una percentuale del 100%.
Prevedibilità
Poter snocciolare un pisolino con un rapporto S/N pari a –5dB è
stata riconosciuta con una percentuale dello 0%.
100
95
90
85
80
75
70
65
60
55
Normale
Sintetica
Frasi normali
Frasi con
assonanze
nomi e
Toponimi
26
Il riascolto
N.
operatore
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totali
Medie
%
Voce naturale
Frasi
Frasi + Frasi errate
26
5
8
22
7
5
35
9
13
24
5
9
21
1
7
27
7
3
31
8
4
32
12
11
29
7
10
25
2
5
32
11
5
23
4
10
22
2
5
27
5
6
17
6
1
27
6
9
20
4
6
27
4
12
47
12
10
46
11
14
560
128
153
28
6.4
7.65
14
3.2
3.8
Voce sintetica
Frasi
Frasi + Frasi errate
16
6
3
22
10
6
38
10
13
20
3
7
27
6
11
24
7
5
27
9
6
27
13
6
37
13
10
25
2
4
31
14
6
24
5
5
19
0
6
25
1
7
20
7
5
26
13
5
18
7
4
24
4
9
36
8
9
45
12
8
531
150
135
26.55
7.5
6.75
13.27
3.75
3.37
27
Conclusioni


Gli ascoltatori presi in esame hanno dimostrato di poter
ricostruire il segnale anche quando il rumore mascherante ne
impediva la comprensione. Ciò testimonia la capacità e la
possibilità dell’ascoltatore di ricorrere all’insieme di conoscenze
generali, personali, all’esperienza sia quella maturata in quanto
utente della lingua, sia quella acquisita attraverso la percezione
di tutte le parti che compongono il segnale, nel nostro caso la
frase. Tutti questi elementi hanno fornito le basi per
l’interpretazione del segnale che non poteva essere colto solo in
base al puro e semplice ascolto.
Il gruppo di esperti si è distinto soprattutto quando il versante
acustico non forniva molte informazioni restando legato più al
segnale che lasciandosi trasportare dalla interpretazione e dalle
inferenze.
28




Il cervello seleziona gli input che provengono dall’esterno; i nostri dati
dimostrano che la sovrapposizione di un segnale periodico disturba in
modo maggiore rispetto la sovrapposizione di un segnale aperiodico
(rumore); Il rapporto deve essere calcolato in funzione del segnale che
disturba la percezione sia esso rumore sia esso altro: parlato o musica;
Noi
proponiamo
di
introdurre
un
rapporto
Segnale
informazione/Segnale disturbante e stiamo lavorando per ridefinire la
scale di intelligibilità di Lehmann 1969
Questa scala dovrà prevedere la diversa influenza del contesto
(Prevedibilità e quindi valori diversi per numeri, toponimi, nomi).
Infine questo lavoro dimostra come sia necessario creare una figura
professionale di trascrittore che abbia conoscenze linguistiche,
dialettologiche e fonetiche, soprattutto oggi e soprattutto visto la
grande richiesta da parte del ‘mercato’, è inconcepibile che ci sia una
enormità di gente che di trascrizioni e opinioni sulla lingua faccia il suo
lavoro principale senza avere neppure un minimo di competenza
linguistica
29
Fly UP