Il contesto e l`intelligibilità la misura dell`intelligibilità e il rapporto
by user
Comments
Transcript
Il contesto e l`intelligibilità la misura dell`intelligibilità e il rapporto
Il contesto, l’intelligibilità e il rapporto segnale-rumore I convegno Nazionale AISV Associazione Italiana di Scienze della Voce Padova 2-4 dicembre 2004 Romito Luciano Laboratorio di Fonetica Università della Calabria Perché questo lavoro? << sento e trascrivo **** e questo viene confermato dal rapporto S/N superiore a 10 dB e quindi l’intelligibilità del segnale è superiore al 90%>> 2 La qualità del segnale È chiaro quindi che una misura di non può essere effettuata La qualità qualità del segnale è determinata esclusivamente con determinazioni dall’intensità, dalla intelligibilità, dalla oggettive. L’intelligibilità per esempio è distorsione, riconoscibilità del unadalla grandezza che deve essere valutata con misure soggettive. parlatore ecc. 3 Intelligibilità e comprensione Un ascoltatore, un canale trasmissivo prestabilito, liste di frasi, parole o logatomi un parlatore addestrato, o voce sintetica I = 100 R/T (%) Il valore ricavato fornisce una misura quantitativa della qualità del sistema di trasmissione impiegato. 4 Grafico sulla intelligibilità 5 Il nostro test riascolto Parlatore 3 parlanti maschi Canale TEST Voce naturale Voce Sintetica parole frasi Loquendo Ascoltatore brani Esperti trascrittori Senza alcun tipo di addestramento Frasi con parole assonanti Frasi con risposta chiusa situazioni 6 Fare un buco nell’acqua I ragazzi mangiano un panino Vivo in Via Silvio Pellico 87 Il campione Mi piace schiacciare un pisolino Mi piace snocciolare un pisolino Parole Frasi Brani Frasi con parole assonanti Frasi con risposta chiusa situazioni Di solito Alta-Media e Bassa prevedibilità sento/mento/pento/lento/vento Lucia, la ragazza di Osvaldo, ha ricevuto un bel regalo. Lui le ha voluto comprare un cuore di carta. A San Valentino Ubaldo vuole regalare un fiore di carta a Maria. 7 Il campione Parole Frasi Brani Frasi con parole assonanti Frasi con risposta chiusa situazioni Alta-Media e Bassa prevedibilità -20 dB -10 dB 0 dB + 10 dB Diversi rapporti di S/N 0 dB 5 dB 10 dB 15 dB 20 dB 8 Obiettivi Riguardo il parlatore: Riguardo l’ascoltatore: Valutare la differente risposta utilizzando un campione di ascolto di esperti e un campione di ascolto senza alcun addestramento; Riguardo il canale; Valutare l’intelligibilità utilizzando un parlatore esperto e una voce sintetica (loquendo) Riconsiderare il rapporto segnale/rumore in termini di Segnale Informazione - segnale disturbante e prevedibilità; Riguardo L’intelligibilità: misurare l’importanza del contesto nella percezione/comprensione di una produzione linguistica; E quindi differenziare l’intelligibilità dalla comprensione e dalla interpretazione; 9 Ricerca in corso Valutare la diversa risposta nella percezione di segnali con musica sovrapposta; Differenziare le risposte in base alla differente musica sovrapposta: classica e strumentale, lirica e cantata, modelli e scale occidentali vs modelli e scale orientali; 10 Le ipotesi Fino a che punto, l’ascoltatore fa riferimento al contesto, alle conoscenze condivise, alle proprie personali esperienze linguistiche, di fronte ad un messaggio inintelligibile. Quanto, e in che modo, la percezione di ciò che precede influenza ciò che segue nella sequenza fonica, ma soprattutto,quanto è possibile che avvenga il contrario: se la catena parlata viene percepita sull’asse temporale che inequivocabilmente scorre dal passato verso il presente, possono gli eventi percepiti successivamente influenzare la percezione di eventi precedenti? Il rumore sovrapposto al segnale influenza in maniera minore o maggiore alla sovrapposizione di altro segnale o di musica ecc. è sufficiente il rapporto S/N o forse tale rapporto,almeno in Linguistica deve essere sostituito dal rapporto SI/SD e dalla misura della comprensione 11 Acquisizione e trattamento del materiale Tutto il segnale acquisito è stato normalizzato. La normalizzazione dei dati è stata effettuata tentando di riportare i segnali ad una intensità ottimale, ovvero intorno a 70dB. La scelta del rumore è ricaduta sul rumore bianco, poiché considerato il più adatto ai nostri scopi. In ogni frase è stata individuata la parola da mascherare, ed il rumore scelto è stato modellato direttamente sulla parola prescelta. 12 Esempio di sovrapposizione di rumore 13 Voce sintetica-Voce naturale Rapporto S/N 0 dB 5 dB 10 dB 15 dB 20 dB I% per i gruppi I % per i livelli n. frase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Voce naturale Bassa Prevedibilità F nor F alter F sen sen 10 10 55 95 45 5 80 5 0 85 5 5 100 25 60 95 70 55 95 80 75 85 70 65 55 10 20 85 45 5 95 75 45 55 75 35 85 70 85 85 40 85 95 70 100 95 65 80 100 80 90 70 70 90 90 70 80 60 55 55 81 52 62 54 Voce sintetica Media Prevedibilità F nor F alter F sen sen 90 5 5 80 25 100 95 75 10 100 65 65 50 5 55 100 90 70 70 65 35 90 75 60 95 45 100 95 45 35 95 60 90 100 90 95 95 95 80 95 100 95 100 100 95 75 80 65 90 60 20 100 45 95 100 95 75 95 100 95 90 66 74 67 Alta Prevedibilità F nor F alter F sen sen 55 25 45 70 65 70 25 45 10 95 75 45 85 70 95 100 75 70 100 90 80 95 100 90 95 55 60 95 75 85 95 20 85 100 100 95 100 90 95 95 95 80 100 15 15 90 80 90 95 95 95 100 80 30 95 90 100 95 55 90 89 70 76 71 Bassa Prevedibilità F nor F alter F sen sen 90 20 20 90 30 50 45 0 0 90 20 25 80 5 85 95 60 40 90 80 75 70 55 65 65 45 70 80 10 5 80 30 80 60 30 20 80 85 40 90 55 80 100 85 95 95 40 30 85 80 85 90 30 80 95 90 100 70 80 50 82 46 61 55 Media Prevedibilità F nor F alter F sen sen 55 10 0 85 5 90 45 50 0 100 25 85 95 80 55 90 80 90 100 65 100 95 80 70 100 75 95 85 85 90 100 50 95 95 95 65 100 90 95 100 55 95 100 100 95 85 80 90 95 85 55 95 40 100 100 70 50 100 95 70 91 66 77 74 F nor Alta Prevedibilità F alter F sen sen 75 70 85 85 85 100 95 100 100 100 95 95 85 100 95 90 100 100 95 100 40 30 80 30 90 90 85 85 75 40 60 90 45 90 85 100 45 85 100 90 20 15 5 35 75 100 95 85 65 70 90 80 70 95 85 95 95 95 100 100 92 72 73 79 14 Voce sintetica Voce naturale Rapporto S/N 0 dB 5 dB 10 dB 15 dB 20 dB I% per i gruppi n. frase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Voce naturale Voce sintetica BP 10 95 80 85 100 95 95 85 55 85 95 55 85 85 95 95 100 70 90 60 MP 90 80 95 100 50 100 70 90 95 95 95 100 95 95 100 75 90 100 100 95 AP 55 70 25 95 85 100 100 95 95 95 95 100 100 95 100 90 95 100 95 95 BP 90 90 45 90 80 95 90 70 65 80 80 60 80 90 100 95 85 90 95 70 MP 55 85 45 100 95 90 100 95 100 85 100 95 100 100 100 85 95 95 100 100 AP 75 70 85 85 85 100 95 100 100 100 95 95 85 100 95 90 100 100 95 100 81 90 89 82 91 92 15 Voce sintetica Voce naturale 90 80 70 60 50 Voce naturale voce sintetica 40 30 20 10 0 S-N=0dB S-N=5dB S-N=10dB S-N=15dB S-N=20dB 16 Gruppo1 (SI) Gruppo2 (SI) Gruppo1 (NO) Gruppo2 (NO) (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima 100 90 87,6 86,7 86 80,4 80 72 70 64,9 % 60 50 54,3 43,4 41 40 Gruppo 1 S/N = 20 SI Gruppo 2 S/N = 20 SI 43.4 54.3 7.3 12.0 1.1 4.0 31,4 30 20 20 18,4 10 12,4 13,3 12 8,9 Gruppo 1 (SI) Gruppo 2 (SI) Gruppo1 (NO) Gruppo2 (NO) 100 0 S/N=-20dB S/N=-10dB S/N=0dB 90 S/N=+10dB 84 78,2 80 Alta Prevedibilità 80 77,8 70 58,2 % 60 58,9 56 56 50 40 Gruppo1 (SI) Gruppo2 (SI) Gruppo1 (NO) Gruppo2 (NO) 30 99,6 100 100 21,5 92 90 20 13,8 84,4 10 80 16 12 7,6 75,3 4 4 1,1 68 70 0 63,3 S/N=-20dB S/N=-10dB S/N=0dB S/N=+10dB % 60 50 Bassa Prevedibilità 44 40 27,3 30 20 20 14,1 12 10 7,3 0 0 S/N=-20dB S/N=-10dB S/N=0dB Media Prevedibilità Stesso segnale; Stesso valore in S/N; Stesso gruppo di ascoltatori Il solo rapporto S/N per il calcolo della intelligibilità è insufficiente 0,4 0 S/N=+10dB L’importanza del rapporto S/N (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima S/N = 20 SI S/N = 10 SI S/N = 0 SI S/N = +10 SI 43.4 64.9 80.4 87.6 7.3 63.6 84.4 99.6 1.1 7.6 78.2 77.8 Si (%) Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima S/N =20 SI S/N = 10 SI S/N = 0 SI S/N = +10 SI 54.3 72.0 86.0 86.7 12.0 68.0 92.0 100 4.0 4.0 80.0 84.0 Gruppo 1 Gruppo 2 18 L’importanza del contesto (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima Gruppo 1 S/N = 20 SI Gruppo 2 S/N = 20 SI 43.4 54.3 7.3 12.0 1.1 4.0 Gruppo 1 S/N = 0 SI Gruppo 2 S/N = 0 SI 80.4 86.0 84.4 92.0 78.2 80.0 (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima (%)SI Risposte Frasi con alta prevedibilità Frasi con prev. normale Frasi con prev.minima Gruppo 1 S/N = 10 SI Gruppo 2 S/N = 10 SI 64.9 72.0 63.6 68.0 7.6 4.0 Gruppo 1 S/N = +10 SI Gruppo 2 S/N = +10 SI 87.6 86.7 99.6 100 77.8 84.0 19 Alta Prevedibilità Grado di prevedibilità alto Risposte (%) Fare un buco nell’acqua Tirarsi la zappa sui piedi S/N = 20 SI NO NR 100 0 0 100 0 0 S/N = 10 SI NO NR 100 0 0 100 0 0 S/N = 0 SI NO NR 100 0 0 100 0 0 S/N = 10 SI NO NR 100 0 0 - 20 Prevedibilità normale Grado di prev. normale Risposte (%) Ho letto una rivista interessante Ho letto un articolo interessante Ho letto un caso interessante Ho letto un libro interessante S/N = 20 SI NO S/N = 10 NR SI NO S/N = 0 NR SI S/N = 10 NO NR 0 0 SI NO NR 0 0 1.8 96.4 1.8 81.8 18.2 0 100 100 21 Prevedibilità minima Gruppo 1 prevedibilità minimo Risposte (%) Le vie di Rodi sono variopinte Le vie di Cenadi sono variopinte Le vie di Ionadi sono variopinte Le vie di Olivadi sono variopinte Gruppo 2 prevedibilità minimo Risposte (%) Le vie di Rodi sono variopinte Le vie di Cenadi sono variopinte Le vie di Ionadi sono variopinte Le vie di Olivadi sono variopinte S/N = 20 SI NO NR 0 54.6 45.4 S/N = 10 SI NO NR S/N = 0 SI NO NR S/N = 10 SI NO NR 1.8 54.6 43.6 0 61.8 38.2 25.5 70.9 3.6 S/N= 20 SI NO NR 0 60 40 S/N= 10 SI NO NR 0 40 S/N= 0 SI NO NR S/N= 10 SI NO NR 60 20 40 40 60 40 0 22 Frasi con risposta chiusa Si (%) Frasi con risposta chiusa gruppo 1 Frasi con risposta chiusa Risposte (%) Il pesce è gesso Il pesce è lesso Il pesce è messo Il pesce è nesso S/N =20 S/N = 10 S/N = 0 S/N = +10 23.6 50.2 70.1 94.2 S/N = 20 SI NO NR 5.5 80 14.5 S/N = 10 SI NO NR S/N = 0 SI NO NR S/N = 10 SI NO NR 21.8 67.3 10.9 63.6 36.4 0 70.9 29.1 0 23 SI NR NO lesso nesso messo 100 90 80 80 % 70 60 56, 4 50 40 30 20 10 1 4, 5 1 4, 5 9, 1 5, 5 0 Risposte totali (NO) Il pesce è gesso 24 Situazioni Gruppo 1 (%) Risposte Situazioni S/N = 20 SI NO NR 1.8 78.5 19.7 Gruppo 2 (%) Risposte Situazioni S/N = 20 SI NO NR 3.3 63.3 33.4 S/N = +10 SI NO NR 37.9 60.0 2.1 S/N= +10 SI NO NR 66.7 33.3 0 25 Il limite delle frasi ad Alta Poter schiacciare un pisolino con un rapporto S/N pari a –5dB è stata riconosciuta con una percentuale del 100%. Prevedibilità Poter snocciolare un pisolino con un rapporto S/N pari a –5dB è stata riconosciuta con una percentuale dello 0%. 100 95 90 85 80 75 70 65 60 55 Normale Sintetica Frasi normali Frasi con assonanze nomi e Toponimi 26 Il riascolto N. operatore 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totali Medie % Voce naturale Frasi Frasi + Frasi errate 26 5 8 22 7 5 35 9 13 24 5 9 21 1 7 27 7 3 31 8 4 32 12 11 29 7 10 25 2 5 32 11 5 23 4 10 22 2 5 27 5 6 17 6 1 27 6 9 20 4 6 27 4 12 47 12 10 46 11 14 560 128 153 28 6.4 7.65 14 3.2 3.8 Voce sintetica Frasi Frasi + Frasi errate 16 6 3 22 10 6 38 10 13 20 3 7 27 6 11 24 7 5 27 9 6 27 13 6 37 13 10 25 2 4 31 14 6 24 5 5 19 0 6 25 1 7 20 7 5 26 13 5 18 7 4 24 4 9 36 8 9 45 12 8 531 150 135 26.55 7.5 6.75 13.27 3.75 3.37 27 Conclusioni Gli ascoltatori presi in esame hanno dimostrato di poter ricostruire il segnale anche quando il rumore mascherante ne impediva la comprensione. Ciò testimonia la capacità e la possibilità dell’ascoltatore di ricorrere all’insieme di conoscenze generali, personali, all’esperienza sia quella maturata in quanto utente della lingua, sia quella acquisita attraverso la percezione di tutte le parti che compongono il segnale, nel nostro caso la frase. Tutti questi elementi hanno fornito le basi per l’interpretazione del segnale che non poteva essere colto solo in base al puro e semplice ascolto. Il gruppo di esperti si è distinto soprattutto quando il versante acustico non forniva molte informazioni restando legato più al segnale che lasciandosi trasportare dalla interpretazione e dalle inferenze. 28 Il cervello seleziona gli input che provengono dall’esterno; i nostri dati dimostrano che la sovrapposizione di un segnale periodico disturba in modo maggiore rispetto la sovrapposizione di un segnale aperiodico (rumore); Il rapporto deve essere calcolato in funzione del segnale che disturba la percezione sia esso rumore sia esso altro: parlato o musica; Noi proponiamo di introdurre un rapporto Segnale informazione/Segnale disturbante e stiamo lavorando per ridefinire la scale di intelligibilità di Lehmann 1969 Questa scala dovrà prevedere la diversa influenza del contesto (Prevedibilità e quindi valori diversi per numeri, toponimi, nomi). Infine questo lavoro dimostra come sia necessario creare una figura professionale di trascrittore che abbia conoscenze linguistiche, dialettologiche e fonetiche, soprattutto oggi e soprattutto visto la grande richiesta da parte del ‘mercato’, è inconcepibile che ci sia una enormità di gente che di trascrizioni e opinioni sulla lingua faccia il suo lavoro principale senza avere neppure un minimo di competenza linguistica 29