Analisi del segnale - Associazione Italiana di Scienze della Voce
by user
Comments
Transcript
Analisi del segnale - Associazione Italiana di Scienze della Voce
ANALISI DEL SEGNALE Andrea Paoloni Fondazione Ugo Bordoni 1 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 2 Segnale telefonico AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 3 TIPI DI SEGNALI Rispetto alla loro “velocità di cambiare”: Segnali “lentamente” variabili nel tempo Segnali “velocemente” variabili nel tempo Rispetto alla loro “durata nel tempo”: Delta di Dirac Segnale impulsivo (durata inferiore ai 2s) Segnale periodico Rispetto al loro “suono”: Segnale sinusoidale Segnale armonico Rumore (impulsivo, colorato, ecc.) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 4 L AMPIEZZA L’ AMPIEZZA di un segnale ne indica la sua “potenza” (il volume, il livello sonoro, ecc) In acustica si misura in Pa (Pascal) L’AMPIEZZA viene valutata con il “guadagno” o “amplificazione” Raddoppiando il guadagno si ottiene un’ampiezza doppia, e così via AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 5 INTENSITA’ (dB) La percezione tuttavia ci porta a considerare guadagni o amplificazioni in “scala logaritmica”, ovvero a misurare l’ampiezza in dB (Decibel) dove detta A la ampiezza di un segnale: Ampiezza in decibel = 20 * log(A) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 6 AMPIEZZA (raddoppio, dimezzamento) Ad ogni raddoppio di ampiezza, si ha una variazione in decibel pari a +6 Ad ogni dimezzamento di ampiezza, si ha una variazione in decibel pari a –6 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 7 DDINAMICA Il segnale sonoro varia in ampiezza tra un suo “massimo” e un suo “minimo” e questi due valori vengono determinati dalla sorgente o dal canale di trasmissione. Un segnale la cui rappresentazione raggiunge valori vicino al massimo consentito si dice a “dinamica ottimale” o “piena” Un segnale viene detto di “alta dinamica” (o alta qualità) quando è a dinamica piena AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 8 FREQUENZA AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 9 DISTORSIONE Quando per motivi diversi i valori in ampiezza di un segnale vengono “alterati” non linearmente si ha una distorsione del segnale SATURAZIONE: Quando il segnale che stiamo osservando supera il “massimo” consentito dalla dinamica del canale si ottiene una rappresentazione falsata del segnale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 10 IL SEGNALE DIGITALE (o numerico) Il segnale numerico può essere assimilato ad una sequenza (periodica) di osservazioni sperimentali, i cui valori corrispondono (di norma) alla ampiezza del segnale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 11 Tipi di segnali v t v SEGNALE ANALOGICO SEMPLICE SEGNALE DIGITALE SEMPLICE t v SEGNALE CODIFICATO AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 t 12 Segnale televisivo (PAL bianco e nero) 1 - livello di bianco 2 - picco di bianco 3 - livello di sincronizzazione 4 - differenze tra bianco e nero 5 - valore picco-picco del burst 6 - valore picco-picco del colore AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 13 Conversione analogico-digitale 18 20 22 21 18 16 17 CAMPIONAMENTO QUANTIZZAZIONE CODIFICA AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 14 CAMPIONAMENTO •Se osserviamo il segnale una volta al secondo: –PERIODO 1s, FREQUENZA = 1/1s =1Hz •Se osserviamo il segnale 100 volte al secondo: –PERIODO 0,01s, FREQUENZA = 1/0,01s =100 Hz •Se osserviamo il segnale 10.000 volte al secondo: –PERIODO 0,0001s=10ms, FREQUENZA = 1/ 0,0001s =10.000 Hz •Ad esempio nel caso dei CD-ROM audio la FC=44.100 Hz, ovvero si hanno 44.100 eventi ogni secondo (0,0000226s), ogni evento può assumere un valore (AMPIEZZA) compreso nei valori da –32767 a +32767 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 15 Campionamento AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 16 CONVERSIONE DIGITALE ANALOGICA •È il problema inverso ha quello appena analizzato: si tratta di costruire un segnale reale a partire dalla sua rappresentazione numerica •I convertitori A/D (analogico-digitale) convertono i valori numerici in altrettanti valori di tensione (Volt) •Data una frequenza di riproduzione (l’analoga della frequenza di campionamento) il sistema crea, campione per campione, un segnale ampio quanto dettato dalla sequenza numerica •Ma che valori deve assumere il segnale tra un campione ed il successivo, ovvero come “raccordare i diversi punti” AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 17 FILTRO DI RICOSTRUZIONE •Non è sufficiente “connettere” semplicemente” un punto con il successivo •Per ciascun “campione ricostruito” è infatti necessario associare una funzione del tipo SIN(x)/x •Sostituendo a “ciascun” campione una forma d’onda siffatta si ottiene il segnale desiderato •Questa operazione è comunemente detta “FILTRO DI RICOSTRUZIONE” in quanto permette di “ricostruire” il segnale anche dove non è definito (ovvero tra un campione ed il successivo) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 18 SCOMPOSIZIONE DI UN SEGNALE •In pratica (si dimostra che) ogni segnale rappresentato da un numero finito di punti può essere scomposto in una somma di segnali sinusoidali •Trovata la sinusoide più veloce (la frequenza più alta) sarà sufficiente utilizzare una frequenza di campionamento sufficiente a “descrivere” questa sinusoide •Una sinusoide è completamente definita da due punti AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 19 Quantizzazione AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 20 CONVERTITORE D/A sigma delta •Il segnale (analogico) viene “inseguito” da un segnale con frequenza di osservazione altissima anche 64 volte maggiore di Nyquist. Il sistema però non è in grado di misurare l’ampiezza; è in grado solamente di sapere se l’ “inseguitore” deve salire o scendere per avvicinarsi al valore vero del segnale •L’ “inseguitore può fare un solo passo alla volta e di ampiezza fissa (-1 o +1) –È la tecnologia attualmente in uso in tutti i sistemi dalle schede per PC, ai DAT professionali, ecc. –In pratica è come se un “inseguitore” si arrampicasse, o discendesse lungo il segnale a passi piccolissimi, ma velocissimi AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 21 Teorema del campionamento Se fc e fMAX = = è la frequenza di campionamento è la frequenza più alta del segnale di campionamento allora fc ≥ 2fMAX AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 22 Aliasing X (w) Xp (w) w0= a) –w0 w0 b) w –ws w 0w s ws 6 w w s– w 0 Xp (w) Aliasing c) w0= –ws w sw 0 w s (w s – w 0) 2 4w s a) spettro di un segnale sinusoidale 6 b) spettro del segnale composto con w w s>2 w 0 c) spettro sul segnale composto con w s<2 w 0 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 23 •Se FC è minore (o uguale) a 2*Fmax, tutte le componenti (sinusoidi) con frequenza compresa tra FC/2 e Fmax, vengono interpretate in maniera non corretta Fx diviene (FC/2 - [Fx-FC/2] ) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 24 Problema dell’aliasing AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 25 Analisi spettrale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 26 FILTRI NEL TEMPO Il FILTRO nel tempo applicato ad un segnale numerico è una operazione matematica sui valori numerici che descrivono il segnale; il risultato è il “segnale filtrato” Un FILTRO opera “sempre” una perdita di informazioni rispetto al segnale originale; ovvero un filtro elimina (o meglio attenua) alcune informazioni (tipicamente informazioni che non interessano o che nascondono altre informazioni di nostro interesse) Esistono due grandi famiglie di FILTRI I FILTRI “FIR” (Finite impulse response) I FILTRI “IIR” (Infinite impulse response) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 27 FILTRI FIR I FILTRI FIR sono costituiti da una serie di coefficienti ad esempio C1, C2, C3, … CN dove N è detto “ordine” del filtro Dato il segnale originale X1,X2,…. Il segnale “filtrato” Y1,Y2,… si calcola, punto per punto, moltiplicando e sommando i valori del segnale originale corrispettivo e i coefficienti del filtro Ad esempio per un filtro di ordine 3 (c1,c2,c3) il segnale filtrato al punto 25 sarà uguale a Y25 = X25*C3 + X24*C2 + X23*C1, al successivo Y26 = X26*C3 + X25*C2 + X24*C1, al successivo Y27 = X27*C3 + X26*C2 + X25*C1 e così via AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 28 FILTRI IIR I FILTRI IIR hanno una struttura più complessa, infatti il valore Y del segnale filtrato è calcolato sulla base dei coefficienti del filtro, dei valori del segnale (come nel caso dei filtri FIR) e dei valori precedenti del segnale filtrato Y Per tale motivi i filtri IIR vengono detti filtri con “memoria” Questa caratteristica però complica notevolmente la matematica associata e in alcuni casi i filtri IIR possono assumere valori molto grandi (infinito); ne risulta che questi devono essere usati con cautela e solo da operatori con una buona esperienza nella elaborazione numerica dei segnali AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 29 Lanciare il programma CoolEdit e da menù scegliere nella sezione tutorial AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 30 Produzione del segnale vocale e corrispondenza con il modello elettronico DEL MESSAGGIO GENERAZIONE MOVIMENTO CONTROLLO ARTICOLATORIO NEURO-MUSCOLARE CAVITA' NASALE VELO PALATALE PALATO DURO DENTILABBRA EPIGLOTTIDE FLUSSO D'ARIA sorgente sonora LINGUA CORDE VOCALI TRACHEA AI POLMONI RUMORE FILTRO AMPLIFICATORE PITCH AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 31 Modello semplificato del tratto vocale SONORO CONDOTTO VOCALE NON SONORO AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 32 Modello fisico del condotto vocale p p-1 ... n fp fn bp bn n-1 ... fn-1 bn-1 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 1 f0 b0 33 Modello analogico del tratto vocale Sv (velo palatale) Fn Vp • Vm • Fp1 Ug Fp2 • Zm Fm2 Fm1 Zm • faringe bocca AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 34 Spettrografo AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 35 Descrittori del segnale di parola Parametri: operatori spettrali ottenuti con: Trasformata di Fourier (FFT) Banca di filtri inviluppo spettrale coefficienti mel-cepstrum Bark Descrittori: un numero ridotto di parametri opportuni parametri ottenuti dalla quantizzazione vettoriale coefficienti di modelli modello cocleare predizione lineare filtro di Kalman AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 36 Sistema di comunicazione Messaggio sorgente dell’informazione Segnale trasmesso Segnale ricevuto Messaggio ricevuto ricevitore trasmettitore destinazione sorgente di disturbi AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 37 Quantità di informazione La quantità di informazione (per simboli indipendenti) è misurata dal logaritmo del numero delle scelte possibili: n H = K pi log pi i=1 (pi = probabilità del simbolo i) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 38 Entropia del linguaggio articolato Se un simbolo “s” appartiene a un alfabeto xi e ha probabilità di occorrenza P(xi ) l’informazione da lui convogliata sarà: I = log2 P(xi ) bits 39 Informazione media Nel caso dell’ italiano, con 30 fonemi, considerandoli equiprobabili, avremo: H= S 1/30 lg2 30 H = -4.9 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 40 Informazione trasmessa Se il parlato produce mediamente 10 fonemi al secondo avremo che l’informazione trasmessa sarà: H = 4,9 x 10 = 49 bit/s AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 41 Processo ergotico Un processo è ergotico quando ogni suo campione sufficientemente ampio è rappresentativo dell’intera sequenza. AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 42 Entropia relativa Il rapporto tra l’entropia effettiva e l’entropia massima di una sorgente è l’entropia relativa. AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 43 Ridondanza E’ il completamento ad 1 dell’entropia relativa. La ridondanza della lingua italiana è circa 0,5. AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 44 Capacità di canale digitale Se i simboli hanno la stessa durata e ogni simbolo porta s bit di informazione e il canale trasmette n bit al secondo: C = sn è la capacità del canale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 45 Codifica Il trasmettitore “codifica” il messaggio e lo trasforma in segnale. AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 46 Teorema fondamentale della codifica La velocità di trasmissione non può superare: C/H AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 47 Capacità di canale analogico La capacità di un canale analogico è pari a: C = BW log2 ( 1 + (S/N)) bit/s AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 48 RAPPRESENTAZIONE IN FREQUENZA Abbiamo già detto che un segnale (una serie finita di punti) può essere “scomposto” in una serie finita di sinusoidi Ordinando in frequenza (velocità) dette sinusoidi (dalla più bassa alla più alta) e misurando l’ampiezza delle singole sinusoidi si ottiene lo SPETTRO IN FREQUENZA del segnale nel tempo AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 49 BANCO DI FILTRI Ricordando quanto detto sulla frequenza di campionamento FC, consideriamo ora un intervallo di frequenza (Fb-D; Fb+D) Ovviamente è necessario porre attenzione affinché Fb-D non sia minore di zero e Fb+D non sia maggiore di FC Considerando TUTTE le singole sinusoidi che appartengono a questo intervallo, e sommando le loro ampiezze otteniamo la componente spettrale della frequenza Fb, con larghezza di banda 2D Possiamo definire queste bande a nostro piacimento, anche con sovrapposizione, con forme diverse (media pesata), ecc. AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 50 TRASFORMATA DI FOURIER Dato una segnale limitato nel tempo (sequenza finita di punti, e a questo segnale si applica un “banco di filtri” dove: tutti i filtri sono adiacenti l’un l’altro; hanno la stessa larghezza di banda e nel loro insieme coprono l’intervallo da zero sino a FC/2 (la massima frequenza per il teorema di Nyquist) Si dice che si è eseguita la TRASFORMATA DI FOURIER del segnale del tempo, si ottiene così la sua RAPPRESENTAZIONE IN FREQUENZA (o rappresentazione spettrale) AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 51 TRASFORMATA VELOCE DI FOURIER FFT Se la il numero di punti della sequenza che rappresenta il nostro segnale nel tempo è una potenza di 2 ecc) e se siamo disposti ad avere un banco di filtri equispaziati uguale alla metà del numero di punti 256 filtri) (2,4,8,16,32,64,128,256,512,1024,2048, (ad esempio se il numero di punti è 512 si avranno allora: si può eseguire una particolare trasformazione detta TRASFORMATA DI FOURIER VELOCE (Fast Fourier Transform) la cui realizzazione su personal computer risulta molto più semplice e veloce rispetto alla normale trasformata di Fourier AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 52 SEGNALE “INFINITO” (NEL TEMPO) Sino ad ora abbiamo assunto che il segnale sia costituito da un numero finito di elementi La stessa condizione viene anche espressa richiedendo che il “segnale sia periodico” ovvero si ripeta uguale a se stesso nel tempo (ad infinito!) Solo se un segnale è costituito da un numero finito di elementi possiamo pensare di ripetere la sua forma una, due… un numero infinito di volte CHE COSA POSSIAMO/DOBBIAMO FARE SE QUESTE CONDIZIONI NON SONO RISPETTATE ? AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 53 ANALISI A BREVE TERMINE Se il segnale (cioè il fenomeno in osservazione) non rispetta le condizioni per operare una analisi in frequenza DOBBIAMO ALTERARE il segnale affinché queste condizioni siano rispettate Identificata la sequenza di punti una FFT) (ad esempio di 256 punti per poter eseguire di nostro interesse: Si azzerano tutti i punti al fuori di quelli di nostro interesse Si moltiplicano i rimanenti (ad esempio 256) per dei coefficienti in modo tale che quelli laterali si “avvicinino a zero” e rispettino determinate caratteristiche Si opera cioè una FINESTRATURA del segnale nel tempo AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 54 FINESTRATURA SEGNALE ORIGINALE 1,0 0,5 (non è “corretto” applicare la FFT) 0,0 -0,5 1 -1,0 -1,5 1,0 0,8 FINESTRA 0,6 0,4 0,2 0,0 1 1,0 0,5 RISULTATO 0,0 (è “corretto” applicare la FFT) -0,5 1 -1,0 -1,5 AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 55 LARGHEZZA DI BANDA Abbiamo detto che: La FFT è applicabile su sequenze di punti pari a potenze di 2 (ad esempio S=512 punti) La trasformata opera filtri con banda uguale a FC/2=Fmax diviso la metà del numero di punti nel tempo (ad esempio S=512) da 1) ciascuna banda “B” ha una larghezza pari a FC/2 diviso S/2 ovvero Fmax diviso S/2 2) i filtri si trovano posizionati in modo equispaziato tra zero e FC/2 (o Fmax) Alcuni esempi: Se FC=44.100 allora Fmax=22.050, se scegliamo sequenze di S=1.024 punti -> larghezza di banda = 22.050/512 = S= 256 punti -> larghezza di banda = 22.050/128 = 43 Hz 172 Hz Se FC=16.000 allora Fmax=8.000, se scegliamo sequenze di S=1.024 punti -> larghezza di banda = 8.000/512 = S= 256 punti -> larghezza di banda = 8.000/128 = 15 Hz 62 Hz con FC fissata, più grande è la sequenza maggiore è la “risoluzione” con S fissato, più grande è la FC minore è la “risoluzione” AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 56 BANDA STRETTA Una analisi nel dominio della frequenza si dice a “banda stretta” quando si vuole studiare un fenomeno con una alta risoluzione in frequenza (ad esempio identificare la posizione di una frequenza con una precisione molto accurata) (A parità di FC) Per avere una banda stretta è necessario analizzare una sequenza grande di punti ovvero considerare un “tempo sufficientemente lungo di osservazione” Se un fenomeno è molto breve nel tempo, non si analizza correttamente con una analisi a banda stretta (che come detto richiede una osservazione lunga nel tempo), in conclusione per la banda stretta abbiamo: 1. Finestre temporali grandi (numero di punti elevato), ovvero 2. Necessità di osservare il segnale per tempi lunghi 3. Possibilità di distinguere con precisione la frequenza di un segnale 4. Difficoltà di osservare fenomeni di breve durata temporale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 57 BANDA LARGA Una analisi nel dominio della frequenza si dice a “banda larga” quando si vuole studiare un fenomeno con una scarsa risoluzione in frequenza (ma che al contrario contiene fenomeni di breve durata, ad esempio impulsi, burst, ecc) (A parità di FC) Per avere una banda larga è necessario analizzare una sequenza piccola di punti ovvero considerare un “tempo sufficientemente breve di osservazione” (dell’ordine della brevità del fenomeno di interesse) Se un fenomeno è molto grande nel tempo, si analizza correttamente con una analisi a banda larga ma la misura in frequenza che si ottiene non è risoluta, in conclusione per la banda stretta abbiamo: 1. Finestre temporali piccole (numero di punti piccolo), ovvero 2. Necessità di osservare il segnale per tempi brevi 3. Possibilità di distinguere con precisione nel tempo fenomeni di breve durata 4. Difficoltà di osservare con precisione fenomeni di lunga durata temporale AISV - La voce in ambito forense Soriano nel Cimino 17 settembre 2008 58