NON CAPISCO… PUOI RIPETERE? COME RENDERE LA VOCE INTELLIGIBILE NELLA RIPRESA MICROFONICA

Che siano pronunciate o cantate, le parole dovrebbero essere sempre comprensibili. Sfortunatamente, però, dal punto di vista tecnico durante la registrazione o l’amplificazione della voce, può risultare difficile mantenere l’intelligibilità. In questo articolo trattiamo degli elementi che influiscono sull’intelligibilità della voce, dando qualche consiglio utile su come mantenerla durante una riproduzione vocale.

IN SINTESI

Il linguaggio viene espresso dalla parola parlata. Quindi quando effettuiamo una registrazione vocale dovremmo considerare sempre l’intelligibilità del parlato.
L’aria in arrivo dai polmoni passa tra le corde vocali e crea il suono. Le corde vocali controllano l’intensità e l’altezza del suono, mentre le cavità poste sopra le corde vocali (faringee, orali, nasali) si occupano del “filtraggio” dello spettro sonoro determinando il timbro della voce.
Aumentando o riducendo lo sforzo dell’emissione vocale cambiano sia l’intensità (volume) che lo spettro delle frequenze (timbro) del suono vocale, così come anche il tono (l’inflessione) della voce. Gridare è differente dal parlare con una voce normale.
Durante la registrazione, scoprirete che i picchi del segnale acustico sono molto più alti del livello RMS o medio. Assicuratevi che tutti i picchi vengano mantenuti lungo tutta la catena di registrazione.
Nei linguaggi non tonali (quelli come il nostro, in cui l’intonazione non cambia il significato delle parole) le consonanti sono importanti. Le consonanti (k, p, s, t, ecc.) si trovano prevalentemente nella gamma di frequenze superiori a 500 Hz e più precisamente nella gamma di frequenza 2 kHz-4 kHz.

Percepiamo il naturale suono della voce e la sua massima intelligibilità quando siamo a una distanza di circa un metro dalla persona che parla di fronte a noi. Posizionarsi di fianco o dietro rende la voce meno naturale e intelligibile.
In realtà, la voce può spaziare in quasi tutte le altre posizioni rispetto a quando ci avviciniamo alla persona che parla al nostro orecchio o con il microfono. Ma ogni posizione microfonica, sulla testa o sul petto ha il proprio colore del suono (o timbro). Per esempio, lo spettro del parlato registrato sul petto di una persona normalmente manca di frequenze proprio nell’intervallo importante tra 2 e 4 kHz. Ciò si traduce in una ridotta intelligibilità del parlato. Se il microfono non compensa questa carenza, sarà necessario apportare delle correzioni usando un equalizzatore. Quindi, quando si posiziona un microfono, bisogna prestare attenzione a questi aspetti. Preparatevi a scegliere il microfono idoneo per l’uso nella posizione in cui lo state mettendo. Altrimenti occorrerà compensare (equalizzare) per ottenere il suono corretto.


LA VOCE COME SORGENTE ACUSTICA

È importante comprendere la voce come sorgente sonora. Mentre il linguaggio può essere qualcosa che gruppi di persone hanno in comune, il suono e il carattere della voce sono invece unici da persona a persona. Allo stesso tempo, la parola, vista come segnale acustico, è il suono che ci è più familiare.
 
Livello sonoro
Lo sforzo vocale è variabile: da un sussurro a un forte urlo. È difficile assegnare un valore fisso al livello della voce, poiché questo è individuale e varia da persona a persona. I valori nella tabella seguente indicano il livello medio ponderato della voce di un adulto.
Come abbiamo già scritto, la capacità di comprendere il parlato è ottimale quando il livello corrisponde a quello di una voce normale a una distanza di 1 metro. In altre parole, un livello di pressione sonora di circa 55-65 dB re 20 μPa. (“re” significa “con riferimento a”; e il valore di riferimento 20 è il livello di pressione sonora minimo udibile).

Livello del parlato

Livello medio del parlato in funzione della distanza di ascolto/registrazione.
C’è una differenza di quasi 20 dB tra il parlare normalmente e l’urlare.

Fattore di cresta
Notate che ogni livello presentato nella tabella è un livello RMS medio e non un livello di picco. In genere, i picchi sono 20-23 dB al di sopra del livello RMS. Il rapporto tra il livello di picco e il livello RMS è chiamato fattore di cresta. Questo fattore è un parametro importante quando una voce deve essere registrata o riprodotta da un sistema di diffusione audio.
Notate anche che il canto ad alto volume, misurato sulle labbra, può raggiungere i 130 dB RMS con riferimento a 20 μPa e livelli di picco superiori a 150 dB con riferimento a 20 μPa.

Voce maschile, parlato normale (durata 18 secondi). Media RMS: -21.5 dBFS, Picco: -0.5 dBFS. Fattore di cresta 11 (21 dB).
La linea rossa puntata indica il livello RMS.

Lo spettro del parlato
Lo spettro del parlato copre una porzione abbastanza ampia dello spettro completo delle frequenze udibili. Nei linguaggi non tonali, si può dire che il discorso è composto da suoni vocalici e consonanti. I suoni vocalici sono generati dalle corde vocali e filtrati dalle cavità vocali. Un sussurro è senza suoni vocalizzati.
Tuttavia, le cavità che contribuiscono alla conformazione delle diverse corde vocali influenzano il flusso d’aria che passa. Questo è il motivo per cui le caratteristiche dei suoni vocalici si identificano anche in un sussurro. In generale, la frequenza fondamentale del tono del parlato complesso, noto anche come altezza o f0, si trova nell’intervallo di 100-120 Hz per gli uomini, ma possono verificarsi variazioni al di fuori di questo intervallo. L’f0 per le donne si trova circa un’ottava più alta. Per i bambini, f0 è a circa 300 Hz.
Le consonanti sono create da blocchi d’aria e suoni formati dal passaggio dell’aria attraverso la gola e la bocca, in particolare la lingua e le labbra. In termini di frequenza, le consonanti si trovano sempre sopra i 500 Hz.
A un’intensità vocale normale, l’energia delle vocali di solito diminuisce rapidamente al di sopra di circa 1 kHz. Tuttavia l’enfasi sullo spettro del parlato si sposta di una o due ottave verso le frequenze più alte quando il tono della voce si alza. Inoltre, si noti che non è possibile aumentare il livello sonoro delle consonanti nella stessa misura delle vocali. In pratica, ciò significa che l’intelligibilità del parlato non aumenta gridando, rispetto al normale sforzo vocale in situazioni in cui il rumore di fondo non è significativo.

Spettri vocali (1/3 di ottava) in base allo sforzo.

Le Formanti
Se sentite due persone pronunciare la stessa vocale alla stessa altezza (f0), le vocali sono presumibilmente riconoscibili come identiche. Tuttavia, due voci qualsiasi non necessariamente riproducono esattamente lo stesso spettro. Le formanti forniscono i suoni vocalici percepiti. Inoltre, le formanti forniscono informazioni differenti da una persona all’altra. Le formanti sono create dal filtraggio acustico dello spettro generato dalle corde vocali. Le vocali sono create dall'”accordarsi” delle risonanze delle cavità del tratto vocale.

COSA INFLUENZA L’INTELLIGIBILITÀ?

Nelle lingue tonali come il cinese e il thailandese è usato il tono lessicale o la frequenza fondamentale per identificare il significato. Nelle lingue non tonali come l’italiano, l’inglese, lo spagnolo, ecc., le parole si distinguono cambiando una vocale, una consonante o entrambe. Tuttavia, fra queste, le consonanti sono le più importanti.
Frequenze fondamentali
Le frequenze fondamentali nelle lingue non tonali (occidentali) sono illustrate dal diagramma seguente. Qui, la banda di frequenza intorno a 2 kHz è la gamma di frequenza più importante per quanto riguarda l’intelligibilità percepita. La maggior parte delle consonanti si trova in questa banda di frequenza.

Uno spettro vocale è filtrato passa-alto o passa-basso. L’uso di un filtro passa-alto a 20 Hz (in alto a sinistra) rende il discorso comprensibile al 100% (questo perché lo spettro completo del discorso è mantenuto). Un filtro passa-alto che taglia tutto sotto i 500 Hz lascia ancora il segnale vocale comprensibile. Anche se la maggior parte dell’energia vocale viene attenuata, l’intelligibilità viene ridotta solo del 5%. Tuttavia, l’applicazione di un punto di taglio (cut-off) più alto riduce l’intelligibilità.
Al contrario, l’applicazione di un filtro passa-basso fa diminuire molto rapidamente l’intelligibilità. Quando si taglia a 1 kHz, l’intelligibilità è già inferiore del 40%.
Questo dimostra che la gamma di frequenze tra 1 kHz e 4 kHz è di grande importanza per l’intelligibilità.

Rumore di fondo
Il rumore di fondo ha un’influenza percepibile sull’intelligibilità del parlato. In questi casi, tutti gli altri segnali diversi dalle parole possono essere considerati come rumori di fondo. Quindi in un auditorium o in un’aula, il rumore dell’aria condizionata e altre eventuali interferenze possono rendere il parlato meno comprensibile. Inoltre, anche la presenza di altre persone genera rumore. Nel suono della tv o di un film, molto spesso è una questione di rapporto tra il livello del dialogo e il livello della musica di sottofondo o dei suoni ambientali.

In questo diagramma l’intelligibilità del parlato viene tracciata rispetto al rapporto segnale/rumore (S/N – Signal/Noise). La curva inferiore mostra che il parlato può ancora essere in una certa misura intelligibile anche se il rapporto S/N è negativo, il che significa che il rumore è 10 dB più alto del livello del parlato. Ma in ogni caso l’ideale è un livello di parlato percepito intorno a 60 dB re 20 μPa.

Molte ricerche sono state condotte in questo campo. In generale, i risultati hanno dimostrato che:
1) Il livello ottimale del parlato è costante quando il livello del rumore di fondo è inferiore a 40 dB (A)
2) Il livello ottimale del parlato sembra essere quello che mantiene circa 15 dB(A) di rapporto S/N quando il livello del rumore di fondo è superiore a 40 dB (A)
3) La difficoltà di ascolto aumenta all’aumentare del livello del parlato nella condizione in cui il rapporto S/N è già buono abbastanza da mantenere l’intelligibilità quasi perfetta.
Inoltre, la gamma di frequenza 1-4 kHz dovrebbe essere “mantenuta libera”. Quando, per esempio, si aggiunge musica come sottofondo per la narrazione, un equalizzatore parametrico che taglia la musica di 5-10 dB in questa gamma di frequenze migliorerà l’intelligibilità.

Riverbero
Il riverbero è considerato come rumore quando si parla di intelligibilità del parlato. Un riverbero ridotto potrebbe essere sopportabile nel dialogo, tuttavia non appena le consonanti sono sporcate, l’intelligibilità diminuisce.

IL CAMPO SONORO

Il campo sonore intorno alla persona che parla è influenzato non solo dalla fisiologia del tratto vocale ma anche dalla testa e dal corpo della persona.

Direttività
Di seguito sono riportati i diagrammi polari di oratori sui piani verticale e orizzontale.

Diagrammi polari di un oratore

Il livello tracciato è pesato A e in ciascun diagramma vengono tracciati sia maschi che femmine. Tutti gli oratori erano seduti. I livelli sono stati misurati a 1 metro. Si può vedere che la differenza tra fronte e retro è di circa 7 dB. Tuttavia, questo non fornisce alcuna informazione sulla frequenza: le alte frequenze si attenuano maggiormente sul retro rispetto alle frequenze più basse.
Si nota che sul piano verticale il livello è più alto nella direzione a 330° rispetto ad altre direzioni. Ciò è principalmente dovuto al fatto che il suono viene riflesso dal torace.

Questo diagramma mostra i grafici polari per frequenza da 160 Hz a 8 kHz. Si può vedere che la direttività aumenta da circa 1 kHz in su. Combinando questo fatto con l’importanza delle frequenze superiori a 1 kHz è ovvio che si ottiene una maggiore intelligibilità quando si registra davanti a una persona rispetto a quando la si riprende da dietro.

Distanza e Direzione
Poiché non tutti i microfoni sono posti a una distanza di un metro dall’oratore, è interessante conoscere cosa succede quando ci avviciniamo di più alla sorgente sonora.
I seguenti diagrammi mostrano la variazione dello spettro del parlato registrato a 1 metro nella direzione data. Gli angoli (+45 gradi, 0 gradi e -45 gradi) si trovano sul piano verticale. Questi risultati rappresentano una media di 10 oratori. Le linee in ciascuno dei tre diagrammi mostrano le variazioni rispettivamente a 80 cm, 40 cm, 20 cm e 10 cm. Se non ci fosse nessuna variazione nello spettro quando si cambia distanza e direzione, tutte le curve sarebbero linee rette, ma la variazione aumenterebbe man mano che ci avviciniamo all’oratore.
Il diagramma superiore mostra le posizioni di misurazione a 45° verso l’alto rispetto all’asse. La deviazione è minima, perché il livello fornisce uno spettro vocale stabile, indipendente dalla distanza.
Il diagramma inferiore mostra cosa succede quando riprendiamo la voce sotto il piano in asse. L’influenza del suono riflesso dal corpo è notevole.
Le deviazioni in asse sono comprese fra le precedenti due, ciò significa che lo spettro del parlato cambia con la distanza dal microfono.

Registrazione in campo ravvicinato di una voce umana: cambiamenti spettrali dovuti alle posizioni.

Testa e petto
Nel brodcast e in applicazioni live, i microfoni maggiormente utilizzati sono i lavalier o gli headset, che permettono all’utilizzatore grande libertà di movimento.
Bisogna però essere consapevoli del fatto che il posizionamento del microfono a una breve distanza dalla sorgente si traduce in uno spettro registrato differente da quello naturale percepibile a una normale distanza. Questa differenza è tutt’altro che trascurabile.
Di seguito sono riportati cinque grafici le cui curve mostrano cosa succede allo spettro del parlato quando il microfono viene posizionato sul corpo o sulla testa. Tutte le curve sono basate su misurazioni e sono riferite a una media di 10 persone.

La prima curva (microfono sul petto) quantifica il modo in cui lo spettro del parlato rilevato al petto differisce dallo spettro del parlato della stessa persona rilevato a 1 metro in asse.
Quando si posiziona un microfono sul petto, si verifica una sostanziale riduzione delle frequenze nella gamma critica 2-4 kHz.

La seconda curva (microfono sul collo) mostra la variazione che avviene se il microfono è ancora più vicino, appena sotto il mento.
Questa posizione si applica molto bel broadcast perché è l’unico modo pratico per posizionare un microfono lavalier se il giornalista o l’intervistato indossa una maglietta, una felpa o se indossa un cappotto.
Per l’uso all’aperto, il microfono può essere ricoperto di pelliccia o posizionato dietro una sciarpa. In tutte i casi c’è una massiccia riduzione delle frequenze consonantiche.

La curva relativa al microfono sulla fronte mostra che questa è la posizione meno ostruttiva per lo spettro. Questa posizione è perfetta per il palcoscenico e il cinema ma non per il broadcast.

La curva relativa al microfono posizionato sotto l’orecchio mostra un graduale roll-off (discesa) delle frequenze più alte. Può essere comodo posizionare il microfono sotto l’orecchio; tuttavia, necessita di una compensazione per mantenere l’intelligibilità del parlato.

Quando si posiziona il microfono sulla guancia (headset), la gamma 2-4 kHz è migliore rispetto alla maggior parte delle altre posizioni. Tuttavia, è ancora necessaria una compensazione delle frequenze più alte (gli headset DPA hanno questa compensazione integrata).

Va ricordato che il livello della voce “all’angolo del tuo sorriso”(sulla guancia) è di circa 10 dB più alto rispetto alla posizione sul petto.
In tutte le curve si nota che c’è una tendenza generale a incrementare le frequenze attorno agli 800 Hz, che può essere considerato utile. Tuttavia, la variazione più significativa è l’attenuazione sulle alte che causa una ridotta intelligibilità del parlato. Questo deve essere sempre gestito!

POSIZIONAMENTO DEL MICROFONO

A questo punto, possiamo definire una serie di regole per la scelta e il posizionamento del microfono quando l’intelligibilità del parlato è importante.

Microfoni a mano
• I microfoni mano devono essere tenuti di fronte alla bocca con un angolo di ±30°;
• Se si utilizza un microfono direzionale (cardiode, ipercardoide o shotgun) dovrebbe essere indirizzato in asse (e non come un cono gelato)
• Le protezioni antivento possono ridurre le frequenze più alte. Ricordatevi di compensarle.

Microfoni Lavalier/Microfoni posizionati sul petto
Lo spettro del parlato nella tipica posizione sul petto ha una carenza nella gamma essenziale dei 3-4 kHz. Se un microfono con una risposta in frequenza piatta è posizionato sul torace, la gamma di 3-4 kHz dovrebbe essere aumentata di circa 5-10 dB per compensarne la perdita.
• In pratica ci sono due soluzioni: utilizzare un microfono pre-equalizzato per compensare, o ricordarsi di effettuare la giusta equalizzazione. Nota bene che nessun mixer ENG (per le riprese televisive in esterni) o telecamera compensa automaticamente e spesso non ci sono controlli per farlo. In molti casi, questo non viene mai compensato. Quindi, l’intelligibilità è spesso bassa.

Microfoni Headset
• Il livello del microfono headset sulla guancia è più alto di circa 10 dB rispetto alla posizione sul petto
• Lo spettro è meno influenzato rispetto alla posizione del microfono sul petto. Tuttavia, in una certa misura, è necessario compensare un calo delle alte frequenze
• La posizione del microfono sulla fronte (vicino all’attaccatura dei capelli), che viene spesso utilizzata in film e spettacoli teatrali, è relativamente neutra per quanto riguarda l’intelligibilità del parlato.

Microfoni da Podio
• I microfoni da podio sono spesso utilizzati a diverse distanze. Quindi, il microfono dovrebbe essere direzionale, specialmente nella gamma di frequenze superiori a 1 kHz
• Il microfono deve puntare alla bocca dell’oratore
• I microfoni posizionati su podi non dovrebbero essere sensibili alle vibrazioni o a qualsiasi rumore meccanico.

Microfoni da tavolo (per più oratori)
• Posiziona ciascun microfono il più vicino possibile a ciascun oratore
• Scegli microfoni direzionali
• Quando c’è più di una persona a parlare nello stesso momento, il microfono di ogni oratore dovrebbe attenuare il suono proveniente dagli altri oratori di almeno 10 dB.

Microfoni Boom (su asta)
• Nella ripresa lo spettro più neutro si ottiene posiz • Se l’ambiente circostante lo permette, possono essere utilizzati altri tipo di microfoni oltre a quelli shot gun.

Ambienti rumorosi e riverberanti
• Posizionate il microfono vicino alla sorgente sonora primaria (vicino alla bocca dell’oratore)
• Usate un microfono con soppressione del rumore elevato, molto direzionale, come un modello cardiode/supercardioide

Info: DPA Microphones

IN COLLABORAZIONE CON

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *