Modelo fonte-filtro da voz

O modelo Fonte-Filtro da voz descreve a voz falada ou cantada como uma combinação de uma fonte de som, como as cordas vocais, e um filtro acústico linear, o trato vocal , que modifica o som gerado na fonte. Uma suposição importante que geralmente é feita no uso do modelo de filtro de origem é a independência da fonte e do filtro. Ou seja, em princípio, o indivíduo poderia controlar separadamente o funcionamento da laringe e o do trato vocal, e este não afetaria em nada o comportamento da fonte sonora. Nesses casos, o modelo deve ser referido com mais precisão como o "modelo independente de filtro de origem".

Embora seja uma simplificação ao que de fato ocorre, o modelo é amplamente usado em várias aplicações devido à sua relativa comodidade. Em graus variados, diferentes fonemas podem ser distinguidos por sua estrutura espectral. Os sons vocais (por exemplo, as vogais) têm uma fonte que se manifesta como uma onda glótica periódica, que pode ser aproximada por um trem de impulso no domínio do tempo e por harmônicos no domínio da frequência, sendo que esta onda glótica passa pelo trato vocal ( o filtro) que depende da posição da língua , da abertura da mandíbula, da altura da laringe e a protrusão labial, dentre outros fatores secundários. Por outro lado, os fonemas fricativos têm uma fonte que gera ruído turbulento produzido por uma constrição na cavidade oral (por exemplo, os sons representados ortograficamente por "s" e "f"). As chamadas fricativas sonoras (como "z" e "v") têm duas fontes combinadas - uma na glote e outra na constrição supra-glótica.

O modelo fonte-filtro é aplicável tanto na síntese quanto na análise de fala, e pode ser operacionalizado através de diferentes métodos, o mais conhecido sendo o LPC (codificação da predição linear). O desenvolvimento do modelo se deve, em grande parte, aos primeiros trabalhos dos cientistas suecos Gunnar Fant e Johan Liljencrantz, embora outros, como Ken Stevens, também tenham contribuído substancialmente para os modelos subjacentes à análise acústica da fala e síntese de fala.

Na implementação do modelo fonte-filtro na produção da fala, a fonte de som ou sinal de excitação são frequentemente modelados como um trem de impulso periódico, para voz sonora, ou com ruído branco para voz não sonora. O filtro do trato vocal é, no caso mais simples, aproximado por um filtro polivalente, em que os coeficientes são obtidos através da predição linear para minimizar o erro quadrático médio no sinal de fala a ser reproduzido. A convolução do sinal de excitação com a resposta do filtro produz o discurso sintetizado.

Bibliografia

  • Chiba, T.; Kajiyama, M. (1942). The Vowel: Its Nature and Structure. Tokyo: Tokyo-Kaiseikan Pub. Co., Ltd.   (there were reprinted edition in 1952, and Japanese translated edition in 2003 as ISBN 4-00-002107-9)
    • Stevens, K. N. (2001). «The Chiba and Kajiyama book as a precursor to the acoustic theory of speech production». Journal of Phonetic Society of Japan. 5 (2): 6–7 
    • Arai, Takayuki (2004). «History of Chiba and Kajiyama and their influence in modern speech science» (PDF). Proc. of From Sound to Sense: 50+ Years of Discoveries in Speech Communication: 115–120 
  • Fant, G. (1960). Acoustic Theory of Speech Production: With Calculations based on X-Ray Studies of Russian Articulations. Col: Volume 2 of Description and analysis of contemporary standard Russian. [S.l.]: Hague, The Netherlands: Mouton. pp. 15–90. ISSN 0070-3826 (1960)  / Walter de Gruyter. ISBN 978-3-11-087342-9 (1971)
  • Stevens, K. N. (1998). Acoustic Phonetics. Cambridge, MA: MIT Press. ISBN 978-0-262-19404-4 (hardcover in 1999) / ISBN 978-0-262-69250-2 (paperback in 2000)