Jornal Estado de Minas

Pesquisa da Unicamp cria sistema que transforma textos em sons digitalizados

Diferentemente de métodos já existentes, a nova tecnologia reproduz a entonação de diferentes estados de humor e dispensa o uso de gravações

Estado de Minas

- Foto: Até pouco tempo atrás, a ideia pareceria ter saído de um roteiro de filme de ficção científica: um sistema de conversão de textos para fala que, sem utilizar gravações, consegue reproduzir emoções humanas. Contudo, expressões de raiva, tristeza, alegria e outros estados de humor podem ser simulados por uma voz artificial, mostra um estudo da Universidade Estadual de Campinas (Unicamp), que aprimorou o modo como se obtém fala a partir de textos com base em modelos estatísticos e aproximou, um pouco mais, a realidade da ficção.

De acordo com a pesquisadora Sarah Negreiros de Carvalho, autora do projeto, a ideia de aprimorar o modo como textos são convertidos em falas digitais surgiu da percepção de que essa área de pesquisa é muito promissora. “Existem várias técnicas para a síntese de voz, transformando textos em fala ou mesmo realizando o processo contrário. Utilizamos as técnicas mais recentes que permitem novas possibilidades, como inserir emoções no discurso lido pelo sistema, alterar características da voz, apenas trabalhando com modelos matemáticos”, explica.

O sistema é baseado em uma técnica denominada HMM, sigla em língua inglesa para hidden Markov model, ou, em português, modelo oculto de Markov. A técnica é um modelo estatístico em que se trabalha com parâmetros desconhecidos. A ideia é conseguir obter esses parâmetros ocultos por meio da análise dos que são observáveis. Depois, é possível utilizá-los no reconhecimento de padrões que podem ser usados para construir um mecanismo baseado no inicial. É o que ocorre no estudo da Unicamp. “O nosso sistema é baseado na produção vocal humana. Nós observamos os parâmetros matemáticos do processo de fala do ser humano e os reproduzimos”, conta Carvalho.

Parâmetros
Quando uma pessoa fala, acontecem dois processos. Primeiro, gera-se um sinal de excitação. Depois, esse sinal é amplificado e modulado por uma espécie de filtro. Na etapa inicial, os sinais de fala passam pelas cordas vocais. A natureza deles podem causar ou não vibração das cordas. Assim, existem dois tipos de sinais: os sonoros (vogais, como a e i), em que as cordas vocais vibram para produzi-los, e os não sonoros (s e z, por exemplo), que não precisam de vibração, apenas que as cordas estejam abertas.

O trato vocal é responsável pelo segundo processo. Ele funciona como uma espécie de filtro que amplifica e modula os sinais de fala gerados pelas cordas vocais. É nele que a fala ganha as características que conhecemos. O trato determina o timbre, a forma que a voz terá. Antes de passarem por ele, os sinais de fala se assemelham a um ruído.

Utilizando a técnica de HMM, Carvalho e colaboradores descobriram os parâmetros matemáticos desses processos da produção vocal. “Nós interpretamos os padrões estatísticos e, baseados neles, desenvolvemos o sistema. Descobrimos as características do sinal de excitação e como obtê-lo, e fizemos o mesmo com o trato vocal, usando um filtro”, explica a pesquisadora.


Por se basear apenas em modelos matemáticos, esse sistema de conversão de textos não precisa do uso de gravações, o que faz com que ocupe menos memória e possa sofrer alterações posteriores de forma mais simples. Essa é a principal diferença para a nova técnica e a mais usada atualmente, chamada síntese concatenativa, que utiliza bancos de fala pré-gravados.

Para inserir emoções, o estudo usou conhecimentos de outras áreas da ciência, como linguística e fonoaudiologia. “Essas áreas identificam as características da fala em determinadas situações e nós as reproduzimos em modelos matemáticos. Uma pessoa com raiva, por exemplo, costuma falar em uma frequência mais alta e num ritmo mais rápido do que o habitual”, explica a pesquisadora.

Acessibilidade

Pronta para uso na versão de língua inglesa e em desenvolvimento para o português, a tecnologia poderá ser aplicada para acessibilidade, robótica e sistemas de call center. “Em geral, tudo que precise de uma voz artificial capaz de exprimir emoções poderá usá-lo. Um exemplo é a leitura de livros para cegos.”

Pesquisadora e professora da Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), Marcia de Borba Campos é especialista em acessibilidade digital e acredita que o fato de ser possível inserir emoções na conversão do texto pode ampliar o interesse de pessoas com deficiência visual pela leitura. “Tornar a fala emitida pelo computador mais próxima da voz humana pode significar melhor acesso a informações. Quem é usuário de softwares que utilizam sistemas de conversão texto-fala integrados sabe quão desagradável e cansativa pode se tornar a leitura de um texto, de um site, a partir da fala do computador.”

Para Marcia, a acessibilidade permite remover barreiras que impedem o aproveitamento da educação e da cultura, entre outros aspectos. “Sistemas que se prestam a essa finalidade podem trazer subsídios à inclusão social e digital de pessoas que tenham alguma deficiência”, afirma.