Publicidade
Publicidade
Audiolivros e tecnologia TTS: Entendendo os desafios e as oportunidades
PublishNews, Fernando Tavares*, 16/10/2023
Fernando Tavares explica como funciona a tecnologia e o que deve ser analisado para considerar sua adaptação ao contexto brasileiro

© Freepik / atlascompany
© Freepik / atlascompany
Com a chegada da Audible no Brasil, a popularidade dos audiolivros no mercado editorial aumentou. Muitas editoras estão correndo para produzir seus livros neste formato, que tem ganhado a atenção do público. Em um mundo cada vez mais agitado, a conveniência de consumir conteúdo auditivo enquanto se está em trânsito ou executando outras tarefas é atraente.

O áudio apresenta vantagens expressivas, especialmente em um país com índices de alfabetização desafiadores. Embora não vise substituir a leitura tradicional, amplia o acesso a conteúdos educacionais, sendo, além de tudo, um recurso valioso para a inclusão de pessoas com deficiência visual.

Diante da ampla gama de conteúdos disponíveis, vislumbrar a transformação de todos em audiolivros já se apresenta como uma tarefa quase impossível. Uma seleção criteriosa de títulos é necessária como corte inicial que priorize a parcela do catálogo com maior possibilidade de oferecer retorno e programas como o "WAY (We Audiobook You)", da Bookwire, com certeza ajuda muito nessa criação de catálogo inicial.

Mas, e quanto aos conteúdos menos populares mas igualmente valiosos? É aqui que o audiolivro autonarrado por IA, através da tecnologia Text-To-Speech (TTS), se torna relevante.

Panorama histórico do TTS

No século XVIII, o cientista húngaro Wolfgang von Kempelen construiu uma máquina falante usando diversos mecanismos para produzir palavras simples e frases curtas. O desejo de fazer as máquinas falarem não é de hoje! Quem for curioso tem um vídeo no YouTube que demonstra o funcionamento desta máquina rudimentar.

Mas é a partir da chegada dos computadores que este processo ganhou realmente importância. Sem entrar muito em meandros técnicos, é interessante entender que existem várias formas de criar vozes sintéticas por computador.

Um dos primeiros modos de criar voz com o computador é a síntese vocal articulatória, ou seja, a tentativa de imitar o comportamento dos articuladores de som humanos, como lábios, língua, glote e trato vocal móvel. Em teoria deveria ser o modo mais eficaz, mas na realidade não conseguimos coletar os dados para criar estas simulações o que deixa o resultado muito aquém do esperado.

Depois temos a síntese vocal formante que é um método que usa um conjunto de regras pré-definidas. Essas regras são feitas por linguistas para imitar as características naturais da fala humana. O processo utiliza um modelo simplificado que ajusta certos parâmetros, como a frequência e o nível de ruído, para gerar som. Uma vantagem desse método é que ele pode produzir fala clara sem necessitar de muitos recursos computacionais ou de um grande banco de dados de gravações de voz humana, tornando-o adequado para sistemas com recursos limitados. No entanto, a fala gerada pode soar menos natural e pode ser difícil definir as regras para fazer a síntese, especialmente para diferentes sons ou idiomas.

Temos ainda a síntese vocal concatenativa. Imagine que temos várias gravações de alguém falando. Agora, queremos fazer o computador dizer algo novo. O que fazemos é pegar pedaços dessas gravações que já temos e juntá-los para formar as novas palavras e frases que queremos que o computador diga. Existem dois modos principais de fazer isso. Um deles pega pedaços bem pequenos das gravações, como o som de duas letras juntas. O outro pode pegar pedaços maiores, até mesmo frases inteiras, e tem muitos exemplos diferentes de cada pedaço no banco de dados para escolher.

Esse método pode fazer o computador soar bastante claro e parecido com a pessoa que foi gravada originalmente. Mas tem algumas desvantagens. Precisa de um monte de gravações para começar, e mesmo assim, o som gerado pode não ser muito natural ou expressar emoções muito bem, pois juntar os pedaços pode deixar a fala um pouco desajeitada. Quem já não ouviu um TTS assim? A voz não soa natural e nem sempre a pronúncia é correta, sobretudo nas palavras homófonas.

Vozes cada vez mais naturais

Com a chegada da Síntese vocal paramétrica estatística as coisas se tornam mais complexas, inclusive de explicar. Por enquanto basta saber que, ao invés de criar ondas sonoras diretamente juntando pedaços de áudio, é necessário primeiro gerar os parâmetros acústicos necessários para produzir a fala, e depois recuperar essa fala usando alguns algoritmos. Com o avanço rápido da capacidade computacional e a chegada das chamadas redes neurais esta tecnologia avançou rapidamente, tendo inúmeras variações até chegarmos ao que chamamos hoje de Neural TTS.

Com o Neural TTS, os computadores podem aprender a falar de maneira mais natural, usando redes neurais, que são como um modelo do cérebro humano, para entender e copiar a maneira como falamos. Alguns dos primeiros modelos, como o WaveNet, conseguem criar sons de fala diretamente a partir do texto, tornando tudo mais simples e direto.

Ao longo do tempo, diversos modelos emergiram, aprimorando-se continuamente na conversão de texto em fala de maneira natural e clara, com mínima intervenção humana para ajustes ou correções. Desde 2017, o progresso nesse campo foi notável, refletido pelo volume expressivo de pesquisas publicadas. O termo "Vozes Neurais", indo além de seu viés mercadológico, refere-se a uma série de tecnologias em evolução contínua que visam replicar a fluidez da leitura humana.

A Microsoft tem liderado o campo, especialmente em pesquisa e desenvolvimento, seguida por outras gigantes tecnológicas. No Brasil, a escassez de investimento em pesquisa tem retardado avanços independentes, tornando a criação de uma voz com tecnologia nacional um desafio.

Implementação Prática

Na prática temos várias iniciativas de criar sistemas de vozes que leiam bem e respeitem os dois critérios usados para avaliar uma voz neural: inteligibilidade e naturalidade. (Intelligibility and naturalness).

Em geral quando pensamos em vozes neurais nos vem em mente o sistema de clonagem de voz e todas as questões éticas e morais envolvidas com isso. Mas TTS não é isso. Aliás, eu diria que este recurso não funciona tão bem na nossa língua portuguesa, sobretudo em textos longos como um audiolivro, por exemplo.

Tomadas todas as precauções jurídicas, éticas e morais, o TTS é uma ótima solução quando você tem alguma destas situações (ou todas):

  • Textos de não ficção que não precisam de variações de emoção na leitura
  • Orçamento ou tempo restritivos para produções longas
  • Foco em oferecer um conteúdo acessível barato e rápido
  • Desejo de personalizar a leitura com vozes únicas e irrepetíveis
  • Vontade de experimentar um modo diferente de distribuir seu conteúdo

Boa parte do catálogo de livros que temos no Brasil pode tirar vantagem das vozes artificiais neurais, sem que isso impacte o mercado da locução profissional, mas pelo contrário, fomentando ainda mais o mercado de áudio.

Mas… não basta apertar o botãozinho!

Para criar uma narração com voz neural não é suficiente apertar um botão. Assim como para a narração profissional com voz humana é necessário um roteiro, uma adaptação e uma preparação do texto para que o sistema possa ler da melhor forma possível.

Este ano, além de me dedicar aos livros digitais, mergulhei na jornada do audiolivro autonarrado junto à Volyo Audiobooks. Descobrimos que a preparação do texto é uma etapa crucial do processo. Ademais, nem todas as vozes se harmonizam bem com todos os tipos de texto. É necessário realizar testes e seleções criteriosas, pois mesmo sendo vozes artificiais, parece que cada uma tem sua própria “personalidade” que se encaixa melhor com determinados textos.

Existe o trabalho de "roteirização" a ser realizado, definindo os pontos em que a voz irá expressar uma reação ou emoção específica. Em alguns sistemas, isso é alcançado através de uma linguagem de marcação de texto chamada Linguagem de Marcação para Síntese de Fala (SSML, na sigla em inglês). Porém, em outros modelos de vozes, é o próprio sistema (a IA) que interpreta o texto, o que pode tornar o controle da narração um desafio. É como ter um narrador talentoso, mas que insiste em improvisar ao invés de seguir o roteiro!

Além disso as vozes neurais mais sofisticadas, ou que parecem ter uma semelhança maior com a voz humana e até expressar emoções, possuem uma instabilidade muito grande na leitura de longos textos, trazendo resultados ruins no quesito naturalidade. Este é um grande desafio para as vozes neurais. Um estudo sobre este problema foi apresentado este ano por pesquisadores da Apple na tentativa de encontrar soluções.

Ajustes necessários para o mercado brasileiro

Apesar dos avanços notáveis do TTS (Tecnologia de Síntese de Fala), ainda temos um caminho considerável pela frente, especialmente ao considerar sua adaptação ao contexto brasileiro. O português falado no Brasil, com sua vasta gama de dialetos e sotaques, configura um desafio singular para a tecnologia de TTS.

A escassez de investimento em pesquisa, mencionada anteriormente, é um empecilho significativo, contudo, pode ser atenuada através de parcerias estratégicas com empresas internacionais e instituições acadêmicas. O desenvolvimento de uma voz tecnologicamente brasileira é uma questão de necessidade prática para assegurar que os audiolivros sejam acessíveis e atrativos para todos os brasileiros

Além disso, para que o TTS seja amplamente aceito e utilizado, é crucial conhecer mais sobre o assunto e saber administrar as expectativas que editoras, autores e o público em geral podem ter, entendendo melhor os benefícios e limitações do TTS. Essa tecnologia pode ampliar o alcance dos livros e torná-los mais acessíveis.

Concluindo

Um ponto já tocado mas que deve ser reiterado: TTS (Tecnologia de Síntese de Fala) não é sinônimo de clonagem de voz, e muito menos de clonagem de voz desrespeitando direitos autorais. Trata-se de uma ferramenta adicional que os editores têm à disposição para ampliar o alcance de seu conteúdo. Utilizar o TTS não significa eliminar o mercado de narradores humanos, há espaço para ambos.

O cenário para o TTS no Brasil é animador, com potencial para transformar e ampliar o acesso à literatura e à informação. Com investimentos robustos em pesquisa e desenvolvimento, somados a uma abordagem inclusiva e colaborativa, o Brasil tem tudo para se destacar no cenário de TTS e narração autônoma, inaugurando uma nova era de acessibilidade e difusão literária.

Um Exemplo de Narração em TTS

Aqui está um link para um exemplo interessante de autonarração que destaca bem as vantagens e limitações da Tecnologia de Síntese de Fala (TTS). Você vai perceber uma boa pronúncia, inteligibilidade e uma semelhança considerável com uma narração humana. No entanto, em textos de ficção, tende a ter um tom monocórdico. É a Missa do Galo, de Machado de Assis, autonarrado pela Volyo Audiobooks. Confira.


Referências

WAN-IFRA. (2023). The next chapter in publishing: Embracing text-to-speech and AI voice cloning.

OpenReview. (n.d.). Audiobook synthesis with long-form neural text-to-speech.

Microsoft Research. (n.d.). Text to Speech.

ArXiv. (2021). A Survey on Neural Speech Synthesis.


*José Fernando Tavares é especialista em Publicações Digitais e produtos digitais com mais de 14 anos de experiência no mercado editorial, especializado em tecnologia para negócios e Inteligência Artificial para produtividade. Em 2014, fundou a Booknando, empresa especializada em publicações digitais e livros acessíveis. No ano passado, criou a Volyo Audiobooks, focada na produção de audiolivros com uso de Inteligência Artificial. Com formação humanística, busca utilizar a tecnologia para melhorar o mundo. Tem paixão por vinhos e pelo aprendizado diário.

* José Fernando Tavares é especialista em Publicações Digitais e produtos digitais com mais de 14 anos de experiência no mercado editorial, especializado em tecnologia para negócios e Inteligência Artificial para produtividade. Em 2014, fundou a Booknando, empresa especializada em publicações digitais e livros acessíveis. No ano passado, criou a Volyo Audiobooks, focada na produção de audiolivros com uso de Inteligência Artificial. Com formação humanística, busca utilizar a tecnologia para melhorar o mundo. Tem paixão por vinhos e pelo aprendizado diário.

**Os textos trazidos nessa coluna não refletem, necessariamente, a opinião do PublishNews.

Publicidade

A Alta Novel é um selo novo que transita entre vários segmentos e busca unir diferentes gêneros com publicações que inspirem leitores de diferentes idades, mostrando um compromisso com qualidade e diversidade. Conheça nossos livros clicando aqui!

Leia também
Em novo artigo, Fernando Tavares convida o leitor a se aprofundar no tema da inteligência artificial e explorar suas múltiplas funcionalidades
Em novo artigo, Fernando Tavares dá dicas práticas para as editoras que estão implementando/usando a IA ou que querem experimentar o uso dela nos mais variados serviços de produção editorial
Fernando Tavares discorre sobre a importância de incluir a IA nos processos editoriais e analisa as possibilidades teóricas e práticas do tema
Em novo artigo, Fernando Tavares fala sobre a evolução do digital e sobre como apostar na tecnologia é expandir as fronteiras da literatura
Em novo artigo, Fernando Tavares atualiza os leitores sobre as últimas notícias sobre a inteligência artificial e atenta para a importância de se entender o tema e transformar desafios em oportunidades
Publicidade

Mais de 13 mil pessoas recebem todos os dias a newsletter do PublishNews em suas caixas postais. Desta forma, elas estão sempre atualizadas com as últimas notícias do mercado editorial. Disparamos o informativo sempre antes do meio-dia e, graças ao nosso trabalho de edição e curadoria, você não precisa mais do que 10 minutos para ficar por dentro das novidades. E o melhor: É gratuito! Não perca tempo, clique aqui e assine agora mesmo a newsletter do PublishNews.

Outras colunas
Livro de Jandeilsom Galvão Bezerra se volta para quem deseja entender o caminho que dá origem às palavras poéticas e seu resultado
Espaço publieditorial do PublishNews apresenta nesta semana obras escritas por Lella Malta e Jandeilsom Galvão Bezerra
Novas edições da série romântica best-seller é para quem ama sentir tudo; evento de lançamento no dia 8/05 marca uma década de carreira da autora brasiliense e contará com sessão de autógrafos e jazz ao vivo
Podcast do PN conversou sobre o retorno do fenômeno dos livros de colorir – suas particularidades, importância e influência – com Daniela Kfuri (HarperCollins) e Nana Vaz de Castro (Sextante)
'Linha da vida: a costura de nós', romance de Monique de Magalhães costura destinos marcados por violências ancestrais com uma habilidade rara: a de revelar sem julgar, de mostrar o horror sem perder a beleza da linguagem
Gosto de comparar meu trabalho ao de uma arqueóloga.
Teresa Montero
Professora e biógrafa de Clarice Lispector

Você está buscando um emprego no mercado editorial? O PublishNews oferece um banco de vagas abertas em diversas empresas da cadeia do livro. E se você quiser anunciar uma vaga em sua empresa, entre em contato.

Procurar

Precisando de um capista, de um diagramador ou de uma gráfica? Ou de um conversor de e-books? Seja o que for, você poderá encontrar no nosso Guia de Fornecedores. E para anunciar sua empresa, entre em contato.

Procurar

O PublishNews nasceu como uma newsletter. E esta continua sendo nossa principal ferramenta de comunicação. Quer receber diariamente todas as notícias do mundo do livro resumidas em um parágrafo?

Assinar