1. Início
  2. API
  3. Como a API de Texto para Fala da Speechify Suporta SSML
Social Proof

Como a API de Texto para Fala da Speechify Suporta SSML

Estamos entusiasmados em anunciar o desenvolvimento de uma API de texto para fala que oferece as vozes de IA mais naturais e adoradas do Speechify diretamente para desenvolvedores em todo o mundo.

Procurando nosso Leitor de Texto para Fala?

Destaques em

forbes logocbs logotime magazine logonew york times logowall street logo
Ouça este artigo com o Speechify!
Speechify

Desbloqueie todo o potencial da API de Texto para Fala da Speechify com suporte a SSML.

Speechify Texto para Fala (TTS) API está na vanguarda da tecnologia de fala personalizável, oferecendo suporte robusto para Linguagem de Marcação de Síntese de Fala (SSML). Esta funcionalidade avançada permite que os desenvolvedores criem performances vocais ajustadas diretamente através do código, aprimorando a entrega de texto digital com entonação precisa, ritmo e profundidade emocional. Neste artigo, exploramos como a API de Texto para Fala da Speechify utiliza SSML para transformar texto simples em uma saída falada rica e expressiva, permitindo que aplicações em diversos setores ofereçam experiências de usuário mais naturais e envolventes.

Visão Geral da API de Texto para Fala da Speechify

API de Texto para Fala da Speechify é uma ferramenta robusta que transforma texto escrito em palavras faladas realistas. Utilizando redes neurais avançadas e técnicas de aprendizado de máquina, esta API pode gerar fala que soa natural e envolvente. Ela suporta uma ampla gama de idiomas e dialetos, oferecendo diversas opções de voz que variam de tons masculinos a femininos, garantindo um amplo apelo entre diferentes bases de usuários. Essa flexibilidade torna a API de Texto para Fala da Speechify uma excelente escolha para desenvolvedores que desejam integrar capacidades de texto para fala em aplicativos, sites ou qualquer serviço interativo, garantindo uma experiência de usuário inclusiva e fluida.

O que é SSML?

Linguagem de Marcação de Síntese de Fala (SSML) é uma linguagem de marcação baseada em XML essencial que os desenvolvedores usam para ditar como os sistemas de texto para fala convertem texto escrito em voz falada. SSML permite a especificação de vários aspectos da fala, como tom, velocidade, volume e pronúncia, possibilitando uma saída mais controlada e precisa que pode imitar a entonação e o ritmo humanos. Esta tecnologia é particularmente benéfica em cenários onde o tom e a nuance da fala são críticos para a eficácia da comunicação, como em conteúdo educacional, respostas interativas ou narração de histórias.

O Papel do SSML no Aprimoramento do Texto para Fala

A integração do SSML aprimora a tecnologia de texto para fala ao fornecer ferramentas para manipular a fala gerada de maneiras sutis que antes eram inatingíveis com sistemas básicos de texto para fala. Este aprimoramento suporta fluxos de diálogo mais naturais e pode adaptar a saída de fala para atender a requisitos específicos de contexto, como adicionar pausas para efeito dramático ou alterar a velocidade da fala para corresponder à velocidade de processamento do ouvinte. O papel do SSML na tecnologia de texto para fala marca um avanço significativo em direção a reduzir a distância entre a fala humana e a gerada por computador, tornando as interações digitais mais relacionáveis e fáceis de entender.

Como a Speechify Suporta SSML

API de Texto para Fala da Speechify está comprometida em oferecer uma experiência auditiva superior e suporta SSML para enriquecer o processo de conversão de texto para fala. Ao adotar SSML, a Speechify permite que os desenvolvedores ajustem a saída de áudio para melhor atender às necessidades específicas de diferentes projetos. Esse suporte inclui ajustar a dinâmica da fala, como entonação e ênfase, que são cruciais para transmitir mais emoção e intenção. As capacidades de API de Texto para Fala da Speechify em SSML garantem que os usuários finais recebam uma experiência auditiva refinada e orientada para o propósito, que pode melhorar significativamente a usabilidade e o prazer da aplicação.

Benefícios de Usar SSML na Speechify

Utilizar SSML com a API de Texto para Fala da Speechify oferece inúmeras vantagens, incluindo: 

  • Personalização: SSML adapta extensivamente as saídas de fala para se adequar ao contexto ou propósito da aplicação, proporcionando uma experiência de usuário mais personalizada.
  • Engajamento Aprimorado do Usuário: SSML envolve os usuários com interações de voz dinâmicas que são claras, compreensíveis e agradáveis de ouvir.
  • Melhorias em Acessibilidade: SSML com texto para fala torna a tecnologia mais acessível, melhorando a usabilidade geral para todos os usuários, especialmente aqueles com deficiências.
  • Maior Efetividade: SSML melhora a efetividade da comunicação em aplicações onde a qualidade e clareza da voz são cruciais.

Noções Básicas do SSML na API de Texto para Fala da Speechify 

API de Texto para Fala da Speechify incorpora a poderosa ferramenta de Linguagem de Marcação de Síntese de Fala para aprimorar e controlar a saída de fala, tornando as interações digitais mais realistas e envolventes. Ao dominar essas técnicas de SSML, você pode melhorar significativamente a expressividade e a eficácia de suas aplicações de texto para fala. Seja para acessibilidade, entretenimento ou educação, SSML fornece as ferramentas para tornar as interações digitais mais humanas e envolventes. Aqui estão os conceitos básicos:

Caracteres Escapados no SSML

Para garantir que o código SSML seja interpretado corretamente pelos analisadores, caracteres específicos dentro do texto devem ser escapados. Isso evita que sejam confundidos com a sintaxe de marcação. Abaixo estão os caracteres comuns e seus equivalentes escapados:

  • E comercial (&) torna-se &
  • Sinal de maior (>) torna-se >
  • Sinal de menor (<) torna-se &lt;
  • Aspas duplas (") tornam-se &quot;
  • Apóstrofo (') torna-se &apos;

Exemplo: Convertendo uma linha com caracteres especiais:

const escapeSSMLChars = (text: string) =>

  text

    .replaceAll('&', '&amp;')

    .replaceAll('<', '&lt;')

    .replaceAll('>', '&gt;')

    .replaceAll('"', '&quot;')

    .replaceAll('\'', '&apos;')

Por exemplo, transformar o texto: Algum "texto" com 5 < 6 & 4 > 8 resulta em: <speak>Algum &quot;texto&quot; com 5 &lt; 6 &amp; 4 &gt; 8</speak>

Expressividade na Fala

SSML permite manipular o tom, a velocidade e o volume da fala, proporcionando uma experiência auditiva rica:

  1. Tom: Ajuste o tom de extra baixo (x-low) a extra alto (x-high), ou defina porcentagens específicas para ajustar sutilmente o tom da voz.
  2. Velocidade: Controle a rapidez com que a fala é entregue, de extra lenta (x-slow) a extra rápida (x-fast), ou ajuste por porcentagens específicas para controle preciso da velocidade.
  3. Volume: Defina a intensidade de silencioso a extra alto (x-loud), ou ajuste por decibéis ou porcentagem para se adequar ao contexto da fala.

Exemplo:

<speak>

    Este é um padrão de fala normal.

    <prosody pitch="high" rate="fast" volume="+20%">

        Estou falando com um tom mais alto, mais rápido que o normal, e mais alto!

    </prosody>

    De volta ao padrão de fala normal.

</speak>

Pausas e Ênfase na Fala

SSML tags como <break> e <emphasis> são cruciais para tornar a fala mais natural e expressiva:

  • Pausa: Insira pausas de força ou duração especificadas para enfatizar pontos ou separar seções dentro da fala.
  • Ênfase: Aumente ou diminua a ênfase das palavras para transmitir emoção ou importância, aumentando o engajamento do ouvinte.

<speak>

    Às vezes, pode ser útil adicionar uma pausa mais longa no final da frase.

    <break strength="medium" />

    Ou <break time="100ms" /> às vezes no <break time="1s" /> meio.

</speak>

Controle Avançado de Fala

Speechify também possui uma tag proprietária chamada <speechify:style>, permitindo ajustar a emoção e a cadência da voz, tornando a fala mais envolvente e impactante.

Exemplo:

<speak>

    <speechify:style emotion="angry" cadence="fast">

        Quantas vezes você pode me perguntar isso?

    </speechify:style>

</speak>

Implementando SSML com Speechify

Desenvolvedores podem integrar SSML com a API do Speechify seguindo estas etapas:

  1. Configuração do Ambiente: Configure seu ambiente de desenvolvimento para suportar requisições HTTP.
  2. Autenticação da API: Obtenha uma chave de API da Speechify e inclua-a no cabeçalho da requisição.
  3. Crie Conteúdo SSML : Desenvolva seu script SSML para atender aos requisitos específicos de voz do seu aplicativo.
  4. Envie a Requisição da API: Incorpore o script SSML em uma requisição POST e envie para o endpoint da API Speechify.
  5. Processe a Resposta: Recupere e manipule o áudio gerado, garantindo que atenda aos padrões do seu aplicativo.

Casos de Uso para SSML da API de Texto para Fala da Speechify

API de Texto para Fala da Speechify’s capacidades do SSML são essenciais para adaptar a fala a necessidades e contextos específicos, transformando o cenário auditivo das comunicações digitais. Na verdade, é assim que a versatilidade do SSML na API da Speechify pode ser demonstrada em várias aplicações:

  1. Acessibilidade: SSML é vital para criar tecnologias acessíveis que auxiliam usuários com deficiências visuais ou dificuldades de leitura.
  2. Plataformas de E-learning: SSML melhora o conteúdo educacional usando tons variados e ênfases para manter o engajamento dos alunos.
  3. Assistentes Virtuais: SSML aproxima as interações virtuais de trocas mais humanas, melhorando a satisfação do usuário.
  4. Audiolivros: SSML utiliza diferentes vozes e tons emocionais para dar vida às histórias.
  5. Bots de Atendimento ao Cliente: SSML utiliza respostas personalizadas para proporcionar interações mais claras e agradáveis, reduzindo mal-entendidos e melhorando a qualidade do serviço.
  6. Ferramentas de Aprendizado de Idiomas: SSML auxilia na educação de idiomas destacando a pronúncia e ajudando na compreensão auditiva.
  7. Anúncios Públicos: SSML garante que a informação seja transmitida de forma clara e eficaz em ambientes barulhentos ou públicos.
  8. Video Games: SSML adiciona profundidade aos personagens através de diálogos dinâmicos.
  9. Produção de Podcasts: SSML facilita a criação de conteúdos de áudio variados e envolventes para os ouvintes.
  10. Comunicações na Saúde: SSML comunica-se com os pacientes usando tons calmos e tranquilizadores.
  11. Sistemas de Navegação: SSML melhora a clareza e a ênfase em direções críticas.
  12. Sistemas de Telefonia: SSML aprimora os sistemas de resposta de voz interativa (IVR) com opções de fala mais naturais.
  13. Apresentações Multimídia: SSML eleva a qualidade das apresentações com narrações de som profissional.
  14. Dispositivos de Casa Inteligente: SSML integra interações de voz mais responsivas e intuitivas.

Melhores Práticas de SSML para Desenvolvedores 

Seja criando respostas de voz interativas, audiolivros ou assistentes virtuais, entender como usar efetivamente o SSML pode elevar significativamente a qualidade e a eficácia dos seus projetos de síntese de fala. Aqui estão algumas das melhores práticas para desenvolvedores:

  • Experimente diferentes tags SSML para descobrir as configurações ideais para o seu caso de uso.
  • Atualize e refine regularmente os scripts SSML com base no feedback dos usuários para melhorar a qualidade e a eficácia da saída de voz.
  • Certifique-se de que as tags SSML estão corretamente aninhadas e seguem os padrões XML para evitar erros de processamento.

Conclusão

Ao apoiar as capacidades detalhadas do SSML, o Speechify permite que os desenvolvedores criem experiências de fala mais ricas e humanas em várias aplicações. Seja através do controle preciso de tom, velocidade e volume, ou implementando tags avançadas para ajustes emocionais e rítmicos, a API garante que cada palavra falada não seja apenas ouvida, mas também sentida. Esta integração do SSML com a robusta tecnologia TTS do Speechify não só amplia o escopo de aplicações habilitadas por voz, mas também aprofunda o engajamento e a acessibilidade do conteúdo digital, tornando-se uma ferramenta indispensável para desenvolvedores que buscam inovar no campo das interações digitais faladas.

FAQ

A API de Texto para Fala do Speechify suporta SSML?

Sim, a API de Texto para Fala do Speechify suporta totalmente a Linguagem de Marcação de Síntese de Fala (SSML) para melhorar a expressividade e personalização da saída de fala.

O que significa SSML? 

SSML significa Linguagem de Marcação de Síntese de Fala, uma linguagem de marcação padronizada que permite aos desenvolvedores controlar aspectos da fala sintética, como tom, velocidade e entonação.

Como o SSML beneficia o texto para fala? 

SSML beneficia o texto para fala ao permitir um controle preciso sobre a saída de fala, tornando-a mais natural e adaptada a contextos e necessidades específicas dos usuários.

Qual é a importância do SSML? 

A importância do SSML está na sua capacidade de fornecer controle detalhado sobre a fala sintética, melhorando a clareza e o envolvimento do texto falado em diversas aplicações.

Onde posso aprender mais sobre o SSML da API de Texto para Fala do Speechify?

Você pode aprender mais sobre as capacidades de SSML da API de Texto para Fala do Speechify e como implementá-las visitando a documentação oficial da API do Speechify e os recursos disponíveis no site deles.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman é um defensor da dislexia e o CEO e fundador da Speechify, o aplicativo de leitura em voz alta número 1 do mundo, com mais de 100.000 avaliações de 5 estrelas e ocupando o primeiro lugar na App Store na categoria Notícias e Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 Under 30 por seu trabalho em tornar a internet mais acessível para pessoas com dificuldades de aprendizagem. Cliff Weitzman já foi destaque em EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre outros meios de comunicação de destaque.