3.3 TRILHA 3 - AVANCADO ~45 min

Assistentes de Voz

Aprenda a criar assistentes de voz com IA que conversam naturalmente por telefone e WhatsApp. Dominar Voice AI abre portas para atendimento 24/7 e escalabilidade sem precedentes.

6 topicos | Nivel: Avancado | Pre-requisitos: Modulo 3.1
1

Introducao a Voice AI

O que e:

Sistemas que permitem interacao por voz com IA. Combinam reconhecimento de fala (STT), processamento por LLM e sintese de voz (TTS) em tempo real.

Por que aprender:

Voz e a interface mais natural para humanos. Voice AI permite criar assistentes que conversam como pessoas, disponoveis 24/7.

Conceitos-chave:

Voice AI, STT (Speech-to-Text), TTS (Text-to-Speech), Conversational AI, Voice interface.

Arquitetura Voice AI

Audio (Voz Humana)
STT (Whisper)
LLM (GPT/Claude)
TTS (ElevenLabs)
Audio (Voz IA)

Casos de Uso

  • - SDR virtual para qualificacao de leads
  • - Agendamento de consultas e servicos
  • - Suporte ao cliente nivel 1
  • - Pesquisas de satisfacao por telefone
  • - Confirmacao de agendamentos
2

Retell AI basico

O que e:

Retell e uma plataforma para criar agentes de voz que fazem e recebem ligacoes telefonicas. Interface visual intuitiva com integracao facil ao Make.

Por que aprender:

Ligacoes automatizadas com qualidade humana. Um agente Retell pode fazer o trabalho de um SDR 24/7 sem pausa.

Conceitos-chave:

Retell platform, Voice agent, Call handling, Webhook integration.

Configurando Retell + Make

  1. Crie conta no Retell AI (retellai.com)
  2. Configure um "Agent" com prompt e voz
  3. Vincule um numero de telefone (Twilio integrado)
  4. Configure webhook para enviar eventos ao Make
  5. No Make, receba dados e execute acoes (CRM, email, etc)

Eventos de Webhook Retell

  • call_started Ligacao iniciada
  • call_ended Ligacao finalizada (com transcricao)
  • call_analyzed Analise pos-chamada (sentimento, resumo)
3

Multi-agentes Retell

O que e:

Sistema com multiplos agentes especializados que transferem ligacoes entre si. Exemplo: Recepcionista → Vendas → Suporte Tecnico.

Por que aprender:

Um agente unico nao resolve todos os casos. Multi-agente permite especializacao e experiencia superior para o cliente.

Conceitos-chave:

Agent routing, Call transfer, Specialization, Agent orchestration.

Fluxo Multi-Agente

Cliente Liga
Agente Recepcionista (identifica intencao)
Agente Vendas
Agente Suporte
Agente Financeiro

Como Implementar

No Retell, use a funcao "Transfer Call" no prompt do agente. Defina regras claras: "Se cliente pedir suporte tecnico, transfira para agente_suporte". Cada agente tem seu proprio prompt especializado.

4

VAPI: Voice API

O que e:

VAPI e uma plataforma de Voice AI com API flexivel e altamente customizavel. Oferece mais controle que Retell, com curva de aprendizado maior.

Por que aprender:

Para casos que exigem customizacao profunda ou integracao com sistemas especificos, VAPI oferece flexibilidade superior.

Conceitos-chave:

VAPI platform, Custom prompts, Voice settings, Webhook events.

Retell AI

  • + Interface visual intuitiva
  • + Setup mais rapido
  • + Bom para casos padrao
  • - Menos customizavel
  • - Pricing pode ser maior

VAPI

  • + API muito flexivel
  • + Customizacao profunda
  • + Escolha de providers
  • - Curva maior
  • - Requer mais codigo

Configuracao VAPI

{
  "assistant": {
    "model": {
      "provider": "openai",
      "model": "gpt-4-turbo"
    },
    "voice": {
      "provider": "elevenlabs",
      "voiceId": "rachel"
    },
    "firstMessage": "Ola! Sou a assistente virtual. Como posso ajudar?",
    "systemPrompt": "Voce e uma atendente de clinica..."
  }
}
5

Assistente multilingua

O que e:

Voice AI que atende em multiplos idiomas. Pode detectar idioma automaticamente ou permitir que cliente escolha no inicio.

Por que aprender:

Mercado global exige multilinguismo. Um assistente que fala portugues, espanhol e ingles atende toda a America Latina.

Conceitos-chave:

Language detection, Multi-language TTS, Translation, Locale handling.

Estrategias de Implementacao

1. Deteccao Automatica

Use STT com deteccao de idioma. Responda no mesmo idioma detectado.

2. Menu Inicial

"Para portugues, pressione 1. For English, press 2. Para espanol, presione 3."

3. Numero por Idioma

Numeros diferentes para cada idioma. Roteamento na origem.

Idiomas Bem Suportados

ElevenLabs e OpenAI TTS suportam bem: Portugues (BR e PT), Ingles, Espanhol, Frances, Alemao, Italiano, Japones, Coreano, Chines (Mandarim), Hindi, Arabe.

6

VAPI + WhatsApp

O que e:

Integrar Voice AI do VAPI com WhatsApp. Receber mensagens de audio, processar com IA e responder por voz ou texto.

Por que aprender:

Audio no WhatsApp e muito usado no Brasil. Voice AI melhora drasticamente o atendimento por mensagens de voz.

Conceitos-chave:

WhatsApp voice, Audio processing, Voice response, Multi-modal interaction.

Fluxo de Integracao

  1. Cliente envia audio no WhatsApp
  2. Z-API/Evolution recebe e envia ao Make via webhook
  3. Make baixa o arquivo de audio
  4. Envia ao Whisper (OpenAI) para transcricao
  5. Processa texto com LLM (gera resposta)
  6. Converte resposta em audio com ElevenLabs/OpenAI TTS
  7. Envia audio de volta pelo WhatsApp

Cenario Make Simplificado

Z-API Webhook
Download Audio
Whisper STT
GPT-4
ElevenLabs TTS
Z-API Send Audio

Dicas de Performance

  • - Use OpenAI TTS para respostas rapidas (menor latencia)
  • - ElevenLabs para vozes mais naturais (maior latencia)
  • - Limite audios de resposta a 20-30 segundos
  • - Oferca opcao de resposta por texto para usuarios surdos

Proximo Modulo

3.4 - Chamadas Telefonicas com IA

Continuar
Modulo Anterior Voltar para Trilha 3