Introducao a Voice AI
Sistemas que permitem interacao por voz com IA. Combinam reconhecimento de fala (STT), processamento por LLM e sintese de voz (TTS) em tempo real.
Voz e a interface mais natural para humanos. Voice AI permite criar assistentes que conversam como pessoas, disponoveis 24/7.
Voice AI, STT (Speech-to-Text), TTS (Text-to-Speech), Conversational AI, Voice interface.
Arquitetura Voice AI
Casos de Uso
- - SDR virtual para qualificacao de leads
- - Agendamento de consultas e servicos
- - Suporte ao cliente nivel 1
- - Pesquisas de satisfacao por telefone
- - Confirmacao de agendamentos
Retell AI basico
Retell e uma plataforma para criar agentes de voz que fazem e recebem ligacoes telefonicas. Interface visual intuitiva com integracao facil ao Make.
Ligacoes automatizadas com qualidade humana. Um agente Retell pode fazer o trabalho de um SDR 24/7 sem pausa.
Retell platform, Voice agent, Call handling, Webhook integration.
Configurando Retell + Make
- Crie conta no Retell AI (retellai.com)
- Configure um "Agent" com prompt e voz
- Vincule um numero de telefone (Twilio integrado)
- Configure webhook para enviar eventos ao Make
- No Make, receba dados e execute acoes (CRM, email, etc)
Eventos de Webhook Retell
- call_started Ligacao iniciada
- call_ended Ligacao finalizada (com transcricao)
- call_analyzed Analise pos-chamada (sentimento, resumo)
Multi-agentes Retell
Sistema com multiplos agentes especializados que transferem ligacoes entre si. Exemplo: Recepcionista → Vendas → Suporte Tecnico.
Um agente unico nao resolve todos os casos. Multi-agente permite especializacao e experiencia superior para o cliente.
Agent routing, Call transfer, Specialization, Agent orchestration.
Fluxo Multi-Agente
Como Implementar
No Retell, use a funcao "Transfer Call" no prompt do agente. Defina regras claras: "Se cliente pedir suporte tecnico, transfira para agente_suporte". Cada agente tem seu proprio prompt especializado.
VAPI: Voice API
VAPI e uma plataforma de Voice AI com API flexivel e altamente customizavel. Oferece mais controle que Retell, com curva de aprendizado maior.
Para casos que exigem customizacao profunda ou integracao com sistemas especificos, VAPI oferece flexibilidade superior.
VAPI platform, Custom prompts, Voice settings, Webhook events.
Retell AI
- + Interface visual intuitiva
- + Setup mais rapido
- + Bom para casos padrao
- - Menos customizavel
- - Pricing pode ser maior
VAPI
- + API muito flexivel
- + Customizacao profunda
- + Escolha de providers
- - Curva maior
- - Requer mais codigo
Configuracao VAPI
{
"assistant": {
"model": {
"provider": "openai",
"model": "gpt-4-turbo"
},
"voice": {
"provider": "elevenlabs",
"voiceId": "rachel"
},
"firstMessage": "Ola! Sou a assistente virtual. Como posso ajudar?",
"systemPrompt": "Voce e uma atendente de clinica..."
}
}
Assistente multilingua
Voice AI que atende em multiplos idiomas. Pode detectar idioma automaticamente ou permitir que cliente escolha no inicio.
Mercado global exige multilinguismo. Um assistente que fala portugues, espanhol e ingles atende toda a America Latina.
Language detection, Multi-language TTS, Translation, Locale handling.
Estrategias de Implementacao
Use STT com deteccao de idioma. Responda no mesmo idioma detectado.
"Para portugues, pressione 1. For English, press 2. Para espanol, presione 3."
Numeros diferentes para cada idioma. Roteamento na origem.
Idiomas Bem Suportados
ElevenLabs e OpenAI TTS suportam bem: Portugues (BR e PT), Ingles, Espanhol, Frances, Alemao, Italiano, Japones, Coreano, Chines (Mandarim), Hindi, Arabe.
VAPI + WhatsApp
Integrar Voice AI do VAPI com WhatsApp. Receber mensagens de audio, processar com IA e responder por voz ou texto.
Audio no WhatsApp e muito usado no Brasil. Voice AI melhora drasticamente o atendimento por mensagens de voz.
WhatsApp voice, Audio processing, Voice response, Multi-modal interaction.
Fluxo de Integracao
- Cliente envia audio no WhatsApp
- Z-API/Evolution recebe e envia ao Make via webhook
- Make baixa o arquivo de audio
- Envia ao Whisper (OpenAI) para transcricao
- Processa texto com LLM (gera resposta)
- Converte resposta em audio com ElevenLabs/OpenAI TTS
- Envia audio de volta pelo WhatsApp
Cenario Make Simplificado
Dicas de Performance
- - Use OpenAI TTS para respostas rapidas (menor latencia)
- - ElevenLabs para vozes mais naturais (maior latencia)
- - Limite audios de resposta a 20-30 segundos
- - Oferca opcao de resposta por texto para usuarios surdos
Proximo Modulo
3.4 - Chamadas Telefonicas com IA