Introducao ao Web Scraping
Web scraping e a tecnica de extrair dados de sites automaticamente. Transforma paginas web em dados estruturados que podem ser usados em automacoes.
Dados sao o novo petroleo. Scraping permite coletar informacoes valiosas de sites que nao oferecem API, abrindo infinitas possibilidades de automacao.
Scraping, Parsing, Selectors, HTML extraction, Legal considerations.
Fluxo de Web Scraping
Consideracoes Legais
Sempre verifique os Termos de Servico do site antes de raspar. Respeite o robots.txt, nao sobrecarregue servidores e nunca colete dados pessoais sem consentimento.
Apify: plataforma de raspagem
Apify e uma plataforma que oferece scrapers prontos (chamados Actors) para sites populares. Integra diretamente com Make atraves de modulo nativo.
Construir scraper do zero e complexo e demorado. Apify oferece solucoes prontas, testadas e com manutencao inclusa quando sites mudam.
Apify Actors, Proxy, Datasets, Scheduling, Anti-bot bypass.
Actors Populares no Apify
Integracao com Make
No Make, adicione o modulo "Apify" > "Run Actor". Configure o Actor ID, input parameters e aguarde o resultado. Os dados retornam em JSON pronto para processar.
Raspagem de Instagram
Extrair posts, comentarios, seguidores e hashtags de perfis do Instagram. Dados valiosos para analise competitiva, curadoria de conteudo e pesquisa de mercado.
O Instagram nao oferece esses dados via API oficial. Scraping e a unica forma de obter informacoes detalhadas sobre perfis e conteudos.
Profile scraper, Post scraper, Hashtag scraper, Rate limiting.
Dados Extraiveis do Instagram
Perfil
- * Numero de seguidores/seguindo
- * Bio e links
- * Total de posts
- * Tipo de conta (business/pessoal)
Posts
- * URL das imagens/videos
- * Caption completo
- * Likes e comentarios
- * Data de publicacao
Raspagem de YouTube
Coletar videos, transcricoes, comentarios e metricas de canais do YouTube. Base fundamental para analise de conteudo e criacao de estrategias.
YouTube e a segunda maior ferramenta de busca do mundo. Dados de la sao ouro para estrategia de conteudo, SEO e analise de concorrencia.
Video scraper, Transcript extraction, Channel analytics, Comment mining.
Casos de Uso com Dados do YouTube
- * Transcricoes para RAG: Indexar conteudo de videos para busca semantica
- * Analise de tendencias: Identificar topicos em alta no seu nicho
- * Geracao de conteudo: Usar transcricoes como base para artigos/posts
- * Monitoramento: Acompanhar mencoes da marca em videos
Raspagem de blogs e sites
Extrair artigos, precos, produtos e informacoes de sites variados. Cada site pode exigir configuracao especifica de seletores CSS ou XPath.
Permite monitoramento de concorrencia, agregacao de conteudo, pesquisa de mercado automatizada e muito mais.
Content extraction, Price monitoring, News aggregation, Custom selectors.
Exemplo de Seletores CSS
{
"titulo": "h1.post-title",
"conteudo": "div.post-content p",
"data": "time.published",
"autor": "span.author-name",
"preco": "span.price-value"
}
Dicas para Raspagem de Sites
- 1. Use o DevTools do navegador (F12) para encontrar seletores
- 2. Prefira seletores de classe em vez de posicao (mais estaveis)
- 3. Adicione delays entre requisicoes para nao sobrecarregar o servidor
Estruturando dados extraidos
Transformar dados brutos de scraping em formato utilizavel. Inclui limpar, normalizar e armazenar dados de forma adequada para analise e automacao.
Dados brutos sao inuteis. E a estruturacao que permite analise, busca e acao sobre as informacoes coletadas.
Data cleaning, Normalization, Schema design, JSON transformation.
Pipeline de Transformacao
Antes (Dados Brutos)
{
"price": "R$ 1.299,99",
"date": "12/01/2026",
"title": " Produto XYZ ",
"available": "sim"
}
Depois (Estruturado)
{
"price": 1299.99,
"date": "2026-01-12",
"title": "Produto XYZ",
"available": true
}
Proximo Modulo
2.3 - CRM e Gestao de Clientes