2.2 TRILHA 2 - TECNICAS ~45 min

Raspagem e Extracao de Dados

Aprenda a extrair dados de qualquer site da web. Domine Web Scraping com Apify, raspagem de Instagram, YouTube e blogs, e transforme dados brutos em informacao estruturada.

6 topicos | Nivel: Intermediario | Pre-requisitos: Trilha 1 completa
1

Introducao ao Web Scraping

O que e:

Web scraping e a tecnica de extrair dados de sites automaticamente. Transforma paginas web em dados estruturados que podem ser usados em automacoes.

Por que aprender:

Dados sao o novo petroleo. Scraping permite coletar informacoes valiosas de sites que nao oferecem API, abrindo infinitas possibilidades de automacao.

Conceitos-chave:

Scraping, Parsing, Selectors, HTML extraction, Legal considerations.

Fluxo de Web Scraping

Pagina Web
->
Scraper
->
Parse HTML
->
JSON/CSV

Consideracoes Legais

Sempre verifique os Termos de Servico do site antes de raspar. Respeite o robots.txt, nao sobrecarregue servidores e nunca colete dados pessoais sem consentimento.

2

Apify: plataforma de raspagem

O que e:

Apify e uma plataforma que oferece scrapers prontos (chamados Actors) para sites populares. Integra diretamente com Make atraves de modulo nativo.

Por que aprender:

Construir scraper do zero e complexo e demorado. Apify oferece solucoes prontas, testadas e com manutencao inclusa quando sites mudam.

Conceitos-chave:

Apify Actors, Proxy, Datasets, Scheduling, Anti-bot bypass.

Actors Populares no Apify

Instagram Scraper
YouTube Scraper
LinkedIn Scraper
Amazon Scraper
Google Maps
Web Scraper

Integracao com Make

No Make, adicione o modulo "Apify" > "Run Actor". Configure o Actor ID, input parameters e aguarde o resultado. Os dados retornam em JSON pronto para processar.

3

Raspagem de Instagram

O que e:

Extrair posts, comentarios, seguidores e hashtags de perfis do Instagram. Dados valiosos para analise competitiva, curadoria de conteudo e pesquisa de mercado.

Por que aprender:

O Instagram nao oferece esses dados via API oficial. Scraping e a unica forma de obter informacoes detalhadas sobre perfis e conteudos.

Conceitos-chave:

Profile scraper, Post scraper, Hashtag scraper, Rate limiting.

Dados Extraiveis do Instagram

Perfil
  • * Numero de seguidores/seguindo
  • * Bio e links
  • * Total de posts
  • * Tipo de conta (business/pessoal)
Posts
  • * URL das imagens/videos
  • * Caption completo
  • * Likes e comentarios
  • * Data de publicacao
4

Raspagem de YouTube

O que e:

Coletar videos, transcricoes, comentarios e metricas de canais do YouTube. Base fundamental para analise de conteudo e criacao de estrategias.

Por que aprender:

YouTube e a segunda maior ferramenta de busca do mundo. Dados de la sao ouro para estrategia de conteudo, SEO e analise de concorrencia.

Conceitos-chave:

Video scraper, Transcript extraction, Channel analytics, Comment mining.

Casos de Uso com Dados do YouTube

  • * Transcricoes para RAG: Indexar conteudo de videos para busca semantica
  • * Analise de tendencias: Identificar topicos em alta no seu nicho
  • * Geracao de conteudo: Usar transcricoes como base para artigos/posts
  • * Monitoramento: Acompanhar mencoes da marca em videos
5

Raspagem de blogs e sites

O que e:

Extrair artigos, precos, produtos e informacoes de sites variados. Cada site pode exigir configuracao especifica de seletores CSS ou XPath.

Por que aprender:

Permite monitoramento de concorrencia, agregacao de conteudo, pesquisa de mercado automatizada e muito mais.

Conceitos-chave:

Content extraction, Price monitoring, News aggregation, Custom selectors.

Exemplo de Seletores CSS

{
  "titulo": "h1.post-title",
  "conteudo": "div.post-content p",
  "data": "time.published",
  "autor": "span.author-name",
  "preco": "span.price-value"
}

Dicas para Raspagem de Sites

  • 1. Use o DevTools do navegador (F12) para encontrar seletores
  • 2. Prefira seletores de classe em vez de posicao (mais estaveis)
  • 3. Adicione delays entre requisicoes para nao sobrecarregar o servidor
6

Estruturando dados extraidos

O que e:

Transformar dados brutos de scraping em formato utilizavel. Inclui limpar, normalizar e armazenar dados de forma adequada para analise e automacao.

Por que aprender:

Dados brutos sao inuteis. E a estruturacao que permite analise, busca e acao sobre as informacoes coletadas.

Conceitos-chave:

Data cleaning, Normalization, Schema design, JSON transformation.

Pipeline de Transformacao

Dados Brutos
->
Limpeza
->
Normalizacao
->
Armazenamento

Antes (Dados Brutos)

{
  "price": "R$ 1.299,99",
  "date": "12/01/2026",
  "title": "  Produto XYZ  ",
  "available": "sim"
}

Depois (Estruturado)

{
  "price": 1299.99,
  "date": "2026-01-12",
  "title": "Produto XYZ",
  "available": true
}

Proximo Modulo

2.3 - CRM e Gestao de Clientes

Continuar ->
<- Modulo 2.1 Trilha 2