Modulo 2.2 - Raspagem e Extracao de Dados

1

Introducao ao Web Scraping

O que e:

Web scraping e a tecnica de extrair dados de sites automaticamente. Transforma paginas web em dados estruturados que podem ser usados em automacoes.

Por que aprender:

Dados sao o novo petroleo. Scraping permite coletar informacoes valiosas de sites que nao oferecem API, abrindo infinitas possibilidades de automacao.

Conceitos-chave:

Scraping, Parsing, Selectors, HTML extraction, Legal considerations.

Fluxo de Web Scraping

Pagina Web

->

Scraper

->

Parse HTML

->

JSON/CSV

Consideracoes Legais

Sempre verifique os Termos de Servico do site antes de raspar. Respeite o robots.txt, nao sobrecarregue servidores e nunca colete dados pessoais sem consentimento.

2

Apify: plataforma de raspagem

O que e:

Apify e uma plataforma que oferece scrapers prontos (chamados Actors) para sites populares. Integra diretamente com Make atraves de modulo nativo.

Por que aprender:

Construir scraper do zero e complexo e demorado. Apify oferece solucoes prontas, testadas e com manutencao inclusa quando sites mudam.

Conceitos-chave:

Apify Actors, Proxy, Datasets, Scheduling, Anti-bot bypass.

Actors Populares no Apify

Instagram Scraper

YouTube Scraper

LinkedIn Scraper

Amazon Scraper

Google Maps

Web Scraper

Integracao com Make

No Make, adicione o modulo "Apify" > "Run Actor". Configure o Actor ID, input parameters e aguarde o resultado. Os dados retornam em JSON pronto para processar.

3

Raspagem de Instagram

O que e:

Extrair posts, comentarios, seguidores e hashtags de perfis do Instagram. Dados valiosos para analise competitiva, curadoria de conteudo e pesquisa de mercado.

Por que aprender:

O Instagram nao oferece esses dados via API oficial. Scraping e a unica forma de obter informacoes detalhadas sobre perfis e conteudos.

Conceitos-chave:

Profile scraper, Post scraper, Hashtag scraper, Rate limiting.

Dados Extraiveis do Instagram

Perfil

* Numero de seguidores/seguindo
* Bio e links
* Total de posts
* Tipo de conta (business/pessoal)

Posts

* URL das imagens/videos
* Caption completo
* Likes e comentarios
* Data de publicacao

4

Raspagem de YouTube

O que e:

Coletar videos, transcricoes, comentarios e metricas de canais do YouTube. Base fundamental para analise de conteudo e criacao de estrategias.

Por que aprender:

YouTube e a segunda maior ferramenta de busca do mundo. Dados de la sao ouro para estrategia de conteudo, SEO e analise de concorrencia.

Conceitos-chave:

Video scraper, Transcript extraction, Channel analytics, Comment mining.

Casos de Uso com Dados do YouTube

* Transcricoes para RAG: Indexar conteudo de videos para busca semantica
* Analise de tendencias: Identificar topicos em alta no seu nicho
* Geracao de conteudo: Usar transcricoes como base para artigos/posts
* Monitoramento: Acompanhar mencoes da marca em videos

5

Raspagem de blogs e sites

O que e:

Extrair artigos, precos, produtos e informacoes de sites variados. Cada site pode exigir configuracao especifica de seletores CSS ou XPath.

Por que aprender:

Permite monitoramento de concorrencia, agregacao de conteudo, pesquisa de mercado automatizada e muito mais.

Conceitos-chave:

Content extraction, Price monitoring, News aggregation, Custom selectors.

Exemplo de Seletores CSS

{
  "titulo": "h1.post-title",
  "conteudo": "div.post-content p",
  "data": "time.published",
  "autor": "span.author-name",
  "preco": "span.price-value"
}

Dicas para Raspagem de Sites

1. Use o DevTools do navegador (F12) para encontrar seletores
2. Prefira seletores de classe em vez de posicao (mais estaveis)
3. Adicione delays entre requisicoes para nao sobrecarregar o servidor

6

Estruturando dados extraidos

O que e:

Transformar dados brutos de scraping em formato utilizavel. Inclui limpar, normalizar e armazenar dados de forma adequada para analise e automacao.

Por que aprender:

Dados brutos sao inuteis. E a estruturacao que permite analise, busca e acao sobre as informacoes coletadas.

Conceitos-chave:

Data cleaning, Normalization, Schema design, JSON transformation.

Pipeline de Transformacao

Dados Brutos

->

Limpeza

->

Normalizacao

->

Armazenamento

Antes (Dados Brutos)

{
  "price": "R$ 1.299,99",
  "date": "12/01/2026",
  "title": "  Produto XYZ  ",
  "available": "sim"
}

Depois (Estruturado)

{
  "price": 1299.99,
  "date": "2026-01-12",
  "title": "Produto XYZ",
  "available": true
}

Proximo Modulo

2.3 - CRM e Gestao de Clientes

Continuar ->