Run any Skill in Manus with one click

senior-data-engineer

Skill de engenharia de dados para construção de pipelines de dados escaláveis, sistemas ETL/ELT e infraestrutura de dados. Expertise em Python, SQL, Spark, Airflow, dbt, Kafka e o stack de dados moderno. Inclui modelagem de dados, orquestração de pipeline, qualidade de dados e DataOps. Use quando projetar arquiteturas de dados, construir pipelines de dados, otimizar fluxos de trabalho de dados, implementar governança de dados ou solucionar problemas de dados.

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/ricardonevesbraga/flowgrammers-skills --skill senior-data-engineer

Copy and paste this command into Claude Code to install the skill

Source

ricardonevesbraga/flowgrammers-skills

Stars98

Forks35

UpdatedMay 29, 2026 at 18:02

SKILL.md

readonly

name	senior-data-engineer
description	Skill de engenharia de dados para construção de pipelines de dados escaláveis, sistemas ETL/ELT e infraestrutura de dados. Expertise em Python, SQL, Spark, Airflow, dbt, Kafka e o stack de dados moderno. Inclui modelagem de dados, orquestração de pipeline, qualidade de dados e DataOps. Use quando projetar arquiteturas de dados, construir pipelines de dados, otimizar fluxos de trabalho de dados, implementar governança de dados ou solucionar problemas de dados.
agents	["claude-code"]

Engenheiro de Dados Sênior

Skill de engenharia de dados em nível de produção para construção de sistemas de dados escaláveis e confiáveis.

Frases de Gatilho

Ative esta skill quando ver:

Design de Pipeline:

"Projetar um pipeline de dados para..."
"Construir um processo ETL/ELT..."
"Como ingerir dados de..."
"Configurar extração de dados de..."

Arquitetura:

"Devo usar batch ou streaming?"
"Arquitetura Lambda vs Kappa"
"Como lidar com dados de chegada tardia"
"Projetar um data lakehouse"

Modelagem de Dados:

"Criar um modelo dimensional..."
"Star schema vs snowflake"
"Implementar slowly changing dimensions"
"Projetar um data vault"

Qualidade de Dados:

"Adicionar validação de dados a..."
"Configurar verificações de qualidade de dados"
"Monitorar frescor dos dados"
"Implementar contratos de dados"

Desempenho:

"Otimizar este job Spark"
"Query está rodando lenta"
"Reduzir tempo de execução do pipeline"
"Ajustar DAG do Airflow"

Início Rápido

Ferramentas Principais

# Gerar configuração de orquestração de pipeline
python scripts/pipeline_orchestrator.py generate \
  --type airflow \
  --source postgres \
  --destination snowflake \
  --schedule "0 5 * * *"

# Validar qualidade de dados
python scripts/data_quality_validator.py validate \
  --input data/sales.parquet \
  --schema schemas/sales.json \
  --checks freshness,completeness,uniqueness

# Otimizar desempenho ETL
python scripts/etl_performance_optimizer.py analyze \
  --query queries/daily_aggregation.sql \
  --engine spark \
  --recommend

Fluxos de Trabalho

→ Veja references/workflows.md para detalhes

Framework de Decisão de Arquitetura

Use este framework para escolher a abordagem correta para seu pipeline de dados.

Batch vs Streaming

Critério	Batch	Streaming
Requisito de latência	Horas a dias	Segundos a minutos
Volume de dados	Grandes conjuntos históricos	Fluxos contínuos de eventos
Complexidade de processamento	Transformações complexas, ML	Agregações simples, filtragem
Sensibilidade a custo	Mais econômico	Custo de infraestrutura maior
Tratamento de erros	Mais fácil reprocessar	Requer design cuidadoso

Árvore de Decisão:

Insights em tempo real são necessários?
├── Sim → Use streaming
│   └── Semântica exactly-once é necessária?
│       ├── Sim → Kafka + Flink/Spark Structured Streaming
│       └── Não → Kafka + consumer groups
└── Não → Use batch
    └── Volume de dados > 1TB diário?
        ├── Sim → Spark/Databricks
        └── Não → dbt + computação do warehouse

Arquitetura Lambda vs Kappa

Aspecto	Lambda	Kappa
Complexidade	Dois codebases (batch + stream)	Codebase único
Manutenção	Maior (sincronizar lógica batch/stream)	Menor
Reprocessamento	Camada batch nativa	Replay a partir da origem
Caso de uso	Treinamento ML + serving em tempo real	Puramente orientado a eventos

Quando escolher Lambda:

Necessidade de treinar modelos ML em dados históricos
Transformações batch complexas não viáveis em streaming
Infraestrutura batch existente

Quando escolher Kappa:

Arquitetura orientada a eventos
Todo o processamento pode ser expresso como operações de stream
Começando do zero sem sistemas legados

Data Warehouse vs Data Lakehouse

Funcionalidade	Warehouse (Snowflake/BigQuery)	Lakehouse (Delta/Iceberg)
Melhor para	BI, analytics SQL	ML, dados não estruturados
Custo de armazenamento	Maior (formato proprietário)	Menor (formatos abertos)
Flexibilidade	Schema-on-write	Schema-on-read
Desempenho	Excelente para SQL	Bom, melhorando
Ecossistema	Ferramentas BI maduras	Ferramentas ML crescentes

Tech Stack

Categoria	Tecnologias
Linguagens	Python, SQL, Scala
Orquestração	Airflow, Prefect, Dagster
Transformação	dbt, Spark, Flink
Streaming	Kafka, Kinesis, Pub/Sub
Armazenamento	S3, GCS, Delta Lake, Iceberg
Warehouses	Snowflake, BigQuery, Redshift, Databricks
Qualidade	Great Expectations, testes dbt, Monte Carlo
Monitoramento	Prometheus, Grafana, Datadog

Documentação de Referência

1. Arquitetura de Pipeline de Dados

Veja references/data_pipeline_architecture.md para:

Padrões de arquitetura Lambda vs Kappa
Processamento batch com Spark e Airflow
Processamento de stream com Kafka e Flink
Implementação de semântica exactly-once
Tratamento de erros e dead letter queues

2. Padrões de Modelagem de Dados

Veja references/data_modeling_patterns.md para:

Modelagem dimensional (Star/Snowflake)
Slowly Changing Dimensions (SCD Tipos 1-6)
Modelagem Data Vault
Melhores práticas dbt
Particionamento e clustering

3. Melhores Práticas DataOps

Veja references/dataops_best_practices.md para:

Frameworks de teste de dados
Contratos de dados e validação de schema
CI/CD para pipelines de dados
Observabilidade e lineage
Resposta a incidentes

Solução de Problemas

→ Veja references/troubleshooting.md para detalhes

More from this repository

same repository

contract-and-proposal-writer

ricardonevesbraga/flowgrammers-skills

Gerador de contratos e propostas comerciais para o mercado brasileiro. Contratos de prestação de serviço, proposta comercial, SOW, NDA, MSA — todos adaptados à legislação brasileira (Código Civil, CLT, LGPD). Use quando precisar criar contratos de desenvolvimento, propostas para clientes, acordos de confidencialidade, contratos de consultoria ou contratos de parceria comercial.

2026-05-2998

customer-success-manager

ricardonevesbraga/flowgrammers-skills

Monitora saúde do cliente, prevê risco de churn e identifica oportunidades de expansão usando modelos de pontuação ponderada para sucesso do cliente SaaS. Use ao analisar contas de clientes, revisar métricas de retenção, pontuar clientes em risco, ou quando o usuário mencionar churn, pontuações de saúde do cliente, oportunidades de upsell, receita de expansão, análise de retenção ou análise de clientes. Executa três ferramentas Python CLI para produzir pontuações de saúde determinísticas, tiers de risco de churn e recomendações de expansão priorizadas em segmentos Enterprise, Mid-Market e PME.

2026-05-2998

revenue-operations

ricardonevesbraga/flowgrammers-skills

Analisa saúde do pipeline de vendas, precisão de previsão de receita e métricas de eficiência go-to-market para otimização de receita SaaS. Use ao analisar cobertura do pipeline de vendas, prever receita, avaliar desempenho go-to-market, revisar métricas de vendas, avaliar análise de pipeline, rastrear precisão de previsão com MAPE, calcular eficiência GTM ou medir eficiência de vendas e unit economics para equipes SaaS.

2026-05-2998

sales-engineer

ricardonevesbraga/flowgrammers-skills

Analisa respostas de RFP/RFI para lacunas de cobertura, constrói matrizes de comparação de funcionalidades competitivas e planeja engajamentos de prova de conceito (POC) para engenharia de pré-vendas. Use ao responder a RFPs, licitações ou solicitações de proposta; comparar funcionalidades do produto contra concorrentes; planejar ou pontuar um POC ou demonstração de vendas para o cliente; preparar uma proposta técnica; ou realizar análise competitiva de vitórias/perdas. Lida com tarefas descritas como 'resposta a RFP', 'resposta a licitação', 'resposta a proposta', 'comparação de concorrente', 'matriz de funcionalidades', 'planejamento de POC', 'preparação de demo de vendas' ou 'engenharia de pré-vendas'.

2026-05-2998

business-growth-skills

ricardonevesbraga/flowgrammers-skills

4 skills de crescimento de negócios para Claude Code. Customer Success (health scoring, prevenção de churn), Sales Engineer (análise de RFP), Revenue Operations (pipeline, GTM), Contract & Proposal Writer (propostas e contratos). Ferramentas Python (apenas stdlib).

2026-05-2998

busca-de-emprego

ricardonevesbraga/flowgrammers-skills

Estratégia completa de busca de emprego no mercado brasileiro: onde procurar vagas, como personalizar candidatura, preparação para entrevistas técnicas (system design, coding, comportamental) e negociação de oferta.

2026-05-2998

Source

ricardonevesbraga

ricardonevesbraga/flowgrammers-skills

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Software DevelopersComputer and Mathematical Occupations15-1252L4

name	senior-data-engineer
description	Skill de engenharia de dados para construção de pipelines de dados escaláveis, sistemas ETL/ELT e infraestrutura de dados. Expertise em Python, SQL, Spark, Airflow, dbt, Kafka e o stack de dados moderno. Inclui modelagem de dados, orquestração de pipeline, qualidade de dados e DataOps. Use quando projetar arquiteturas de dados, construir pipelines de dados, otimizar fluxos de trabalho de dados, implementar governança de dados ou solucionar problemas de dados.
agents	["claude-code"]

Engenheiro de Dados Sênior

Skill de engenharia de dados em nível de produção para construção de sistemas de dados escaláveis e confiáveis.

Sumário

Frases de Gatilho
Início Rápido
Fluxos de Trabalho
Framework de Decisão de Arquitetura
Tech Stack
Documentação de Referência
Solução de Problemas

Frases de Gatilho

Ative esta skill quando ver:

Design de Pipeline:

"Projetar um pipeline de dados para..."
"Construir um processo ETL/ELT..."
"Como ingerir dados de..."
"Configurar extração de dados de..."

Arquitetura:

"Devo usar batch ou streaming?"
"Arquitetura Lambda vs Kappa"
"Como lidar com dados de chegada tardia"
"Projetar um data lakehouse"

Modelagem de Dados:

"Criar um modelo dimensional..."
"Star schema vs snowflake"
"Implementar slowly changing dimensions"
"Projetar um data vault"

Qualidade de Dados:

"Adicionar validação de dados a..."
"Configurar verificações de qualidade de dados"
"Monitorar frescor dos dados"
"Implementar contratos de dados"

Desempenho:

"Otimizar este job Spark"
"Query está rodando lenta"
"Reduzir tempo de execução do pipeline"
"Ajustar DAG do Airflow"

Início Rápido

Ferramentas Principais

# Gerar configuração de orquestração de pipeline
python scripts/pipeline_orchestrator.py generate \
  --type airflow \
  --source postgres \
  --destination snowflake \
  --schedule "0 5 * * *"

# Validar qualidade de dados
python scripts/data_quality_validator.py validate \
  --input data/sales.parquet \
  --schema schemas/sales.json \
  --checks freshness,completeness,uniqueness

# Otimizar desempenho ETL
python scripts/etl_performance_optimizer.py analyze \
  --query queries/daily_aggregation.sql \
  --engine spark \
  --recommend

Fluxos de Trabalho

→ Veja references/workflows.md para detalhes

Framework de Decisão de Arquitetura

Use este framework para escolher a abordagem correta para seu pipeline de dados.

Batch vs Streaming

Critério	Batch	Streaming
Requisito de latência	Horas a dias	Segundos a minutos
Volume de dados	Grandes conjuntos históricos	Fluxos contínuos de eventos
Complexidade de processamento	Transformações complexas, ML	Agregações simples, filtragem
Sensibilidade a custo	Mais econômico	Custo de infraestrutura maior
Tratamento de erros	Mais fácil reprocessar	Requer design cuidadoso

Árvore de Decisão:

Insights em tempo real são necessários?
├── Sim → Use streaming
│   └── Semântica exactly-once é necessária?
│       ├── Sim → Kafka + Flink/Spark Structured Streaming
│       └── Não → Kafka + consumer groups
└── Não → Use batch
    └── Volume de dados > 1TB diário?
        ├── Sim → Spark/Databricks
        └── Não → dbt + computação do warehouse

Arquitetura Lambda vs Kappa

Aspecto	Lambda	Kappa
Complexidade	Dois codebases (batch + stream)	Codebase único
Manutenção	Maior (sincronizar lógica batch/stream)	Menor
Reprocessamento	Camada batch nativa	Replay a partir da origem
Caso de uso	Treinamento ML + serving em tempo real	Puramente orientado a eventos

Quando escolher Lambda:

Necessidade de treinar modelos ML em dados históricos
Transformações batch complexas não viáveis em streaming
Infraestrutura batch existente

Quando escolher Kappa:

Arquitetura orientada a eventos
Todo o processamento pode ser expresso como operações de stream
Começando do zero sem sistemas legados

Data Warehouse vs Data Lakehouse

Funcionalidade	Warehouse (Snowflake/BigQuery)	Lakehouse (Delta/Iceberg)
Melhor para	BI, analytics SQL	ML, dados não estruturados
Custo de armazenamento	Maior (formato proprietário)	Menor (formatos abertos)
Flexibilidade	Schema-on-write	Schema-on-read
Desempenho	Excelente para SQL	Bom, melhorando
Ecossistema	Ferramentas BI maduras	Ferramentas ML crescentes

Tech Stack

Categoria	Tecnologias
Linguagens	Python, SQL, Scala
Orquestração	Airflow, Prefect, Dagster
Transformação	dbt, Spark, Flink
Streaming	Kafka, Kinesis, Pub/Sub
Armazenamento	S3, GCS, Delta Lake, Iceberg
Warehouses	Snowflake, BigQuery, Redshift, Databricks
Qualidade	Great Expectations, testes dbt, Monte Carlo
Monitoramento	Prometheus, Grafana, Datadog

Documentação de Referência

1. Arquitetura de Pipeline de Dados

Veja references/data_pipeline_architecture.md para:

Padrões de arquitetura Lambda vs Kappa
Processamento batch com Spark e Airflow
Processamento de stream com Kafka e Flink
Implementação de semântica exactly-once
Tratamento de erros e dead letter queues

2. Padrões de Modelagem de Dados

Veja references/data_modeling_patterns.md para:

Modelagem dimensional (Star/Snowflake)
Slowly Changing Dimensions (SCD Tipos 1-6)
Modelagem Data Vault
Melhores práticas dbt
Particionamento e clustering

3. Melhores Práticas DataOps

Veja references/dataops_best_practices.md para:

Frameworks de teste de dados
Contratos de dados e validação de schema
CI/CD para pipelines de dados
Observabilidade e lineage
Resposta a incidentes

Solução de Problemas

→ Veja references/troubleshooting.md para detalhes