Estamos buscando um(a) Engenheiro(a) de Dados focado(a) em integração e modelagem para construir e evoluir nosso data lake e camadas analíticas. Não é uma posição orientada a “big data”/streaming massivo, e sim a integrações sólidas, pipelines de transformação estáveis e organização de dados de mercado (histórico e distribuição) com boa governança e qualidade.
Principais responsabilidades:
- Projetar, implementar e manter pipelines de dados ponta a ponta (ELT/ETL) com foco em confiabilidade, reprocessamento e custo-eficiência.
- Orquestrar cargas e rotinas usando Airflow (AWS) e funções serverless (AWS Lambda); apoiar deploys em EKS quando necessário.
- Modelar dados no Snowflake (camadas bronze/prata/ouro) e desenvolver transformações no dbt (macros, tests, docs).
- Construir integrações e serviços em Python com FastAPI para expor/consumir dados e automatizar processos.
- Consumir, normalizar e versionar dados de mercado (market data), com ênfase em histórico e distribuição (batch; pouco streaming).
- Escrever SQL de alto desempenho (tuning, particionamento/clustering no Snowflake, e em Postgres).
- Utilizar Pandas para tratamentos pontuais, validações e prototipação de transformações.
- Garantir qualidade (testes no dbt, data checks), observabilidade (logs/metrics/alerts), segurança (acessos, mascaramento) e documentação.
- Colaborar com times de negócios, analytics e produtos para definir SLAs, contratos de dados e padrões de governança.
Requisitos obrigatórios:
- Sólida experiência com SQL (otimização de queries, modelagem relacional e analítica).
- Experiência prática com Snowflake (warehousing, roles, tasks, performance, custos) e dbt (models, tests, sources, exposures).
- Experiência construindo pipelines de dados em Airflow (DAGs, sensores, retries, SLA) e AWS Lambda.
- Conhecimento de Postgres (ingestão, replicação/CDC básica ou manutenção, rotinas).
- Vivência com Python para dados (Pandas) e desenvolvimento de APIs com FastAPI.
- Prática em ELT/ETL orientado a batches, versionamento em Git e CI/CD (deploy seguro de pipelines/modelos dbt).
- Noções de segurança e governança de dados (controle de acesso, linhagem, documentação, dados sensíveis).
- Inglês técnico para leitura de documentação.
Stack e ambiente:
- Data platform: Snowflake, dbt
- Orquestração e Cloud: Airflow (AWS), AWS Lambda, EKS (quando aplicável)
- Linguagens e libs: Python, Pandas, FastAPI
- Bancos: Postgres, Snowflake
- Dev: Git, CI/CD (GitHub Actions/GitLab CI/CodeBuild), IaC (CloudFormation/Terraform é plus)
- Observabilidade: CloudWatch, (Grafana/Prometheus como plus)
Diferenciais:
- Experiência com EKS/Kubernetes para workloads de dados.
Integração de fontes de market data (provedores, formatos, rate limits, histórico, calendário).
- Monitoramento/observabilidade (prometheus/grafana/cloudwatch), data quality além do dbt (Great Expectations, Soda).
- Padrões de contrato de dados (pydantic/JSONSchema), e práticas de data contracts.
- Performance em Snowflake (micro-particionamento, clustering, warehouses, query profile).
Custos e FinOps em dados na AWS/Snowflake.
- Experiência com CDC (Debezium, DMS) e mensageria (SQS, SNS; Kafka apenas se necessário).
#Li-MidSenior