Pipeline de Dados em Tempo Real
Arquitetura de streaming com Kafka e Spark Streaming para ingestão e processamento de eventos. Dados entregues em data lake no S3 com particionamento por hora e formato Parquet.
Portfólio
Pipelines de dados, modelos de ML, experimentos e ferramentas open-source.
Arquitetura de streaming com Kafka e Spark Streaming para ingestão e processamento de eventos. Dados entregues em data lake no S3 com particionamento por hora e formato Parquet.
Pipeline completo de ML: feature engineering, seleção de variáveis com SHAP, treinamento de XGBoost, tracking de experimentos e serving via API REST com FastAPI.
Modelagem dimensional em camadas Bronze/Silver/Gold com dbt. Testes de qualidade de dados automatizados, lineage e documentação gerada automaticamente.
Sistema de recomendação colaborativa e baseada em conteúdo para e-commerce. Avaliação A/B test e monitoramento de data drift em produção.
Biblioteca Python para validação e monitoramento de qualidade de dados em pipelines. Integração com Great Expectations e geração de relatórios em HTML.
Dashboard com métricas de negócio atualizadas em near real-time usando ClickHouse como OLAP engine e Grafana para visualização.