Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow Artwork

Engenharia de Dados [Cast]

Aqui no podcast, sabemos que o mundo de dados pode ser overwhelming: são tantas ferramentas, plataformas e metodologias novas surgindo toda semana que fica difícil acompanhar.

Nossa missão é simplificar essa complexidade e te ajudar a fazer escolhas mais inteligentes sobre qual tecnologia usar em cada situação.

Em cada episódio, conversamos com especialistas que estão na linha de frente, compartilhando experiências reais, acertos, erros e lições aprendidas. É aquele papo técnico que você teria com um colega experiente tomando um café , só que gravado para você ouvir quando e onde quiser.

A ideia é que você saia de cada episódio com algo prático para aplicar no seu dia a dia, seja uma nova perspectiva sobre uma ferramenta, uma dica de arquitetura ou insights sobre tendências que realmente valem a pena acompanhar.

Nosso objetivo é simples: te ajudar a se tornar um profissional mais confiante e preparado, sem a pressão de ter que saber tudo sobre tudo.

É o lugar onde conhecimento técnico encontra conversas humanas, criando uma comunidade de profissionais que crescem juntos na área de dados.

All Episodes

Engenharia de Dados [Cast]

Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow

March 10, 2026 • Luan Moreno M. Maciel • Season 7 • Episode 1

0:00 | 13:11

Um pipeline monolítico de 5.000 linhas. Sete notebooks acoplados. Dez chamadas de API dentro de definições DLT. O que acontece quando você coloca quarenta agentes de IA especializados nesse problema e dá um prazo de três dias?

Neste episódio da série Era dos Agentes, exploramos a refatoração completa do pipeline de dados do InfraView: de um monolito no Databricks para uma arquitetura limpa de três camadas, usando AWS Lambda, Lakeflow Declarative Pipelines e Databricks Asset Bundles.

A história começa com um problema real: a infraestrutura que sustentava a cobrança de clientes era frágil, não escalável e impossível de testar. Um timeout de API às duas da manhã derrubava o pipeline inteiro. Doze constantes críticas de threshold estavam espalhadas como números mágicos por cinco arquivos diferentes. Ninguém conseguia provar que as fórmulas estavam corretas.

Na segunda sessão, o projeto quase parou. Um bug não documentado no motor DLT: o decorator dp.table em Python, com nomes fully qualified, quebrava a resolução do grafo JVM em pipelines multi-schema. Foram três a quatro horas de debugging. Sete abordagens falharam.

Até que surgiu o Padrão Híbrido SQL+Python: notebooks Python criam views temporárias com dp.view para a lógica complexa, e notebooks SQL registram as tabelas finais com CREATE OR REFRESH. O DLT processa tudo como um único grafo de computação.

O clímax é a validação em escala de produção: 920.676 registros reais de OTel processados simultaneamente pelos dois pipelines, legado e novo. 822 milhões de linhas Silver geradas. O resultado: InfraRating (risco e otimização) com 100% de match exato em 42.640 comparações. Performance de 38 minutos no serverless contra 90 minutos no clássico: 2,3 vezes mais rápido, com dados idênticos.

O novo pipeline encontrou 68 hosts onde o legado encontrava apenas 14. Não é só equivalente: é melhor.

Como foi construído: uma pessoa de engenharia trabalhando com Claude Code e quarenta agentes de IA especializados: lakeflow architect, spark specialist, code reviewer, lambda builder, medallion architect. Seis sessões ao longo de três dias. 1,8 milhão de tokens de raciocínio colaborativo.

Tecnologias: Claude Code, Databricks Lakeflow, Unity Catalog, AWS Lambda, SAM, Databricks Asset Bundles, PySpark, Spark SQL, Auto Loader e Delta Live Tables.

Este episódio foi gerado com NotebookLM a partir de fontes produzidas por agentes de IA especializados. O conteúdo que você ouve é o produto direto da era agêntica em ação.

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Rafael Rodrigues = https://www.linkedin.com/in/rafaelolsr/

Luan Moreno

Host