Engenharia de Dados [Cast]
Aqui no podcast, sabemos que o mundo de dados pode ser overwhelming: são tantas ferramentas, plataformas e metodologias novas surgindo toda semana que fica difícil acompanhar.
Nossa missão é simplificar essa complexidade e te ajudar a fazer escolhas mais inteligentes sobre qual tecnologia usar em cada situação.
Em cada episódio, conversamos com especialistas que estão na linha de frente, compartilhando experiências reais, acertos, erros e lições aprendidas. É aquele papo técnico que você teria com um colega experiente tomando um café , só que gravado para você ouvir quando e onde quiser.
A ideia é que você saia de cada episódio com algo prático para aplicar no seu dia a dia, seja uma nova perspectiva sobre uma ferramenta, uma dica de arquitetura ou insights sobre tendências que realmente valem a pena acompanhar.
Nosso objetivo é simples: te ajudar a se tornar um profissional mais confiante e preparado, sem a pressão de ter que saber tudo sobre tudo.
É o lugar onde conhecimento técnico encontra conversas humanas, criando uma comunidade de profissionais que crescem juntos na área de dados.
Engenharia de Dados [Cast]
Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow
Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.
Um pipeline monolítico de 5.000 linhas. Sete notebooks acoplados. Dez chamadas de API dentro de definições DLT. O que acontece quando você coloca quarenta agentes de IA especializados nesse problema e dá um prazo de três dias?
Neste episódio da série Era dos Agentes, exploramos a refatoração completa do pipeline de dados do InfraView: de um monolito no Databricks para uma arquitetura limpa de três camadas, usando AWS Lambda, Lakeflow Declarative Pipelines e Databricks Asset Bundles.
A história começa com um problema real: a infraestrutura que sustentava a cobrança de clientes era frágil, não escalável e impossível de testar. Um timeout de API às duas da manhã derrubava o pipeline inteiro. Doze constantes críticas de threshold estavam espalhadas como números mágicos por cinco arquivos diferentes. Ninguém conseguia provar que as fórmulas estavam corretas.
Na segunda sessão, o projeto quase parou. Um bug não documentado no motor DLT: o decorator dp.table em Python, com nomes fully qualified, quebrava a resolução do grafo JVM em pipelines multi-schema. Foram três a quatro horas de debugging. Sete abordagens falharam.
Até que surgiu o Padrão Híbrido SQL+Python: notebooks Python criam views temporárias com dp.view para a lógica complexa, e notebooks SQL registram as tabelas finais com CREATE OR REFRESH. O DLT processa tudo como um único grafo de computação.
O clímax é a validação em escala de produção: 920.676 registros reais de OTel processados simultaneamente pelos dois pipelines, legado e novo. 822 milhões de linhas Silver geradas. O resultado: InfraRating (risco e otimização) com 100% de match exato em 42.640 comparações. Performance de 38 minutos no serverless contra 90 minutos no clássico: 2,3 vezes mais rápido, com dados idênticos.
O novo pipeline encontrou 68 hosts onde o legado encontrava apenas 14. Não é só equivalente: é melhor.
Como foi construído: uma pessoa de engenharia trabalhando com Claude Code e quarenta agentes de IA especializados: lakeflow architect, spark specialist, code reviewer, lambda builder, medallion architect. Seis sessões ao longo de três dias. 1,8 milhão de tokens de raciocínio colaborativo.
Tecnologias: Claude Code, Databricks Lakeflow, Unity Catalog, AWS Lambda, SAM, Databricks Asset Bundles, PySpark, Spark SQL, Auto Loader e Delta Live Tables.
Este episódio foi gerado com NotebookLM a partir de fontes produzidas por agentes de IA especializados. O conteúdo que você ouve é o produto direto da era agêntica em ação.