Engenharia de Dados [Cast]
Esse podcast tem como principal objetivo esclarecer as mais diversas faces de Big Data. Hoje em dia a quantidade de produtos e tecnologias disponíveis no mercado é imensa e saber o que usar e quando irá posicionar qualquer engenheiro de dados no topo da cadeia alimentar. Iremos apresentar diversas discussões calorosas além de explicações em detalhes sobre as mais diversas necessidades para se tornar um profissional diferenciado nessa área.
Engenharia de Dados [Cast]
Databricks como Plataforma de Lakehouse para Times de Dados
•
Luan Moreno, Mateus Oliveira & Rodrigo Oliveira
•
Season 3
•
Episode 4
Nesse episódio Luan Moreno & Mateus Oliveira entrevistam Rodrigo Oliveira, atualmente como Arquiteto de Solução na Databricks.
Databricks é uma plataforma de linguagem unificada que tem como motor de processamento o Apache Spark, possibilitando o processamento de dados em batch e streaming em um serviço gerenciado presente nas principais nuvens (AWS, Azure e GCP).
Além disto, o Databricks proporciona:
- Experiência de Notebook Avançada
- Workspace para Times de Dados
- Criação de Clusters para o seu Use-Case
- Plataforma de Desenvolvimento de Pipelines
Nesse bate papo foi feito a abordagem dos seguintes temas:
- Apache Spark (Open-Source)
- Delta Lake (Open-Source)
- Data Lakehouse
- Unity Catalog
- Workflows
- Delta Live Tables (DLT)
- Databricks SQL
- Snowflake vs. Databricks
Entenda melhor como utilizar o Databricks em um ambiente corporativo para colaboração entre os times de dados, além de uma solução de fácil desenvolvimento e entrega de valor para sua empresa, se tornando cada vez mais uma plataforma de dados.
Existe uma crescente no mundo dos times de dados, algo mais unificado, faz sentido esse movimento?
Existe uma crescente no mundo dos times de dados, algo mais unificado, faz sentido esse movimento?
Existe uma crescente no mundo dos times de dados, algo mais unificado, faz sentido esse movimento?
Por que o Apache Spark é tão famoso no meio de engenharia de dados? Quais problemas ele resolve?
-Quais use case não devemos usar Apache Spark ou são melhores resolvidos com outras tecnologias?
hoje no mercado profissionais, as certificações da Databricks são bem vistas além de diferenciais para certas oportunidades?