Python Brasil 2025
25/10/2025
Palco 3
pt-br
Apache Iceberg: Lakehouses de Alta Performance
Intermediário
Transforme seu Data Lake em um Lakehouse eficiente com Apache Iceberg com suporte a transações ACID, PySpark para processamento, Airflow para automação e Athena para consultas rápidas e de baixo custo

Details

Transformar seu Data Lake em um Lakehouse moderno e eficiente é essencial para lidar com grandes volumes de dados. Apache Iceberg resolve desafios críticos enfrentados por Data Lakes tradicionais, como gestão de versões de dados, suporte a transações ACID e integração de dados em múltiplos formatos. Com o PySpark, você pode processar grandes volumes de dados de maneira distribuída, aproveitando a estrutura otimizada do Iceberg para transformações e consultas rápidas. O Airflow permite automatizar workflows, agendando e orquestrando tarefas para atualizar tabelas Iceberg e gerenciar versões de dados de forma eficiente. Além disso, o Athena permite realizar consultas SQL rápidas diretamente nas tabelas do Iceberg armazenadas no S3, sem necessidade de movimentação de dados, garantindo baixo custo e alta performance. Nesta apresentação, você aprenderá como integrar essas ferramentas, criando uma arquitetura escalável e de alto desempenho, aproveitando o potencial do Apache Iceberg para otimizar o processamento e análise de dados em ambientes dinâmicos.