SlideShare uma empresa Scribd logo
Criação de Data Warehouse
em Banco de Dados NoSQL
com Cassandra, Spark e
Python
Leandro Mendes Ferreira
Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um novo
paradigma
• E o Python em toda essa história ?
• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)
Um pouco de Business Intelligence
Data Warehouse
• Meados dos anos 1980
• ETL
• Data Warehouse x Data Mart
• Modelagem Multidimensional
 Desnormalização de dados
 Esquema Estrela
 Fatos e Dimensões
• Motores OLAP
• Banco de Dados Relacionais
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
PROBLEMA
Banco de dados relacionais
não são para dados analíticos
são para dados transacionais
OverView Apache Cassandra
• SGDB NoSQL de família de colunas
• Chave Valor
• Baseado no Dynamo DB e Big Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Apache Cassandra – Alguns
probleminhas
�� Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente
OverView Apache Spark
• Processamento em memória
• Clusterizado
Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
Star Schema Star Table
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
E o Python em toda essa história?
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Obrigado
leandroimail@gmail.com
leandro@biexpresso.com.br

Mais conteúdo relacionado

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

  • 1. Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python Leandro Mendes Ferreira
  • 2. Agenda • Apresentação • Um pouco de Business Intelligence – Data Warehouse • Overview do Apache Cassandra • Overview do Apache Spark • Construindo Data Warehouse em Banco de Dados NoSQL – Um novo paradigma • E o Python em toda essa história ?
  • 3. • Processamento de Dados - FATEC SO • MBA em BI – FIAP • 5 anos trabalhando com BI • 1.5 anos estudando Python • Entusiasta de Big Data (Artigo)
  • 4. Um pouco de Business Intelligence Data Warehouse • Meados dos anos 1980 • ETL • Data Warehouse x Data Mart • Modelagem Multidimensional  Desnormalização de dados  Esquema Estrela  Fatos e Dimensões • Motores OLAP • Banco de Dados Relacionais
  • 6. PROBLEMA Banco de dados relacionais não são para dados analíticos são para dados transacionais
  • 7. OverView Apache Cassandra • SGDB NoSQL de família de colunas • Chave Valor • Baseado no Dynamo DB e Big Table • Clusterizado em Anel • Twitter, o Reddit e o Netflix
  • 9. Apache Cassandra – Alguns probleminhas Ø Não efetua junções (Join) Ø Não busca campos foras da chave Ø Solução é indexação Ø Não garante concorrência Ø Eventualmente Persistente
  • 10. OverView Apache Spark • Processamento em memória • Clusterizado
  • 11. Apache Spark + Apache Cassandra http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
  • 12. Data Warehouse em Banco de Dados NoSQL Um novo paradigma • ELT ao invés de ETL • Data Lake • Normalização zero • Processamento clusterizado ao invés de appliance • Data descovery in memory • Tabela Estrela ou Tabela Visão
  • 13. Data Warehouse em Banco de Dados NoSQL Um novo paradigma Star Schema Star Table
  • 15. E o Python em toda essa história?