Mais conteúdo relacionado
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
- 1. Criação de Data Warehouse
em Banco de Dados NoSQL
com Cassandra, Spark e
Python
Leandro Mendes Ferreira
- 2. Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um novo
paradigma
• E o Python em toda essa história ?
- 3. • Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)
- 4. Um pouco de Business Intelligence
Data Warehouse
• Meados dos anos 1980
• ETL
• Data Warehouse x Data Mart
• Modelagem Multidimensional
Desnormalização de dados
Esquema Estrela
Fatos e Dimensões
• Motores OLAP
• Banco de Dados Relacionais
- 7. OverView Apache Cassandra
• SGDB NoSQL de família de colunas
• Chave Valor
• Baseado no Dynamo DB e Big Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix
- 9. Apache Cassandra – Alguns
probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente
- 11. Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
- 12. Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão