Postgres Big data

Postgres Big Data
trabalhando com bases al´em do 1TB no PostgreSQL
F´abio Telles Rodriguez e Fabr´ızio de Royes Mello
Timbira - A empresa brasileira de PostgreSQL
16 de agosto de 2013

Apresenta¸c˜ao
F´abio Telles Rodrigues
DBA Oracle e PostgreSQL +10 anos
Colaborador Comunidade Brasileira de PostgreSQL
Blog: http://savepoint.blog.br
@telles
Fabr´ızio de Royes Mello
DBA PostgreSQL +10 anos
Colaborador Comunidade Brasileira de PostgreSQL
Colaborador PostgreSQL Global Development Group
Blog: http://fabriziomello.blogspot.com
@fabriziomello

Timbira
http://www.timbira.com.br
A empresa Brasileira de PostgreSQL
Consultoria / Desenvolvimento
Planos de Suporte
Parcerias com Empresas Desenvolvedoras de Software
Treinamentos In-Company e On-Line
Corre¸c˜ao de bugs no PostgreSQL garantida em contrato

Sobre esta apresenta¸cão
esta apresenta¸cão está dispon´ıvel em:
http://www.timbira.com.br/material
esta apresenta¸cão está sob licen¸ca Creative Commons
Atribui¸cão 3.0 Brasil:
http://creativecommons.org/licenses/by/3.0/br

Sobre o que estamos falando?
Figura : Metrô - SP / Esta¸cão Sé

Sobre o que NÃO estamos falando?
Map/Reduce
Hadoop e tecnologias similares
Camada de aplica¸cão
Cluster e Replica¸cão
DW

Sobre o que estamos falando?
Big Data:
É uma buzzword que serve para vender: hardware, licen¸cas,
cursos, livros, etc...
Bases com mais de 1TB;
Tabelas e/ou ´ındices com mais de 100GB;
Consultas com bilhões de registros envolvidos;
Crescimento de vários GBs por dia;
Relatórios e cargas em lote com janelas inviáveis.

Mantra
Em Big Data não existe solu¸cão
ótima, boa ou regular, existe a
”menos pior”!!

Espa¸co em Disco
Imagine uma base de 1TB
20% crescimento ao ano = 1,75TB em 3 anos
Espa¸co para backup = 3,5TB
250GB de archive = 3,75TB
500GB de ´area de manobra = 4,25TB
20% de margem de seguran¸ca = 5,1TB
RAID 1 = 10,2TB

Tablespaces
Dividir os objetos e parti¸cões em diferentes discos RAIDs,
LUNs, etc;
Dados menos acessados podem ficar em discos maiores e mais
lentos;
Dados mais acessados podem ficar em discos mais rápidos
como SSDs;
Dados temporários ou que possam ser reconstru´ıdos podem
ficar em parti¸cões com otimiza¸cão mais agressiva;
Ajustes no otimizador de consultas do Postgres podem ser
feitas individualmente para cada tablespace.

RAID
RAID 10 para os dados (seguran¸ca + velocidade leitura e
escrita)
RAID 5 para dados hist´oricos (velocidade leitura)
RAID 0 para dados tempor´arios (velocidade de leitura e
escrita)

Velocidade de E/S em disco
Utilizar sempre discos confiáveis como SAS e Fibre Channel
O aumento na velocidade dos discos não acompanha a CPU
Uma única consulta pode envolver a centenas de GBs
Gravar em disco com concorrência é lento em complexo
Conseguir discos com um alto IOPS custa realmente caro

Velocidade de I/O
Figura : Trem em Mulan - Paquist˜ao

Particionamento de tabelas
Dividir grandes tabelas e ´ındices em tabelas menores;
Diminui consideravelmente o I/O quando você só precisa dos
dados numa parti¸cão;
Mecanismo de particionamento ainda é pouco refinado no
PostgreSQL e possui muitas restri¸cões;
A modelagem das tabelas particionadas funcionam melhor
com PKs compostas;
As consultas precisam utilizar cláusulas que batem com o
particionamento na cláusula WHERE;
Exigem muitos testes e ajustes para funcionar bem.
Veja palestra ”Chain Saw Massacre”amanhã!!!

E a modelagem?
Utilizar conceito de ”chave mestre”!!
Bancos VARCHAR
Colunas Espertas (multi-propósito)
Restri¸cões de integridade
Chave Natural e Chave Artificial
Problemas com modelagem ruim nunca aparecem em bases
com poucos GBs.
Quando a sua base já possui TBs, os problemas de
modelagem se tornam insolúveis;

Backup
Bases até alguns GBs: pg dump (backup lógico);
Bases até 500GB: pg backup (backup f´ısico);
Bases maiores que 500GB: pg rman (backup f´ısico
incremental) OU snapshot via storage (é caro mas é animal!)

Vacuum
Não rodar o VACUUM significa perder espa¸co em disco e
performance, e em casos cr´ıticos o XID wraparound
Deixar o VACUUM rodar o tempo todo degrada a
performance (ajuste qtd de workers, cost delay, naptime, etc);
Desligar o AUTO VACUUM para cargas em lote;
Ajustar individualmente o VACUUM em todas tabelas
grandes.
Lembre-se: ”Não existe solu¸cão auto-mágica”

Incha¸cos (bloat) Tabelas e Índices
JAMAIS use o VACUUM FULL!! É proibido e ponto final!
(tenta se for macho)
CREATE INDEX CONCLURRENTLY
REINDEX CONCURRENTLY (9.3)
pg repack (fork do pg reorg)

Tunning
Linux
sysctl.conf (shmmax, oomkiller, sem)
limits.conf (nproc, nofile)
PostgreSQL
shared buffers, temp buffers e wal buffers
checkpoint segments
work mem
effective cache size
Ajuste ”Planner Cost Constants”por tablespace

Outros recursos
Índices parciais
Índices funcionais
Visões materializadas
Foreign Data Wrappers
Pool de Conexões (pgbouncer)
Memcache
Um exemplo prático!!

Carga de Dados
usar COPY ao invés de INSERT
Unlogged Tables para dados temporários
desligar autovacuum e ligar depois
remover indices antes e criar depois
remover constraints antes e criar depois
ajustes configura¸cões para sessão ou usuário (temp buffers,
work mem e maintenance work mem)
paralelizar a carga

Expurgo de Dados
Particionamento e DROP TABLE
Usar INSERT ao inv´es de DELETE
CREATE TABLE temp (LIKE original) WITH
(autovacuum enabled = false)
INSERT INTO temp AS SELECT ... WHERE ...
DROP TABLE original CASCADE
ALTER TABLE temp RENAME TO original
CREATE INDEX ...
ALTER TABLE ... ADD CONSTRAINT ...
CREATE TRIGGER ... (se houver)
ANALYZE original
Desligar autovacuum

Escrevendo SQL
Jamais utilize uma fun¸cão em PL para algo que um SQL puro
consegue fazer;
COMMIT a cada X altera¸cões. X > 100 e < 100K;
Se uma consulta retorna mais de 100 registros, reveja a regra
de negócio;
INSERT > INSERT multiplo > PREPARE e EXECUTE >
INSERT ... SELECT > COPY
Aprenda a usar Sub-Queries, Window Functions e Common
Table Expression;
Relatórios pesados devem utilizar visões materializadas.

Testes
Teste as funcionalidades
Teste com volumes de dados o mais realistas poss´ıvel
Teste com carga de concorrˆencia o mais realista poss´ıvel

Monitoramento
Monitore o SO, o PostgreSQL, a aplica¸cão
Acompanhar o crescimento dos objetos
Gere logs que mostrem a opera¸cão e a dura¸cão de cada a¸cão
Gere logs em formatos que possam ser manipulados por
ferramentas automatizadas
Aprenda a configurar o log do PostgreSQL e o PGBadger
Fa¸ca coletas periódicas e armazene tudo em um local central
Crie baselines e compare sempre com elas

Para os DBAs...
Durma bem antes de um novo deploy. Tire uns dias de folga;
N˜ao deixe de tomar cerveja com os amigos...
Pratique exerc´ıcios f´ısicos regularmente!!!

Perguntas
?
F´abio Telles Rodriguez (telles@timbira.com.br)
Fabr´ızio de Royes Mello (fabrizio@timbira.com.br)
http://www.timbira.com.br

Postgres Big data

Apresentações relacionadas

Mais conteúdo relacionado

Postgres Big data