Good Business Intelligence (BI), permite que sua organização consulte dados obtidos de fontes confiáveis e use as respostas para obter uma vantagem competitiva em sua indústria. O primeiro passo para alcançar um BI eficaz é um armazém bem desenhado. O design do armazém de dados é o processo de construção de uma solução para integrar dados de múltiplas fontes que suportam relatórios analíticos e análise de dados. Um data warehouse mal desenhado pode resultar na aquisição e utilização de dados de fontes imprecisas que afectam negativamente a produtividade e o crescimento da sua organização. Este post do blog dará uma olhada de alto nível no processo de projeto do data warehouse desde a coleta de requisitos até a implementação.
Requisitos de coleta
Requisitos de coleta é o passo um do processo de projeto do data warehouse. O objetivo da fase de levantamento de requisitos é determinar os critérios para uma implementação bem sucedida do armazenamento de dados. A estratégia empresarial de longo prazo de uma organização deve ser tão importante quanto os requisitos comerciais e técnicos atuais. Os requisitos de análise e relatórios dos usuários devem ser identificados, assim como hardware, desenvolvimento, testes, implementação e treinamento dos usuários.
Após a estratégia técnica e de negócios ter sido decidida, o próximo passo é abordar como a organização fará backup do data warehouse e como ele se recuperará se o sistema falhar. O desenvolvimento de um plano de recuperação de desastres durante a coleta de requisitos garante que a organização esteja preparada para responder rapidamente às ameaças diretas e indiretas ao data warehouse.
Configuração do ambiente físico
A partir do momento em que os requisitos de negócios forem definidos, o próximo passo é determinar o ambiente físico para o data warehouse. No mínimo, deve haver servidores separados de aplicações físicas e banco de dados, bem como processos separados de ETL/ELT, OLAP, cubo e relatórios configurados para desenvolvimento, teste e produção. Construir ambientes físicos separados garante que todas as mudanças possam ser testadas antes de movê-las para produção, desenvolvimento e testes podem ocorrer sem parar o ambiente de produção, e se a integridade dos dados se tornar suspeita, a equipe de TI pode investigar o problema sem afetar negativamente o ambiente de produção.
Modelagem de dados
Após a coleta de requisitos e ambientes físicos terem sido definidos, o próximo passo é definir como as estruturas de dados serão acessadas, conectadas, processadas e armazenadas no data warehouse. Este processo é conhecido como modelagem de dados. Durante esta fase de projeto do data warehouse, é onde as fontes de dados são identificadas. Saber onde residem os dados originais e, igualmente importante, a disponibilidade desses dados, é crucial para o sucesso do projeto. Uma vez identificadas as fontes de dados, a equipe do data warehouse pode começar a construir as estruturas lógicas e físicas com base nos requisitos estabelecidos.
ETL
O processo ETL leva o maior tempo para se desenvolver e consumir a maior parte da implementação. A identificação de fontes de dados durante a fase de modelagem de dados pode ajudar a reduzir o tempo de desenvolvimento da ETL. O objetivo da ETL é fornecer velocidades de carga otimizadas sem sacrificar a qualidade. Falhas nesta fase do processo podem levar a um mau desempenho do processo ETL e de todo o sistema de data warehouse.
OLAP Cube Design
On-Line Analytical Processing (OLAP) é o motor de resposta que fornece a infra-estrutura para consulta ad-hoc do usuário e análise multidimensional. A especificação do design OLAP deve vir daqueles que irão consultar os dados. A documentação especificando as dimensões e medidas do cubo OLAP deve ser obtida durante o início do processo de projeto do data warehouse. Os três elementos críticos do design OLAP incluem:
- Medidas de agrupamento – valores numéricos que você deseja analisar, tais como receita, número de clientes, quantos produtos os clientes compram, ou o valor médio de compra.
- Dimensão – onde as medidas são armazenadas para análise como região geográfica, mês ou trimestre.
- Granularidade – o menor nível de detalhe que você deseja incluir no conjunto de dados OLAP.
Durante o desenvolvimento, certifique-se de que o processo do cubo OLAP esteja otimizado. Um data warehouse normalmente não é uma execução com prioridade noturna e, uma vez que o data warehouse foi atualizado, resta pouco tempo para atualizar o cubo OLAP. Não atualizar nenhum dos dois em tempo hábil pode levar a uma redução do desempenho do sistema. Levar tempo para explorar o caminho mais eficiente de geração de cubos OLAP pode reduzir ou prevenir problemas de desempenho depois que o data warehouse entrar em operação.
Front End Development
Neste ponto, os requisitos do negócio foram capturados, o ambiente físico completo, o modelo de dados decidido e o processo ETL foi documentado. O próximo passo é trabalhar em como os usuários acessarão o data warehouse. O desenvolvimento frontal é como os usuários irão acessar os dados para análise e execução de relatórios. Há muitas opções disponíveis, incluindo construir seu front end internamente ou comprar um produto fora da prateleira. De qualquer forma, há algumas considerações a ter em mente para garantir a melhor experiência para os usuários finais.
Acesso seguro aos dados de qualquer dispositivo – desktop, laptop, tablet ou telefone deve ser a principal consideração. A ferramenta deve permitir que sua equipe de desenvolvimento modifique a estrutura backend à medida que os requisitos de relatórios em nível corporativo mudam. Deve também fornecer uma Interface Gráfica de Usuário (GUI) que permite aos usuários personalizar seus relatórios conforme necessário. O motor OLAP e os dados podem ser os melhores da classe, mas se os usuários não forem capazes de usar os dados, o data warehouse se torna um repositório de dados caro e inútil.
Report Development
Para a maioria dos usuários finais, o único contato que eles têm com o data warehouse é através dos relatórios que eles geram. Como mencionado na seção de desenvolvimento front end, a capacidade dos usuários de selecionar seus critérios de relatório de forma rápida e eficiente é uma característica essencial para a geração de relatórios do data warehouse. As opções de entrega são outra consideração. Além de receber relatórios através de uma interface web segura, os usuários podem querer ou precisar de relatórios enviados como um anexo de e-mail, ou planilha eletrônica. Controlar o fluxo e a visibilidade dos dados é outro aspecto do desenvolvimento de relatórios que deve ser abordado. Desenvolver grupos de usuários com acesso a segmentos de dados específicos deve fornecer segurança e controle de dados. Os relatórios serão e devem mudar bem após a implementação inicial. Um data warehouse bem projetado deve ser capaz de lidar com as novas solicitações de relatórios com pouca ou nenhuma modificação no sistema de data warehouse.
Performance Tuning
Earlier neste post, a recomendação foi criar ambientes separados de desenvolvimento e testes. Isso permite que as organizações forneçam ajustes de desempenho do sistema em ETL, processamento de consultas e entrega de relatórios sem interromper o ambiente de produção atual. Certifique-se que os ambientes de desenvolvimento e testes – hardware e aplicações – imitem o ambiente de produção para que as melhorias de performance criadas no desenvolvimento funcionem no ambiente de produção ao vivo.
Testing
Após o sistema de armazenamento de dados ter sido desenvolvido de acordo com os requisitos do negócio, o próximo passo é testá-lo. O teste, ou garantia de qualidade, é um passo que não deve ser pulado porque permitirá que a equipe do data warehouse exponha e resolva problemas antes da implementação inicial. A não conclusão da fase de testes pode levar a atrasos na implementação ou ao término do projeto do data warehouse.
Implantação
Tempo para entrar em operação. A decisão de tornar o sistema disponível para todos de uma vez ou realizar um lançamento escalonado, dependerá do número de usuários finais e de como eles acessarão o sistema de armazenamento de dados. Outro aspecto importante de qualquer implementação do sistema e que muitas vezes é ignorado, é o treinamento do usuário final. Não importa o quão “intuitiva” a equipe do data warehouse e os desenvolvedores pensam que a GUI é, se os usuários finais reais acharem a ferramenta difícil de usar, ou não entenderem os benefícios de usar o data warehouse para relatórios e análises, eles não se envolverão.
A compreensão das Melhores Práticas para Design de Data Warehouse
O design do data warehouse é um esforço demorado e desafiador. Haverá aspectos bons, ruins e feios encontrados em cada passo. Entretanto, se uma organização leva tempo para desenvolver requisitos sólidos no início, os passos subsequentes no processo fluirão mais logicamente e levarão a uma implementação bem sucedida do data warehouse.