Conception d’un entrepôt de données : Le bon, le mauvais, le laid

Une bonne Business Intelligence (BI), permet à votre organisation d’interroger des données obtenues à partir de sources fiables et d’utiliser les réponses pour obtenir un avantage concurrentiel dans votre secteur. La première étape pour obtenir une BI efficace est un entrepôt bien conçu. La conception d’un entrepôt de données est le processus d’élaboration d’une solution permettant d’intégrer des données provenant de sources multiples et prenant en charge le reporting analytique et l’analyse des données. Un entrepôt de données mal conçu peut entraîner l’acquisition et l’utilisation de données sources inexactes qui affectent négativement la productivité et la croissance de votre organisation. Ce billet de blog jettera un regard de haut niveau sur le processus de conception d’entrepôt de données, de la collecte des exigences à la mise en œuvre.

Recueil des exigences

Le recueil des exigences est la première étape du processus de conception d’entrepôt de données. L’objectif de la phase de collecte des exigences est de déterminer les critères de réussite de la mise en œuvre de l’entrepôt de données. La stratégie commerciale à long terme d’une organisation doit être tout aussi importante que les exigences commerciales et techniques actuelles. Les exigences d’analyse et de rapport des utilisateurs doivent être identifiées ainsi que le matériel, le développement, les tests, la mise en œuvre et la formation des utilisateurs.

Une fois que la stratégie commerciale et technique a été décidée, l’étape suivante consiste à aborder la façon dont l’organisation sauvegardera l’entrepôt de données et comment elle se rétablira si le système échoue. Le développement d’un plan de reprise après sinistre tout en recueillant les exigences, garantit que l’organisation est prête à répondre rapidement aux menaces directes et indirectes pour l’entrepôt de données.

Mise en place de l’environnement physique

Une fois que les exigences commerciales sont établies, l’étape suivante consiste à déterminer l’environnement physique pour l’entrepôt de données. Au minimum, il devrait y avoir des serveurs d’applications et de bases de données physiques distincts, ainsi que des processus ETL/ELT, OLAP, cube et de reporting distincts mis en place pour le développement, les tests et la production. La construction d’environnements physiques distincts garantit que tous les changements peuvent être testés avant de les déplacer vers la production, le développement et les tests peuvent avoir lieu sans arrêter l’environnement de production, et si l’intégrité des données devient suspecte, le personnel informatique peut enquêter sur le problème sans avoir un impact négatif sur l’environnement de production.

Modélisation des données

Une fois que le recueil des besoins et les environnements physiques ont été définis, l’étape suivante consiste à définir comment les structures de données seront accessibles, connectées, traitées et stockées dans l’entrepôt de données. Ce processus est connu sous le nom de modélisation des données. C’est au cours de cette phase de conception de l’entrepôt de données que les sources de données sont identifiées. Savoir où résident les données d’origine et, ce qui est tout aussi important, la disponibilité de ces données, est crucial pour le succès du projet. Une fois que les sources de données ont été identifiées, l’équipe de l’entrepôt de données peut commencer à construire les structures logiques et physiques en fonction des exigences établies.

ETL

Le processus ETL prend le plus de temps à développer et consomme la majorité de la mise en œuvre. L’identification des sources de données pendant la phase de modélisation des données peut aider à réduire le temps de développement de l’ETL. L’objectif de l’ETL est de fournir des vitesses de chargement optimisées sans sacrifier la qualité. Un échec à ce stade du processus peut conduire à une mauvaise performance du processus ETL et de l’ensemble du système d’entrepôt de données.

Conception de cubes OLAP

Le traitement analytique en ligne (OLAP) est le moteur de réponse qui fournit l’infrastructure pour les requêtes ad hoc des utilisateurs et l’analyse multidimensionnelle. La spécification de la conception OLAP doit provenir de ceux qui vont interroger les données. La documentation spécifiant les dimensions et les mesures du cube OLAP doit être obtenue au début du processus de conception de l’entrepôt de données. Les trois éléments critiques de la conception OLAP comprennent :

  • Mesures de regroupement – valeurs numériques que vous voulez analyser, comme le revenu, le nombre de clients, le nombre de produits achetés par les clients ou le montant moyen des achats.
  • Dimension – où les mesures sont stockées pour l’analyse, comme la région géographique, le mois ou le trimestre.
  • Granularité – le plus bas niveau de détail que vous voulez inclure dans l’ensemble de données OLAP.

Pendant le développement, assurez-vous que le processus de cube OLAP est optimisé. Un entrepôt de données n’est généralement pas une exécution prioritaire de nuit, et une fois que l’entrepôt de données a été mis à jour, il reste peu de temps pour mettre à jour le cube OLAP. Le fait de ne pas mettre à jour l’un ou l’autre en temps voulu pourrait entraîner une baisse des performances du système. Prendre le temps d’explorer le chemin de génération de cube OLAP le plus efficace peut réduire ou prévenir les problèmes de performance après la mise en service de l’entrepôt de données.

Développement frontal

À ce stade, les exigences commerciales ont été capturées, l’environnement physique terminé, le modèle de données décidé et le processus ETL a été documenté. L’étape suivante consiste à travailler sur la façon dont les utilisateurs accéderont à l’entrepôt de données. Le développement du front-end est la manière dont les utilisateurs accéderont aux données pour les analyser et exécuter des rapports. De nombreuses options sont disponibles, notamment la création de votre front-end en interne ou l’achat d’un produit standard. Quoi qu’il en soit, il y a quelques considérations à garder à l’esprit pour assurer la meilleure expérience aux utilisateurs finaux.

L’accès sécurisé aux données à partir de n’importe quel appareil – ordinateur de bureau, ordinateur portable, tablette ou téléphone devrait être la première considération. L’outil doit permettre à votre équipe de développement de modifier la structure backend au fur et à mesure que les exigences de reporting au niveau de l’entreprise évoluent. Il doit également fournir une interface utilisateur graphique (GUI) qui permet aux utilisateurs de personnaliser leurs rapports selon leurs besoins. Le moteur OLAP et les données peuvent être les meilleurs de leur catégorie, mais si les utilisateurs ne sont pas en mesure d’utiliser les données, l’entrepôt de données devient un dépôt de données coûteux et inutile.

Développement de rapports

Pour la plupart des utilisateurs finaux, le seul contact qu’ils ont avec l’entrepôt de données est à travers les rapports qu’ils génèrent. Comme mentionné dans la section sur le développement du front-end, la capacité des utilisateurs à sélectionner rapidement et efficacement leurs critères de rapport est une caractéristique essentielle pour la génération de rapports d’entrepôt de données. Les options de livraison sont une autre considération. En plus de recevoir les rapports par le biais d’une interface web sécurisée, les utilisateurs peuvent souhaiter ou avoir besoin de rapports envoyés sous forme de pièce jointe à un courriel ou de feuille de calcul. Le contrôle du flux et de la visibilité des données est un autre aspect du développement de rapports qui doit être pris en compte. La création de groupes d’utilisateurs ayant accès à des segments de données spécifiques devrait assurer la sécurité et le contrôle des données. Le reporting va et doit évoluer bien après la mise en œuvre initiale. Un entrepôt de données bien conçu devrait être en mesure de traiter les nouvelles demandes de rapports avec peu ou pas de modification du système d’entrepôt de données.

Tuning des performances

Plus tôt dans ce post, la recommandation était de créer des environnements de développement et de test séparés. Faire cela permet aux organisations de fournir un tuning des performances du système sur l’ETL, le traitement des requêtes et la livraison des rapports sans interrompre l’environnement de production actuel. Assurez-vous que les environnements de développement et de test – matériel et applications – imitent l’environnement de production afin que les améliorations de performance créées dans le développement fonctionnent dans l’environnement de production en direct.

Testing

Une fois que le système d’entrepôt de données a été développé selon les exigences de l’entreprise, l’étape suivante consiste à le tester. Les tests, ou l’assurance qualité, sont une étape à ne pas sauter car ils permettront à l’équipe de l’entrepôt de données d’exposer et de résoudre les problèmes avant le déploiement initial. Ne pas terminer la phase de test pourrait entraîner des retards de mise en œuvre ou la fin du projet d’entrepôt de données.

Mise en œuvre

Temps de mise en service. La décision de mettre le système à la disposition de tous en une seule fois ou d’effectuer une mise en service échelonnée, dépendra du nombre d’utilisateurs finaux et de la façon dont ils accéderont au système d’entrepôt de données. Un autre aspect important de la mise en œuvre d’un système, souvent négligé, est la formation des utilisateurs finaux. Peu importe à quel point l’équipe et les développeurs de l’entrepôt de données pensent que l’interface graphique est « intuitive », si les utilisateurs finaux réels trouvent l’outil difficile à utiliser ou ne comprennent pas les avantages de l’utilisation de l’entrepôt de données pour le reporting et l’analyse, ils ne s’engageront pas.

Comprendre les meilleures pratiques pour la conception d’un entrepôt de données

La conception d’un entrepôt de données est une entreprise longue et difficile. Il y aura des aspects bons, mauvais et laids trouvés à chaque étape. Cependant, si une organisation prend le temps de développer des exigences solides au début, les étapes ultérieures du processus se dérouleront plus logiquement et mèneront à une mise en œuvre réussie de l’entrepôt de données.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.