Data Warehouse Design: The Good, The Bad, The Ugly

Gute Business Intelligence (BI) ermöglicht es Ihrem Unternehmen, Daten aus zuverlässigen Quellen abzufragen und die Antworten zu nutzen, um einen Wettbewerbsvorteil in Ihrer Branche zu erlangen. Der erste Schritt zu einer effektiven BI ist ein gut konzipiertes Data Warehouse. Unter Data Warehouse-Design versteht man den Prozess der Entwicklung einer Lösung zur Integration von Daten aus verschiedenen Quellen, die analytische Berichte und Datenanalysen unterstützen. Ein schlecht konzipiertes Data Warehouse kann dazu führen, dass ungenaue Quelldaten erfasst und verwendet werden, was sich negativ auf die Produktivität und das Wachstum Ihres Unternehmens auswirkt. Dieser Blog-Beitrag gibt einen Überblick über den Data-Warehouse-Designprozess von der Anforderungserfassung bis zur Implementierung.

Anforderungserfassung

Die Anforderungserfassung ist der erste Schritt des Data-Warehouse-Designprozesses. Das Ziel der Anforderungserfassungsphase ist es, die Kriterien für eine erfolgreiche Implementierung des Data Warehouse zu bestimmen. Die langfristige Geschäftsstrategie einer Organisation sollte ebenso wichtig sein wie die aktuellen geschäftlichen und technischen Anforderungen. Die Anforderungen an die Benutzeranalyse und das Berichtswesen müssen ebenso ermittelt werden wie die Anforderungen an die Hardware, die Entwicklung, das Testen, die Implementierung und die Benutzerschulung.

Wenn die geschäftliche und technische Strategie feststeht, ist der nächste Schritt die Frage, wie das Unternehmen das Data Warehouse sichern und bei einem Systemausfall wiederherstellen wird. Die Entwicklung eines Disaster-Recovery-Plans während der Anforderungserhebung stellt sicher, dass das Unternehmen auf direkte und indirekte Bedrohungen des Data Warehouse schnell reagieren kann.

Einrichtung der physischen Umgebung

Nachdem die geschäftlichen Anforderungen festgelegt wurden, ist der nächste Schritt die Bestimmung der physischen Umgebung für das Data Warehouse. Zumindest sollten getrennte physische Anwendungs- und Datenbankserver sowie getrennte ETL/ELT-, OLAP-, Cube- und Berichtsprozesse für Entwicklung, Test und Produktion eingerichtet werden. Durch den Aufbau getrennter physischer Umgebungen wird sichergestellt, dass alle Änderungen getestet werden können, bevor sie in die Produktion überführt werden, dass Entwicklung und Tests ohne Unterbrechung der Produktionsumgebung durchgeführt werden können und dass das IT-Personal im Falle eines Verdachts auf Datenintegrität das Problem untersuchen kann, ohne die Produktionsumgebung zu beeinträchtigen.

Datenmodellierung

Nachdem die Anforderungserfassung und die physischen Umgebungen definiert wurden, muss im nächsten Schritt festgelegt werden, wie auf die Datenstrukturen zugegriffen wird, wie sie verbunden, verarbeitet und im Data Warehouse gespeichert werden. Dieser Prozess wird als Datenmodellierung bezeichnet. In dieser Phase des Data-Warehouse-Designs werden die Datenquellen identifiziert. Für den Erfolg des Projekts ist es von entscheidender Bedeutung zu wissen, wo sich die ursprünglichen Daten befinden und – was ebenso wichtig ist – ob diese Daten verfügbar sind. Sobald die Datenquellen identifiziert sind, kann das Data-Warehouse-Team mit dem Aufbau der logischen und physischen Strukturen auf der Grundlage der festgelegten Anforderungen beginnen.

ETL

Der ETL-Prozess nimmt die meiste Zeit für die Entwicklung in Anspruch und verschlingt den größten Teil der Implementierung. Die Identifizierung von Datenquellen während der Datenmodellierungsphase kann dazu beitragen, die ETL-Entwicklungszeit zu reduzieren. Das Ziel von ETL ist es, optimierte Ladegeschwindigkeiten ohne Qualitätseinbußen zu erreichen. Ein Versagen in dieser Phase des Prozesses kann zu einer schlechten Leistung des ETL-Prozesses und des gesamten Data-Warehouse-Systems führen.

OLAP Cube Design

On-Line Analytical Processing (OLAP) ist die Antwortmaschine, die die Infrastruktur für Ad-hoc-Benutzerabfragen und multidimensionale Analysen bereitstellt. Die Spezifikation des OLAP-Designs sollte von denjenigen stammen, die die Daten abfragen werden. Die Dokumentation, die die OLAP-Würfel-Dimensionen und -Maße spezifiziert, sollte zu Beginn des Data-Warehouse-Designprozesses eingeholt werden. Zu den drei kritischen Elementen des OLAP-Designs gehören:

  • Gruppierungsmaße – numerische Werte, die Sie analysieren möchten, wie z. B. Umsatz, Anzahl der Kunden, Anzahl der Produkte, die Kunden kaufen, oder durchschnittlicher Kaufbetrag.
  • Dimension – wo die Kennzahlen für die Analyse gespeichert werden, z. B. geografische Region, Monat oder Quartal.
  • Granularität – die niedrigste Detailebene, die Sie in den OLAP-Datensatz aufnehmen möchten.

Stellen Sie während der Entwicklung sicher, dass der OLAP-Würfelprozess optimiert ist. Ein Data Warehouse ist in der Regel kein nächtlicher Prioritätslauf, und sobald das Data Warehouse aktualisiert wurde, bleibt nur wenig Zeit für die Aktualisierung des OLAP-Würfels. Werden beide nicht rechtzeitig aktualisiert, kann dies zu einer geringeren Systemleistung führen. Wenn man sich die Zeit nimmt, den effizientesten OLAP-Cube-Generierungspfad zu erkunden, kann man Leistungsprobleme nach der Inbetriebnahme des Data Warehouse verringern oder verhindern.

Front-End-Entwicklung

Zu diesem Zeitpunkt sind die Geschäftsanforderungen erfasst, die physische Umgebung vollständig, das Datenmodell festgelegt und der ETL-Prozess dokumentiert. Der nächste Schritt besteht darin, sich damit zu befassen, wie die Benutzer auf das Data Warehouse zugreifen werden. Bei der Front-End-Entwicklung geht es darum, wie die Benutzer zu Analysezwecken auf die Daten zugreifen und Berichte ausführen können. Es gibt viele Möglichkeiten, wie z. B. die Entwicklung eines eigenen Frontends oder der Kauf eines Standardprodukts. In jedem Fall sind einige Punkte zu beachten, um den Endbenutzern ein optimales Erlebnis zu bieten.

Der sichere Zugriff auf die Daten von jedem Gerät aus – Desktop, Laptop, Tablet oder Telefon – sollte im Vordergrund stehen. Das Tool sollte es Ihrem Entwicklungsteam ermöglichen, die Backend-Struktur zu ändern, wenn sich die Anforderungen an die Berichterstattung auf Unternehmensebene ändern. Außerdem sollte es eine grafische Benutzeroberfläche (GUI) bieten, mit der die Benutzer ihre Berichte nach Bedarf anpassen können. Die OLAP-Engine und die Daten können noch so gut sein, wenn die Benutzer die Daten nicht nutzen können, wird das Data Warehouse zu einem teuren und nutzlosen Datenspeicher.

Berichtsentwicklung

Für die meisten Endbenutzer besteht der einzige Kontakt mit dem Data Warehouse in den von ihnen erstellten Berichten. Wie im Abschnitt über die Front-End-Entwicklung erwähnt, ist die Fähigkeit der Benutzer, ihre Berichtskriterien schnell und effizient auszuwählen, ein wesentliches Merkmal für die Erstellung von Data-Warehouse-Berichten. Ein weiterer Aspekt sind die Lieferoptionen. Neben dem Empfang von Berichten über eine sichere Weboberfläche können Benutzer auch Berichte als E-Mail-Anhang oder als Tabellenkalkulation benötigen. Die Kontrolle des Datenflusses und der Sichtbarkeit von Daten ist ein weiterer Aspekt der Berichtsentwicklung, der berücksichtigt werden muss. Die Einrichtung von Benutzergruppen mit Zugang zu bestimmten Datensegmenten sollte Datensicherheit und -kontrolle gewährleisten. Die Berichterstattung wird und sollte sich auch nach der anfänglichen Implementierung ändern. Ein gut konzipiertes Data Warehouse sollte in der Lage sein, die neuen Berichtsanforderungen mit geringen oder gar keinen Änderungen am Data Warehouse-System zu bewältigen.

Performance Tuning

Weiter oben in diesem Beitrag wurde empfohlen, getrennte Entwicklungs- und Testumgebungen zu schaffen. Auf diese Weise können Unternehmen ein Systemleistungstuning für ETL, Abfrageverarbeitung und Berichtsbereitstellung durchführen, ohne die laufende Produktionsumgebung zu unterbrechen. Stellen Sie sicher, dass die Entwicklungs- und Testumgebungen – Hardware und Anwendungen – die Produktionsumgebung nachahmen, damit die in der Entwicklung erstellten Leistungsverbesserungen auch in der Live-Produktionsumgebung funktionieren.

Testen

Nachdem das Data-Warehouse-System entsprechend den Geschäftsanforderungen entwickelt wurde, besteht der nächste Schritt darin, es zu testen. Das Testen oder die Qualitätssicherung ist ein Schritt, der nicht übersprungen werden sollte, da er es dem Data-Warehouse-Team ermöglicht, Probleme vor dem ersten Rollout aufzudecken und zu beheben. Wird die Testphase nicht abgeschlossen, kann dies zu Verzögerungen bei der Implementierung oder zum Abbruch des Data-Warehouse-Projekts führen.

Implementierung

Zeit für die Inbetriebnahme. Die Entscheidung, ob das System allen Benutzern auf einmal zur Verfügung gestellt wird oder ob eine gestaffelte Freigabe erfolgt, hängt von der Anzahl der Endbenutzer und der Art und Weise ab, wie diese auf das Data-Warehouse-System zugreifen werden. Ein weiterer wichtiger Aspekt jeder Systemimplementierung, der oft übersehen wird, ist die Schulung der Endbenutzer. Ganz gleich, wie „intuitiv“ das Data-Warehouse-Team und die Entwickler die grafische Benutzeroberfläche finden, wenn die tatsächlichen Endbenutzer das Tool schwierig zu bedienen finden oder die Vorteile der Verwendung des Data Warehouse für Berichte und Analysen nicht verstehen, werden sie sich nicht darauf einlassen.

Understanding Best Practices for Data Warehouse Design

Data-Warehouse-Design ist ein zeitaufwändiges und anspruchsvolles Unterfangen. Bei jedem Schritt gibt es gute, schlechte und hässliche Aspekte zu entdecken. Wenn sich ein Unternehmen jedoch die Zeit nimmt, zu Beginn fundierte Anforderungen zu entwickeln, werden die nachfolgenden Schritte im Prozess logischer ablaufen und zu einer erfolgreichen Data Warehouse-Implementierung führen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.