Data Warehouse Design: The Good, The Bad, The Ugly

Dobra analityka biznesowa (BI) pozwala organizacji na wyszukiwanie danych z zaufanych źródeł i wykorzystanie odpowiedzi w celu uzyskania przewagi konkurencyjnej w branży. Pierwszym krokiem do osiągnięcia efektywnego BI jest dobrze zaprojektowana hurtownia danych. Projektowanie hurtowni danych to proces budowania rozwiązania integrującego dane z wielu źródeł, które wspiera raportowanie analityczne i analizę danych. Źle zaprojektowana hurtownia danych może skutkować pozyskiwaniem i wykorzystywaniem niedokładnych danych źródłowych, które negatywnie wpływają na produktywność i rozwój organizacji. W tym wpisie na blogu przyjrzymy się na wysokim poziomie procesowi projektowania hurtowni danych od zbierania wymagań do wdrożenia.

Zbieranie wymagań

Zbieranie wymagań jest pierwszym krokiem procesu projektowania hurtowni danych. Celem fazy zbierania wymagań jest określenie kryteriów udanego wdrożenia hurtowni danych. Długoterminowa strategia biznesowa organizacji powinna być tak samo ważna jak bieżące wymagania biznesowe i techniczne. Wymagania dotyczące analizy użytkownika i raportowania muszą być zidentyfikowane, jak również sprzęt, rozwój, testowanie, wdrożenie i szkolenie użytkowników.

Po tym, jak strategia biznesowa i techniczna została podjęta, następnym krokiem jest zajęcie się tym, jak organizacja będzie tworzyć kopie zapasowe hurtowni danych i jak będzie odzyskać, jeśli system ulegnie awarii. Opracowanie planu odzyskiwania danych po awarii podczas zbierania wymagań zapewnia, że organizacja jest przygotowana do szybkiego reagowania na bezpośrednie i pośrednie zagrożenia dla hurtowni danych.

Konfiguracja środowiska fizycznego

Po ustaleniu wymagań biznesowych kolejnym krokiem jest określenie środowiska fizycznego dla hurtowni danych. Jako minimum, powinny istnieć oddzielne fizyczne serwery aplikacji i baz danych, jak również oddzielne procesy ETL/ELT, OLAP, cube i raportowania ustawione dla rozwoju, testowania i produkcji. Budowanie oddzielnych środowisk fizycznych zapewnia, że wszystkie zmiany mogą być testowane przed przeniesieniem ich na produkcję, rozwój i testowanie może odbywać się bez zatrzymywania środowiska produkcyjnego, a jeśli integralność danych staje się podejrzana, personel IT może zbadać problem bez negatywnego wpływu na środowisko produkcyjne.

Modelowanie danych

Po zebraniu wymagań i zdefiniowaniu środowisk fizycznych, następnym krokiem jest określenie, w jaki sposób struktury danych będą dostępne, połączone, przetwarzane i przechowywane w hurtowni danych. Proces ten znany jest jako modelowanie danych. W tej fazie projektowania hurtowni danych identyfikowane są źródła danych. Wiedza o tym, gdzie znajdują się oryginalne dane i co równie ważne, jaka jest ich dostępność, jest kluczowa dla powodzenia projektu. Po zidentyfikowaniu źródeł danych zespół hurtowni danych może rozpocząć budowę struktur logicznych i fizycznych w oparciu o ustalone wymagania.

ETL

Proces ETL zabiera najwięcej czasu na opracowanie i pochłania większość wdrożenia. Identyfikacja źródeł danych podczas fazy modelowania danych może pomóc w skróceniu czasu opracowywania ETL. Celem ETL jest zapewnienie zoptymalizowanej szybkości ładowania bez utraty jakości. Niepowodzenie na tym etapie procesu może prowadzić do słabej wydajności procesu ETL i całego systemu hurtowni danych.

Projektowanie kostek OLAP

On-Line Analytical Processing (OLAP) to silnik odpowiedzi, który zapewnia infrastrukturę dla zapytań ad-hoc użytkownika i analizy wielowymiarowej. Specyfikacja projektu OLAP powinna pochodzić od tych, którzy będą odpytywać dane. Dokumentacja określająca wymiary i miary kostki OLAP powinna być uzyskana na początku procesu projektowania hurtowni danych. Trzy krytyczne elementy projektu OLAP obejmują:

  • Miary grupujące – wartości liczbowe, które mają być analizowane, takie jak przychody, liczba klientów, liczba produktów zakupionych przez klientów lub średnia kwota zakupu.
  • Wymiar – miejsce, w którym przechowywane są miary do analizy, takie jak region geograficzny, miesiąc lub kwartał.
  • Granularność – najniższy poziom szczegółowości, który chcesz zawrzeć w zbiorze danych OLAP.

Podczas opracowywania upewnij się, że proces kostki OLAP jest zoptymalizowany. Hurtownia danych zazwyczaj nie jest nocnym priorytetowym uruchomieniem, a po aktualizacji hurtowni danych pozostaje niewiele czasu na aktualizację kostki OLAP. Brak aktualizacji którejkolwiek z nich w odpowiednim czasie może prowadzić do obniżenia wydajności systemu. Poświęcenie czasu na zbadanie najbardziej efektywnej ścieżki generowania kostki OLAP może zmniejszyć lub zapobiec problemom z wydajnością po uruchomieniu hurtowni danych.

Rozwój Front End

W tym momencie wymagania biznesowe zostały uchwycone, środowisko fizyczne ukończone, model danych ustalony, a proces ETL udokumentowany. Następnym krokiem jest praca nad tym, w jaki sposób użytkownicy będą mieli dostęp do hurtowni danych. Front end development to sposób, w jaki użytkownicy będą mieli dostęp do danych w celu ich analizy i tworzenia raportów. Dostępnych jest wiele opcji, w tym budowa frontendu we własnym zakresie lub zakup produktu z półki. Tak czy inaczej, istnieje kilka kwestii, o których należy pamiętać, aby zapewnić najlepsze doświadczenie dla użytkowników końcowych.

Bezpieczny dostęp do danych z dowolnego urządzenia – komputer stacjonarny, laptop, tablet lub telefon powinien być głównym celem. Narzędzie powinno umożliwiać zespołowi programistów modyfikowanie struktury backendu w miarę zmian wymagań dotyczących raportowania na poziomie przedsiębiorstwa. Powinno również zapewniać graficzny interfejs użytkownika (GUI), który umożliwia użytkownikom dostosowanie raportów do własnych potrzeb. Silnik OLAP i dane mogą być najlepsze w swojej klasie, ale jeśli użytkownicy nie są w stanie korzystać z danych, hurtownia danych staje się drogim i bezużytecznym repozytorium danych.

Report Development

Dla większości użytkowników końcowych jedynym kontaktem, jaki mają z hurtownią danych, są generowane przez nich raporty. Jak wspomniano w części dotyczącej rozwoju frontendu, zdolność użytkowników do szybkiego i efektywnego wyboru kryteriów raportów jest istotną cechą generowania raportów z hurtowni danych. Kolejną kwestią są opcje dostarczania. Oprócz otrzymywania raportów poprzez bezpieczny interfejs WWW, użytkownicy mogą chcieć lub potrzebować raportów wysyłanych jako załącznik do wiadomości e-mail lub arkusz kalkulacyjny. Kontrola przepływu i widoczności danych to kolejny aspekt tworzenia raportów, który musi zostać uwzględniony. Stworzenie grup użytkowników z dostępem do określonych segmentów danych powinno zapewnić bezpieczeństwo i kontrolę danych. Raportowanie będzie i powinno się zmieniać jeszcze długo po początkowym wdrożeniu. Dobrze zaprojektowana hurtownia danych powinna być w stanie obsłużyć nowe żądania raportowania z niewielką lub żadną modyfikacją systemu hurtowni danych.

Strojenie wydajności

Wcześniej w tym poście zaleceniem było stworzenie oddzielnych środowisk programistycznych i testowych. Pozwala to organizacjom na dostrajanie wydajności systemu w zakresie ETL, przetwarzania zapytań i dostarczania raportów bez zakłócania bieżącego środowiska produkcyjnego. Upewnij się, że środowiska programistyczne i testowe – sprzęt i aplikacje – naśladują środowisko produkcyjne, tak aby ulepszenia wydajności stworzone w środowisku programistycznym działały w środowisku produkcyjnym na żywo.

Testowanie

Po opracowaniu systemu hurtowni danych zgodnie z wymaganiami biznesowymi, kolejnym krokiem jest jego przetestowanie. Testowanie, czyli zapewnienie jakości, jest krokiem, którego nie należy pomijać, ponieważ pozwoli zespołowi hurtowni danych na ujawnienie i rozwiązanie problemów przed pierwszym uruchomieniem systemu. Nieukończenie fazy testowania może doprowadzić do opóźnień we wdrożeniu lub zakończenia projektu hurtowni danych.

Wdrożenie

Czas na uruchomienie. Podjęcie decyzji o udostępnieniu systemu wszystkim na raz lub wykonaniu rozłożonego w czasie wydania, będzie zależało od liczby użytkowników końcowych i sposobu, w jaki będą oni uzyskiwać dostęp do systemu hurtowni danych. Kolejnym ważnym aspektem każdego wdrożenia systemu, który często jest pomijany, jest szkolenie użytkowników końcowych. Bez względu na to, jak „intuicyjny” według zespołu ds. hurtowni danych i programistów jest graficzny interfejs użytkownika, jeśli faktyczni użytkownicy końcowi uznają narzędzie za trudne w użyciu lub nie zrozumieją korzyści płynących z wykorzystania hurtowni danych do raportowania i analiz, nie zaangażują się.

Zrozumienie najlepszych praktyk projektowania hurtowni danych

Projektowanie hurtowni danych jest czasochłonnym i wymagającym przedsięwzięciem. Na każdym etapie można znaleźć dobre, złe i brzydkie aspekty. Jeśli jednak organizacja poświęci czas na opracowanie solidnych wymagań na początku, kolejne etapy procesu będą przebiegały bardziej logicznie i doprowadzą do udanego wdrożenia hurtowni danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.