Data Warehouse Design: Dobré, špatné a ošklivé

Dobré Business Intelligence (BI), umožňuje vaší organizaci dotazovat se na data získaná z důvěryhodných zdrojů a využívat odpovědi k získání konkurenční výhody ve vašem odvětví. Prvním krokem k dosažení efektivní BI je dobře navržený sklad. Návrh datového skladu je proces budování řešení pro integraci dat z různých zdrojů, které podporuje analytické reportování a analýzu dat. Špatně navržený datový sklad může vést k získávání a používání nepřesných zdrojových dat, která negativně ovlivňují produktivitu a růst vaší organizace. V tomto příspěvku na blogu se na vysoké úrovni podíváme na proces návrhu datového skladu od shromažďování požadavků až po implementaci.

Shromažďování požadavků

Shromažďování požadavků je prvním krokem procesu návrhu datového skladu. Cílem fáze shromažďování požadavků je stanovit kritéria pro úspěšnou implementaci datového skladu. Dlouhodobá obchodní strategie organizace by měla být stejně důležitá jako aktuální obchodní a technické požadavky. Je třeba určit požadavky na uživatelskou analýzu a reporting, stejně jako požadavky na hardware, vývoj, testování, implementaci a školení uživatelů.

Po rozhodnutí o obchodní a technické strategii je dalším krokem řešení způsobu, jakým bude organizace datový sklad zálohovat a jak se bude zotavovat v případě selhání systému. Vypracování plánu obnovy po havárii při shromažďování požadavků zajistí, že organizace bude připravena rychle reagovat na přímé i nepřímé hrozby pro datový sklad.

Nastavení fyzického prostředí

Po stanovení obchodních požadavků je dalším krokem určení fyzického prostředí pro datový sklad. Minimálně by měly být nastaveny oddělené fyzické aplikační a databázové servery a také oddělené procesy ETL/ELT, OLAP, kostky a reportování pro vývoj, testování a produkci. Vytvoření oddělených fyzických prostředí zajistí, že všechny změny bude možné otestovat před jejich přesunem do produkčního prostředí, vývoj a testování bude možné provádět bez zastavení produkčního prostředí a v případě podezření na integritu dat budou moci pracovníci IT problém prošetřit, aniž by to mělo negativní dopad na produkční prostředí.

Datové modelování

Po definování shromažďování požadavků a fyzických prostředí je dalším krokem definování způsobu přístupu k datovým strukturám, jejich připojení, zpracování a uložení v datovém skladu. Tento proces se nazývá datové modelování. Během této fáze návrhu datového skladu dochází k identifikaci zdrojů dat. Pro úspěch projektu je klíčové vědět, kde se původní data nacházejí, a stejně tak je důležité vědět, jaká je dostupnost těchto dat. Po identifikaci zdrojů dat může tým datového skladu začít budovat logické a fyzické struktury na základě stanovených požadavků.

ETL

Proces ETL zabere nejvíce času a pohltí většinu implementace. Identifikace zdrojů dat ve fázi datového modelování může pomoci zkrátit dobu vývoje ETL. Cílem ETL je zajistit optimalizovanou rychlost načítání bez ztráty kvality. Selhání v této fázi procesu může vést ke špatnému výkonu procesu ETL a celého systému datového skladu.

Návrh kostek OLAP

On-Line Analytical Processing (OLAP) je engine odpovědí, který poskytuje infrastrukturu pro ad-hoc dotazy uživatelů a vícerozměrné analýzy. Specifikace návrhu OLAP by měla vzejít od těch, kteří se budou dotazovat na data. Dokumentace specifikující dimenze a míry kostky OLAP by měla být získána na začátku procesu návrhu datového skladu. Mezi tři kritické prvky návrhu OLAP patří:

  • Míry seskupení – číselné hodnoty, které chcete analyzovat, například tržby, počet zákazníků, kolik produktů zákazníci nakupují nebo průměrná částka nákupu.
  • Dimenze – místo uložení měr pro analýzu, například geografická oblast, měsíc nebo čtvrtletí.
  • Granularita – nejnižší úroveň podrobnosti, kterou chcete zahrnout do datové sady OLAP.

Při vývoji se ujistěte, že je proces tvorby kostky OLAP optimalizován. Datový sklad obvykle není prioritní noční běh a po aktualizaci datového skladu zbývá jen málo času na aktualizaci kostky OLAP. Včasná neaktualizace obou z nich by mohla vést ke snížení výkonu systému. Pokud věnujete čas prozkoumání nejefektivnější cesty generování kostky OLAP, můžete snížit výkonnostní problémy po spuštění datového skladu nebo jim předejít.

Vývoj front-endu

V tomto okamžiku byly zachyceny obchodní požadavky, dokončeno fyzické prostředí, rozhodnuto o datovém modelu a zdokumentován proces ETL. Dalším krokem je práce na tom, jak budou uživatelé k datovému skladu přistupovat. Front end development je způsob, jakým budou uživatelé přistupovat k datům za účelem analýzy a spouštění reportů. Existuje mnoho možností, včetně vytvoření front-endu vlastními silami nebo zakoupení hotového produktu. Ať tak či onak, je třeba mít na paměti několik aspektů, které koncovým uživatelům zajistí ten nejlepší zážitek.

Nejdůležitější by měl být bezpečný přístup k datům z jakéhokoli zařízení – stolního počítače, notebooku, tabletu nebo telefonu. Nástroj by měl umožnit vašemu vývojovému týmu upravovat strukturu backendu podle toho, jak se mění požadavky na reporting na podnikové úrovni. Měl by také poskytovat grafické uživatelské rozhraní (GUI), které uživatelům umožní přizpůsobit si reporty podle potřeby. Motor OLAP a data mohou být nejlepší ve své třídě, ale pokud uživatelé nemohou data používat, stává se datový sklad drahým a zbytečným úložištěm dat.

Vývoj reportů

Pro většinu koncových uživatelů je jediným kontaktem s datovým skladem vytváření reportů. Jak bylo zmíněno v části věnované vývoji front-endu, schopnost uživatelů rychle a efektivně vybírat kritéria sestav je pro tvorbu sestav datového skladu zásadní vlastností. Dalším hlediskem jsou možnosti dodání. Vedle přijímání sestav prostřednictvím zabezpečeného webového rozhraní mohou uživatelé chtít nebo potřebovat sestavy zasílat jako přílohu e-mailu nebo tabulky. Řízení toku a viditelnosti dat je dalším aspektem tvorby sestav, který je třeba řešit. Vytvoření skupin uživatelů s přístupem k určitým segmentům dat by mělo zajistit bezpečnost a kontrolu dat. Reporting se bude a měl by se měnit i po počáteční implementaci. Dobře navržený datový sklad by měl být schopen zpracovávat nové požadavky na výkaznictví s malými nebo žádnými úpravami systému datového skladu.

Vyladění výkonu

Dříve v tomto příspěvku bylo doporučeno vytvořit oddělená vývojová a testovací prostředí. To organizacím umožňuje zajistit ladění výkonu systému v oblasti ETL, zpracování dotazů a poskytování sestav bez přerušení aktuálního produkčního prostředí. Ujistěte se, že vývojové a testovací prostředí – hardware a aplikace – napodobují produkční prostředí, aby vylepšení výkonu vytvořená ve vývoji fungovala i v ostrém produkčním prostředí.

Testování

Po vývoji systému datového skladu podle obchodních požadavků je dalším krokem jeho testování. Testování neboli zajištění kvality je krok, který by neměl být vynechán, protože umožní týmu datového skladu odhalit a řešit problémy ještě před prvním nasazením. Nedokončení fáze testování může vést ke zpoždění implementace nebo k ukončení projektu datového skladu.

Implementace

Čas na spuštění. Rozhodnutí, zda systém zpřístupnit všem najednou, nebo provést postupné uvolňování, bude záviset na počtu koncových uživatelů a způsobu, jakým budou k systému datového skladu přistupovat. Dalším důležitým aspektem každé implementace systému, který se často opomíjí, je školení koncových uživatelů. Bez ohledu na to, jak „intuitivní“ je podle týmu datového skladu a vývojářů grafické uživatelské rozhraní, pokud skuteční koncoví uživatelé považují nástroj za obtížně použitelný nebo nechápou výhody používání datového skladu pro reporting a analýzu, nebudou se zapojovat.

Pochopení osvědčených postupů pro návrh datového skladu

Návrh datového skladu je časově náročná a náročná činnost. V každém kroku se najdou dobré, špatné i ošklivé aspekty. Pokud však organizace na začátku věnuje čas vytvoření kvalitních požadavků, další kroky procesu budou probíhat logičtěji a povedou k úspěšné implementaci datového skladu

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.