Data Warehouse Design: A jó, a rossz, a csúnya

A jó üzleti intelligencia (BI), lehetővé teszi a szervezet számára, hogy megbízható forrásokból származó adatokat kérdezzen le, és a válaszokat felhasználva versenyelőnyre tegyen szert az iparágában. A hatékony BI megvalósításának első lépése egy jól megtervezett raktár. Az adattárház-tervezés az analitikus jelentéstételt és adatelemzést támogató, több forrásból származó adatok integrálására szolgáló megoldás kialakításának folyamata. Egy rosszul megtervezett adattárház pontatlan forrásadatok beszerzését és használatát eredményezheti, amelyek negatívan befolyásolják a szervezet termelékenységét és növekedését. Ez a blogbejegyzés magas szintű áttekintést nyújt az adattárház tervezési folyamatáról a követelmények összegyűjtésétől a megvalósításig.

Követelmények összegyűjtése

A követelmények összegyűjtése az adattárház tervezési folyamat első lépése. A követelménygyűjtési fázis célja az adattárház sikeres megvalósításának kritériumainak meghatározása. A szervezet hosszú távú üzleti stratégiájának ugyanolyan fontosnak kell lennie, mint az aktuális üzleti és technikai követelményeknek. Meg kell határozni a felhasználói elemzési és jelentési követelményeket, valamint a hardver, a fejlesztés, a tesztelés, a bevezetés és a felhasználói képzés követelményeit.

Az üzleti és technikai stratégia meghatározása után a következő lépés az, hogy foglalkozzunk azzal, hogy a szervezet hogyan fogja az adattárházat biztonsági mentést készíteni, és hogyan fogja helyreállítani, ha a rendszer meghibásodik. A katasztrófa utáni helyreállítási terv kidolgozása a követelmények összegyűjtése során biztosítja, hogy a szervezet felkészült legyen az adattárházat fenyegető közvetlen és közvetett veszélyekre való gyors reagálásra.

Fizikai környezet kialakítása

Amint az üzleti követelmények meghatározásra kerültek, a következő lépés az adattárház fizikai környezetének meghatározása. Legalább külön fizikai alkalmazás- és adatbázis-kiszolgálókat, valamint külön ETL/ELT-, OLAP-, kocka- és jelentési folyamatokat kell beállítani a fejlesztéshez, a teszteléshez és a termeléshez. A különálló fizikai környezetek kialakítása biztosítja, hogy minden változtatás tesztelhető legyen a termelésbe való áthelyezés előtt, a fejlesztés és a tesztelés a termelési környezet leállítása nélkül történhet, és ha az adatok integritása gyanússá válik, az informatikai személyzet a termelési környezet negatív befolyásolása nélkül vizsgálhatja ki a problémát.

Adatmodellezés

Amikor a követelménygyűjtés és a fizikai környezetek meghatározása megtörtént, a következő lépés az adatstruktúrák elérésének, összekapcsolásának, feldolgozásának és tárolásának meghatározása az adattárházban. Ezt a folyamatot adatmodellezésnek nevezzük. Az adattárház tervezésének ebben a fázisában történik az adatforrások azonosítása. A projekt sikeréhez elengedhetetlen, hogy tudjuk, hol találhatóak az eredeti adatok, és ugyanilyen fontos az adatok elérhetősége. Az adatforrások azonosítása után az adattárház-csapat megkezdheti a logikai és fizikai struktúrák kialakítását a megállapított követelmények alapján.

ETL

Az ETL-folyamat kialakítása veszi igénybe a legtöbb időt, és a megvalósítás nagy részét felemészti. Az adatforrások azonosítása az adatmodellezési fázisban segíthet az ETL fejlesztési idő csökkentésében. Az ETL célja az optimalizált betöltési sebesség biztosítása a minőség feláldozása nélkül. A folyamatnak ebben a szakaszában elkövetett hiba az ETL-folyamat és az egész adattárházrendszer gyenge teljesítményéhez vezethet.

OLAP kockatervezés

Az online analitikai feldolgozás (OLAP) az a válaszmotor, amely az ad-hoc felhasználói lekérdezés és a többdimenziós elemzés infrastruktúráját biztosítja. Az OLAP tervezési specifikációnak azoktól kell származnia, akik le fogják kérdezni az adatokat. Az OLAP-kocka dimenzióit és intézkedéseit meghatározó dokumentációt az adattárház tervezési folyamat kezdetén kell beszerezni. Az OLAP-tervezés három kritikus eleme a következő:

  • Grouping measures – az elemezni kívánt numerikus értékek, például a bevétel, az ügyfelek száma, az ügyfelek által vásárolt termékek száma vagy az átlagos vásárlási összeg.
  • Dimenzió – ahol az intézkedéseket az elemzéshez tárolja, például földrajzi régió, hónap vagy negyedév.
  • Granularitás – a legalacsonyabb részletezettségi szint, amelyet az OLAP-adatkészletben szerepeltetni kíván.

A fejlesztés során győződjön meg arról, hogy az OLAP-kocka folyamata optimalizált. Az adattárház általában nem egy éjszakai prioritású futás, és miután az adattárház frissítése megtörtént, kevés idő marad az OLAP-kocka frissítésére. Ha egyiket sem frissíti időben, az a rendszer teljesítményének csökkenéséhez vezethet. Ha időt szánunk a leghatékonyabb OLAP-kocka generálási útvonal feltárására, csökkenthetjük vagy megelőzhetjük a teljesítményproblémákat az adattárház élesítése után.

Front End fejlesztés

Ebben a szakaszban az üzleti követelmények rögzítésre kerültek, a fizikai környezet elkészült, az adatmodellről döntés született, és az ETL folyamat dokumentálva lett. A következő lépés annak kidolgozása, hogy a felhasználók hogyan fognak hozzáférni az adattárházhoz. A front end fejlesztése azt jelenti, hogy a felhasználók hogyan fognak hozzáférni az adatokhoz az elemzéshez és a jelentések futtatásához. Számos lehetőség áll rendelkezésre, beleértve a front end házon belüli elkészítését vagy egy kész termék megvásárlását. Bárhogy is legyen, van néhány szempont, amit szem előtt kell tartani, hogy a végfelhasználók számára a legjobb élményt biztosítsuk.

Az adatokhoz való biztonságos hozzáférés bármilyen eszközről – asztali számítógép, laptop, táblagép vagy telefon – az elsődleges szempontnak kell lennie. Az eszköznek lehetővé kell tennie a fejlesztőcsapat számára, hogy módosítsa a háttértár struktúráját, amint a vállalati szintű jelentéstételi követelmények változnak. Emellett olyan grafikus felhasználói felületet (GUI) kell biztosítania, amely lehetővé teszi a felhasználók számára, hogy szükség szerint testre szabhassák jelentéseiket. Az OLAP-motor és az adatok lehetnek a legjobbak, de ha a felhasználók nem tudják használni az adatokat, az adattárház drága és haszontalan adattárházzá válik.

Beszámolófejlesztés

A legtöbb végfelhasználó számára az egyetlen kapcsolat az adattárházzal az általuk készített jelentéseken keresztül történik. Amint azt a frontend-fejlesztés szakaszban említettük, az adattárházi jelentéskészítés alapvető jellemzője, hogy a felhasználók gyorsan és hatékonyan kiválaszthatják a jelentéskritériumokat. A szállítási lehetőségek egy másik szempont. A biztonságos webes felületen keresztül érkező jelentések mellett a felhasználóknak szükségük lehet arra is, hogy a jelentéseket e-mail mellékletként vagy táblázatként küldjék el. Az adatáramlás és az adatok láthatóságának ellenőrzése a jelentéskészítés másik olyan aspektusa, amellyel foglalkozni kell. Az egyes adatszegmensekhez hozzáféréssel rendelkező felhasználói csoportok kialakításának adatbiztonságot és ellenőrzést kell biztosítania. A jelentéskészítésnek a kezdeti bevezetés után is változnia kell és fog. Egy jól megtervezett adattárháznak képesnek kell lennie arra, hogy az új jelentéstételi kéréseket kevés vagy semmilyen adattárházrendszer-módosítással kezelje.

Teljesítményhangolás

Az előző bejegyzésben az volt az ajánlás, hogy hozzunk létre külön fejlesztői és tesztelési környezeteket. Ez lehetővé teszi a szervezetek számára, hogy az ETL, a lekérdezés-feldolgozás és a jelentéstovábbítás rendszer-teljesítményhangolását az aktuális termelési környezet megszakítása nélkül végezzék el. Győződjön meg arról, hogy a fejlesztési és tesztelési környezetek-hardverek és alkalmazások a termelési környezetet utánozzák, hogy a fejlesztés során létrehozott teljesítményjavítások az éles termelési környezetben is működjenek.

Tesztelés

Mihelyt az adattárház rendszerét az üzleti követelményeknek megfelelően kifejlesztették, a következő lépés a tesztelés. A tesztelés vagy minőségbiztosítás olyan lépés, amelyet nem szabad kihagyni, mert lehetővé teszi az adattárház-csapatnak, hogy a kezdeti bevezetés előtt feltárja és kezelje a problémákat. A tesztelési fázis elmulasztása a bevezetés késedelméhez vagy az adattárházprojekt leállításához vezethet.

Implementáció

Az üzembe helyezés ideje. A végfelhasználók számától és az adattárházi rendszerhez való hozzáférésük módjától függ, hogy a rendszert egyszerre mindenki számára elérhetővé kell-e tenni, vagy szakaszos bevezetést kell végrehajtani. A rendszer bevezetésének másik fontos szempontja, amelyet gyakran kihagynak, a végfelhasználók képzése. Nem számít, hogy az adattárház-csapat és a fejlesztők mennyire “intuitívnak” gondolják a felhasználói felületet, ha a tényleges végfelhasználók számára az eszköz használata nehézkes, vagy nem értik az adattárház jelentéskészítésre és elemzésre való használatának előnyeit, akkor nem fognak részt venni benne.

Az adattárház-tervezés legjobb gyakorlatainak megismerése

Az adattárház-tervezés időigényes és kihívást jelentő vállalkozás. Minden egyes lépésnél találunk jó, rossz és csúnya szempontokat. Ha azonban egy szervezet már az elején időt szán a megalapozott követelmények kidolgozására, a folyamat későbbi lépései logikusabban fognak zajlani, és sikeres adattárház-implementációhoz vezetnek.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.