Diseño de almacenes de datos: Lo bueno, lo malo y lo feo

Un buen Business Intelligence (BI), permite a su organización consultar datos obtenidos de fuentes fiables y utilizar las respuestas para obtener una ventaja competitiva en su sector. El primer paso para lograr un BI eficaz es un almacén bien diseñado. El diseño de un almacén de datos es el proceso de construcción de una solución para integrar los datos de múltiples fuentes que apoyan la presentación de informes analíticos y el análisis de datos. Un almacén de datos mal diseñado puede dar lugar a la adquisición y el uso de datos de origen inexactos que afectan negativamente a la productividad y el crecimiento de su organización. Esta entrada del blog echará un vistazo de alto nivel al proceso de diseño del almacén de datos, desde la recopilación de requisitos hasta la implementación.

Recopilación de requisitos

La recopilación de requisitos es el primer paso del proceso de diseño del almacén de datos. El objetivo de la fase de recopilación de requisitos es determinar los criterios para una implementación exitosa del almacén de datos. La estrategia empresarial a largo plazo de una organización debe ser tan importante como los requisitos empresariales y técnicos actuales. Deben identificarse los requisitos de análisis e información de los usuarios, así como el hardware, el desarrollo, las pruebas, la implementación y la formación de los usuarios.

Una vez que se ha decidido la estrategia empresarial y técnica, el siguiente paso es abordar cómo la organización hará una copia de seguridad del almacén de datos y cómo se recuperará si el sistema falla. Desarrollar un plan de recuperación de desastres mientras se reúnen los requisitos, asegura que la organización esté preparada para responder rápidamente a las amenazas directas e indirectas al almacén de datos.

Configuración del entorno físico

Una vez establecidos los requisitos de negocio, el siguiente paso es determinar el entorno físico para el almacén de datos. Como mínimo, debe haber servidores físicos separados de aplicaciones y bases de datos, así como procesos separados de ETL/ELT, OLAP, cubos e informes configurados para el desarrollo, las pruebas y la producción. La construcción de entornos físicos separados garantiza que todos los cambios puedan probarse antes de pasarlos a producción, que el desarrollo y las pruebas puedan realizarse sin detener el entorno de producción y que, si se sospecha de la integridad de los datos, el personal de TI pueda investigar el problema sin afectar negativamente al entorno de producción.

Modelado de datos

Una vez que se han definido la recopilación de requisitos y los entornos físicos, el siguiente paso es definir cómo se accederá a las estructuras de datos, cómo se conectarán, cómo se procesarán y cómo se almacenarán en el almacén de datos. Este proceso se conoce como modelado de datos. Durante esta fase del diseño del almacén de datos, es cuando se identifican las fuentes de datos. Saber dónde residen los datos originales y, lo que es igual de importante, la disponibilidad de esos datos, es crucial para el éxito del proyecto. Una vez identificadas las fuentes de datos, el equipo del almacén de datos puede empezar a construir las estructuras lógicas y físicas basándose en los requisitos establecidos.

ETL

El proceso ETL es el que más tiempo requiere para su desarrollo y se come la mayor parte de la implementación. Identificar las fuentes de datos durante la fase de modelado de datos puede ayudar a reducir el tiempo de desarrollo de ETL. El objetivo de ETL es proporcionar velocidades de carga optimizadas sin sacrificar la calidad. Un fallo en esta fase del proceso puede provocar un mal rendimiento del proceso ETL y de todo el sistema de almacén de datos.

Diseño de cubos OLAP

El Procesamiento Analítico en Línea (OLAP) es el motor de respuesta que proporciona la infraestructura para la consulta ad-hoc del usuario y el análisis multidimensional. La especificación del diseño OLAP debe provenir de quienes consultarán los datos. La documentación que especifica las dimensiones y medidas del cubo OLAP debe obtenerse durante el inicio del proceso de diseño del almacén de datos. Los tres elementos críticos del diseño OLAP incluyen:

  • Medidas de agrupación – valores numéricos que se quieren analizar como los ingresos, el número de clientes, cuántos productos compran los clientes o el importe medio de las compras.
  • Dimensión – donde se almacenan las medidas para el análisis, como la región geográfica, el mes o el trimestre.
  • Granularidad – el nivel más bajo de detalle que desea incluir en el conjunto de datos OLAP.

Durante el desarrollo, asegúrese de que el proceso del cubo OLAP está optimizado. Un almacén de datos no suele ser una prioridad nocturna, y una vez que el almacén de datos se ha actualizado, queda poco tiempo para actualizar el cubo OLAP. No actualizar ninguno de los dos de manera oportuna podría conducir a una reducción del rendimiento del sistema. Tomarse el tiempo para explorar la ruta de generación de cubos OLAP más eficiente puede reducir o prevenir problemas de rendimiento después de que el almacén de datos entre en funcionamiento.

Desarrollo del Front End

En este punto, se han capturado los requisitos del negocio, se ha completado el entorno físico, se ha decidido el modelo de datos y se ha documentado el proceso ETL. El siguiente paso es trabajar en cómo los usuarios accederán al almacén de datos. El desarrollo del front end es la forma en que los usuarios accederán a los datos para analizarlos y ejecutar informes. Hay muchas opciones disponibles, incluyendo la construcción de su front-end en la empresa o la compra de un producto de la plataforma. En cualquier caso, hay que tener en cuenta algunas consideraciones para garantizar la mejor experiencia para los usuarios finales.

El acceso seguro a los datos desde cualquier dispositivo: ordenador de sobremesa, portátil, tableta o teléfono debe ser la consideración principal. La herramienta debe permitir a su equipo de desarrollo modificar la estructura del backend a medida que cambien los requisitos de los informes a nivel empresarial. También debe proporcionar una interfaz gráfica de usuario (GUI) que permita a los usuarios personalizar sus informes según sea necesario. El motor OLAP y los datos pueden ser los mejores de su clase, pero si los usuarios no pueden utilizar los datos, el almacén de datos se convierte en un depósito de datos caro e inútil.

Desarrollo de informes

Para la mayoría de los usuarios finales, el único contacto que tienen con el almacén de datos es a través de los informes que generan. Como se mencionó en la sección de desarrollo del front-end, la capacidad de los usuarios para seleccionar sus criterios de informe de forma rápida y eficiente es una característica esencial para la generación de informes del almacén de datos. Las opciones de entrega son otra consideración. Además de recibir los informes a través de una interfaz web segura, es posible que los usuarios quieran o necesiten que se les envíen como un archivo adjunto de correo electrónico o una hoja de cálculo. El control del flujo y la visibilidad de los datos es otro aspecto del desarrollo de informes que debe abordarse. El desarrollo de grupos de usuarios con acceso a segmentos de datos específicos debe proporcionar seguridad y control de los datos. La elaboración de informes cambiará, y debe hacerlo, mucho después de la implementación inicial. Un almacén de datos bien diseñado debe ser capaz de manejar las nuevas solicitudes de informes con poca o ninguna modificación del sistema de almacén de datos.

Ajuste del rendimiento

Al principio de este post, la recomendación era crear entornos de desarrollo y de prueba separados. Hacerlo permite a las organizaciones proporcionar un ajuste del rendimiento del sistema en ETL, procesamiento de consultas y entrega de informes sin interrumpir el entorno de producción actual. Asegúrese de que los entornos de desarrollo y de prueba -el hardware y las aplicaciones- imitan el entorno de producción para que las mejoras de rendimiento creadas en el desarrollo funcionen en el entorno de producción en vivo.

Pruebas

Una vez que el sistema de almacén de datos se ha desarrollado de acuerdo con los requisitos del negocio, el siguiente paso es probarlo. Las pruebas, o el aseguramiento de la calidad, es un paso que no debe saltarse porque permitirá al equipo del almacén de datos exponer y abordar los problemas antes del lanzamiento inicial. No completar la fase de pruebas podría llevar a retrasos en la implementación o a la terminación del proyecto de almacén de datos.

Implementación

Hora de entrar en funcionamiento. La decisión de poner el sistema a disposición de todos a la vez o realizar un lanzamiento escalonado, dependerá del número de usuarios finales y de cómo accederán al sistema de almacén de datos. Otro aspecto importante de la implantación de cualquier sistema, y que a menudo se omite, es la formación de los usuarios finales. No importa lo «intuitivo» que el equipo del almacén de datos y los desarrolladores piensen que es la interfaz gráfica de usuario, si los usuarios finales reales encuentran la herramienta difícil de usar, o no entienden los beneficios de usar el almacén de datos para la presentación de informes y análisis, no se comprometerán.

Entender las mejores prácticas para el diseño del almacén de datos

El diseño del almacén de datos es un esfuerzo que consume tiempo y es un desafío. Habrá aspectos buenos, malos y feos encontrados en cada paso. Sin embargo, si una organización se toma el tiempo para desarrollar requisitos sólidos al principio, los pasos posteriores del proceso fluirán de forma más lógica y conducirán a una implementación exitosa del almacén de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.