OpiniónAnalytics

Adiós a la fragmentación de los datos

José Andrés García, Regional VP Iberia & LATAM en Denodo.

José Andrés García, Regional VP Iberia & LATAM en Denodo.
José Andrés García, Regional VP Iberia & LATAM en Denodo.

A día de hoy el panorama de datos está fragmentado, no solo en su ubicación sino también en términos de forma y paradigmas de procesamiento. Nos encontramos con data lakes, arquitecturas de IoT, noSQL y almacenes de datos gráficos o proveedores de SaaS que coexisten con bases de datos relacionales para satisfacer las necesidades de la analítica avanzada, el machine learning y la Inteligencia Artificial.

Antiguamente los almacenes de datos tradicionales (data warehouses) eran la herramienta de referencia para consolidar los datos en una única ubicación para la analítica. Sin embargo, pese a que estos data warehouses todavía desempeñan un papel fundamental en la estrategia de una empresa, no deben ignorarse los datos disponibles en otros sistemas. Volver a consolidar estos datos de forma física en única ubicación es posible, pero es una opción cada vez menos atractiva por varios motivos.

En primer lugar, los volúmenes de datos son demasiado altos, por lo que nadie quiere replicar todo el data warehouse empresarial en su data lake ni al contrario.  Por otro lado, si los datos se almacenan en distintas localizaciones, los sistemas diseñados para usos específicos perderán su rol, por eso los datos deben residir en el sistema que sea más adecuado para procesarlos. Y, por último, regulaciones más estrictas, como el GDPR, favorecen las arquitecturas mejor gobernadas en lugar de los "pantanos de datos".

Los usuarios finales que continúan utilizando los métodos tradicionales en el panorama de datos moderno pagan el precio en forma de tiempo, más concretamente, del tiempo de acceso a los datos.

¿Un enfoque lógico podría tener más sentido? Sencillamente, sí, puesto que éste trae consigo una capa virtual que conecta las diferentes localizaciones de los datos y las muestra con un único punto de acceso, ocultando al usuario de negocio toda la complejidad de los sistemas que hay detrás de la plataforma. Gracias a esta estrategia centralizada tendremos bajo control la seguridad, el gobierno y la auditoría. Un software de virtualización de datos ofrece un catálogo de metadatos y un motor de ejecución basados en las ideas de una base de datos relacional original, siendo la principal diferencia que la capa virtual se centra en la entrega de datos y no en su almacenamiento.

En cuanto a sus beneficios, la arquitectura de datos lógica va más allá de las posibilidades de almacenamiento de datos e informes, y también puede aplicarse a otros escenarios, como a data lakes lógicos para científicos de datos y usuarios de negocio.  Las ventajas se centran principalmente en lo siguiente:

  • Con una única ubicación para todos los datos, es mucho más fácil y rápido generar las analíticas necesarias para tomar decisiones basadas en datos.
  • La necesidad de replicar datos se reduce enormemente, lo que significa que los costes operativos también son menores.
  • En lugar de consolidar físicamente los datos, lo hacen lógicamente, rastreando hasta la fuente y securizando, lo que aumenta enormemente el gobierno de los datos y los esfuerzos de seguridadVivimos en un mundo impulsado por los datos, en el que los retrasos y la falta de flexibilidad causados ??por sistemas de gestión de datos obsoletos ya no son aceptables, especialmente teniendo en cuenta la creciente necesidad de incorporar nueva información. Por esta razón, un data warehouse lógico es la única opción lógica para arreglar este panorama de datos tan fragmentado.
Computing 785