Big Data y analítica de datos: afrontando retos en sistemas de almacenamiento a escala Petabyte

Israel Serrano, Country Manager de Infinidat Iberia.

Publicado el 27 Nov 2020

Israel Serrano, Country Manager de Infinidat Iberia.

Las cargas de trabajo de Big Data y analítica representan una nueva frontera para las organizaciones. Los datos se recopilan desde fuentes inexistentes hace 10 años: datos de móviles, datos generados por máquinas y sensores, datos de interacciones web… todo ello recopila y se analiza. Además, y a pesar de unos presupuestos de TI que ya están bajo presión, la huella del Big Data es cada vez mayor y se ha convertido en un gran desafío para los sistemas de almacenamiento. Debido a ello, la elección de una infraestructura adecuada será clave para agilizar y consolidar las aplicaciones de Big Data y analítica sin tener que tirar la casa por la ventana.

Según los expertos, las organizaciones que utilizan Big Data y analítica lo hacen en una amplia variedad de casos de uso: mejorar el servicio al cliente, implementar análisis operativo, utilizar Big Data para ciberseguridad y detección de intrusiones, para labores de exploración y eDiscovery, para data warehouse… Todos estos casos de uso requieren más almacenamiento y más potencia de computación. Y, por si esto fuera poco, el Big Data utiliza sobre todo datos de producción, por lo que la disponibilidad, la capacidad de recuperación y el rendimiento son tan críticos o más que en los sistemas transaccionales. Y como ya hemos comentado, la tendencia de los presupuestos de TI es a la baja. Estas fuerzas, diametralmente opuestas, están generando un cambio en la industria del almacenamiento. ¿Cómo hacer más con menos, manteniendo la fiabilidad, la eficiencia y el rendimiento de los sistemas y las aplicaciones?

Hay que cerrar la brecha entre el rendimiento y la capacidad de almacenamiento para las aplicaciones de Big Data

Podríamos resumir cinco grandes desafíos en materia de almacenamiento a los que se enfrentan los CIO en sus procesos de Big Data:

  • Alto rendimiento: Ante los grandes conjuntos de datos, las pesadas aplicaciones de analítica y la demanda de resultados prácticamente inmediatos, el rendimiento del almacenamiento subyacente es un criterio clave. Los grandes conjuntos de datos plantean un desafío único y abrumador para los arrays de almacenamiento, ya que aportan un perfil E/S impredecible y que a menudo sobrepasa el marco del almacenamiento. Muchas de estas cargas de trabajo desbordarán las plataformas de almacenamiento con tamaños de caché limitados.
  • Alta densidad. Para desarrollar aplicativos de Big Data y analítica, es necesario poder configurar entornos a escala Petabyte. Y no sólo eso; será necesario también poder incrementar –o disminuir– esa densidad, ya que los sistemas de Big Data no son un simple proceso lineal.
  • Alta disponibilidad y fiabilidad. Mantener la analítica disponible es crítico para los sistemas de almacenamiento, ya que deben proporcionar un entorno robusto y de alta disponibilidad, con prestaciones de business continuity de extremo a extremo como snapshots y duplicación remota asíncrona. Mediante el uso de snapshots, por ejemplo, la recuperación de una base de datos se puede reducir de horas a minutos.
  • Gestión y aprovisionamiento sencillos y automatizados. A fecha de hoy, todos estamos de acuerdo en la importancia de aportar sencillez a la gestión del almacenamiento. Se necesitan sistemas que puedan aislar pools y volúmenes de almacenamiento para usuarios específicos, con funciones multi-tenant para que los usuarios de las aplicaciones puedan ver y gestionar el almacenamiento que se les ha asignado. Y, por supuesto, una interfaz de usuario web con consola de comandos incorporada, lo que permitirá una implementación y gestión sencilla y rápida del sistema de almacenamiento.
  • Optimizar el TCO. Alto rendimiento, disponibilidad extrema, alta densidad de datos y sencillez no tienen por qué estar reñidos con un TCO contenido. Y esto es especialmente importante en el terreno del almacenamiento, ya que la tendencia, como es obvio, es a consolidar las cargas de trabajo (que ahora, con el Big Data, se multiplican) en áreas físicas cada vez más pequeñas. Y, si bien la nube permite el acceso a infraestructuras al instante, también aumentará el coste, que además computará como gasto operativo (OpEx).

La agilidad como referencia

Ante la incapacidad de los sistemas convencionales para soportar las nuevas aplicaciones de Big Data, para atender la necesidad de mantener infraestructuras tecnológicas ágiles y Always On, están surgiendo nuevas tecnologías que ofrecen toda la capacidad necesaria sin necesidad de sacrificar el rendimiento ni disparar los costes. En el caso de Infinidat, el usuario puede configurar un entorno multi-Petabyte en un solo rack, con una arquitectura avanzada que utiliza inteligencia artificial y algoritmos de machine learning para una gestión automatizada de caché (es lo que denominamos cache neuronal) lo que mejora la ubicación de los datos y reduce la latencia.

En conclusión, hay que cerrar la brecha entre el rendimiento y la capacidad de almacenamiento para las aplicaciones de Big Data. Las nuevas tecnologías permiten implementar proyectos de Big Data y analítica de datos para conseguir los objetivos de negocio, reducir costes y escalar de forma sencilla y eficaz sin comprometer el rendimiento ni la fiabilidad. Todo esto ayudará de manera decisiva a las aplicaciones de Big Data, sin necesidad de tener que invertir lo que no se tiene.

¿Qué te ha parecido este artículo?

La tua opinione è importante per noi!

Redacción

Artículos relacionados

Artículo 1 de 3