Nuevos descubrimientos en el mapa de la Vía Láctea

GAIA esconde uno de los mayores proyectos actuales de Big Data

Publicado el 10 Oct 2016

72339_77

Hace poco menos de un año, Computing se hacía eco de una de las mayores iniciativas de Big Data emprendidas hasta la fecha. Se trata de la misión Gaia de la Agencia Espacial Europea (ESA), desarrollada con el objeto de crear un mapa tridimensional preciso de unos mil millones de cuerpos celestes, cifra que parece excesiva aunque tan solo representa el 1% de nuestra galaxia. Sin embargo, puede considerarse como uno de los mayores retos de procesamiento de datos hasta la fecha en astronomía, ya que la misión barrerá todo el cielo observando de media 70 veces cada estrella. De esta manera, registrará con altísima precisión su posición, movimientos, distancias y cambios de brillo.

De momento, tres años después del lanzamiento, Gaia ha conseguido casi 500.000 millones de mediciones astronómicas. Ha detectado el brillo y la posición exacta en el firmamento de 1.142 millones de estrellas y se han calculado además las velocidades y la distancia de dos millones de ellas. Al margen de la relevancia de los descubrimientos desde el punto de vista científico, también es muy interesante conocer cómo todos los datos recibidos del satélite se procesan para su posterior análisis. Cerca de 450 científicos e ingenieros de 160 institutos en 24 países están implicados en obtener las cantidades físicas de la información que Gaia envía.

Para conocer cómo trabajan, así como los Sistemas de Información que hay implicados, hemos hablado con Rocío Guerra, responsable de Operaciones de Gaia del Centro Europeo de Astronomía Espacial (ESAC, ubicado en Madrid). El satélite, lanzado en diciembre de 2013, envía diariamente toda la información (telemetría) que recopila a tres antenas ubicadas en Australia, España (Ávila) y Argentina. Todos esos datos se transmiten al Centro de Operaciones de la ESA en Alemania que posteriormente filtra la información científica que envía a ESAC. Diariamente se reciben entre 35 y 70 Gigabytes de información en un sistemade ficheros que entran en la línea de procesado inicial. “La base de datos es Intersystems Cache. En ella se realizan los cálculos intermedios, utilizando unos sistemas de software programados en Java. Los datos fundamentales se extraen y se archivan en ficheros binarios, alcanzando estos un volumen aproximado de 1 Petabyte al final de la misión. En esta base de datos se realiza el procesado científico inicial. Es importante destacar que “Gaia no nos envía fotos. Esto supondría una cantidad exorbitada de información imposible de transmitir. El software a bordo envía datos comprimidos sobre el tránsito que hace cada estrella al recorrer el plano focal. Nosotros diariamente desempaquetamos y descomprimimos esa telemetría y hacemos un primer análisis para posteriormente enviarlos al resto de Centros de Procesado que continúan con la labor de análisis e interpretación científica”, comenta Rocío Guerra. Concretamente, estos Centros de Procesamiento están ubicados en Cambridge, Toulouse, Turin, Ginebra y Barcelona, y cada uno está especializado en procesar unas propiedades específicas, como por ejemplo, la luminosidad o los espectros de cada fuente observada.

Este trabajo diario también incluye la generación de alertas científicas. Gaia es capaz de detectar diferencias de brillo y movimientos en las fuentes que pueden indicar eventos como Supernovas o la detección de nuevos asteroides en nuestro Sistema Solar. En total, al procesar la información recibida cada día, se pueden llegar a generar unos 400 Gigabytes de datos en Cache. Parte de ellos son datos intermedios que no necesitan persistir. Los que necesitan ser archivados se extraen a ficheros binarios de la base de datos para generar el catálogo y se diseminan al resto de Centros Europeos. “El procesado de ciencia se basa en la iteración. Gaia escanea el cielo y observa cada estrella muchas veces de manera que los algoritmos matemáticos iteran sobre todas ellas para poder obtener soluciones más y más precisas. Nuestros ciclos de procesado duran alrededor de seis meses. En cada uno de ellos cada centro de procesamiento genera sus resultados cada vez más precisos y los manda a ESAC. Aquí se consolidan y se vuelven a distribuir junto con los resultados de las observaciones de Gaia diarias. De esta manera, cada cadena de procesamiento vuelve a iterar sobre esos datos produciendo resultados mejores. Así es como conseguiremos en el catálogo final una precisión astrométrica nunca antes vista”, opina Guerra.

La base de datos de trabajo se purga regularmente, pues de otro modo contendría cientos y cientos de Terabytes que serían inmanejables a la hora del procesado. El sistema de ficheros binarios, sin embargo, crece cada día con nuevos datos que, una vez consolidados y documentados, forman el catálogo. Su tamaño final será de 1 Petabyte. De momento ya se han producido 300 Terabytes.

Para conseguir estos objetivos tan ambiciosos, el trabajo comenzó mucho antes del lanzamiento de Gaia. El satélite se envió hace tres años, pero todo el equipo que trabaja en ESAC lleva planificando y preparando todo el trabajo desde 2005. “Se ha dedicado mucho esfuerzo en la verificación y validación del software de las cadenas de procesado, también en testear que el rendimiento de la base de datos fuera el adecuado para manejar la cantidad de datos diarios”, explica la responsable. Previo al lanzamiento se hizo una inversión importante también en hardware para poder asegurar el correcto rendimiento. De esta manera, se pueden mitigar los riesgos de una misión tan demandante en cuanto a requisitos de eficiencia y volumen de datos.

Otro aspecto clave es la seguridad de la información producida. La pérdida de datos es equivalente a la perdida de los objetivos de la misión. “Somos responsables de custodiar y asegurar la completitud de la telemetría científica que recibimos del Centro de Operaciones en Alemania y la base de datos que aloja el catálogo. Para ello hay varios niveles de backup. Además de la información disponible online para nuestro propio procesado, existen backups propios en ESAC y cada día esta información también se envía al centro de la ESA en Holanda, (ESTEC), y al centro en Toulouse.”

¿Qué te ha parecido este artículo?

La tua opinione è importante per noi!

C
Redacción Computing

Artículos relacionados

Artículo 1 de 3