La computación a exaescala es una tarea difícil

Oak Ridge superordenador Frontier

El superordenador Frontier, impulsado por AMD, no puede funcionar ni un día sin fallos

El funcionamiento de los superordenadores siempre es un reto, que se lo digan a Oak Ridge y a su superordenador Frontier. Consumen cantidades ingentes de energía y requieren un gran número de procesadores y tarjetas gráficas para funcionar juntos y sin problemas. Como la mayoría de los superordenadores, el superordenador Frontier de Oak Ridge, alimentado por AMD, se enfrenta a los primeros problemas, ya que, según se informa, el sistema ha funcionado durante menos de un día sin fallos.

El superordenador Frontier de Oak Ridge

Según Inside HPC, el Frontier de Oak Ridge se ha enfrentado a numerosos problemas mientras el sistema se prepara para «funcionar a pleno rendimiento» en enero de 2023. Actualmente, Oak Ridge es optimista en cuanto al cumplimiento de este plazo, incluso con las enormes demandas de hardware de la computación Exascale.

Los primeros problemas del sistema Frontier de Oak Ridge incluyen problemas con el tejido HPE Cray Slingshot que se utiliza para interconectar los sistemas dentro de Frontier. Otros problemas se basan en el uso de aceleradores de GPU AMD Instinct, que aportan gran parte de la potencia de cálculo de Frontier.

Es de esperar que se produzcan problemas de puesta en marcha con ordenadores de esta envergadura. Como en todos los proyectos de gran envergadura, es necesario un gran esfuerzo para garantizar que todo el sistema funcione de forma eficaz. Dicho esto, los esfuerzos de Oak Ridge se han centrado en reducir la «tasa media de fallos» de Frontier, que actualmente se mide en horas y no en días.

Más allá de los problemas de hardware, Oak Ridge ha estado trabajando para garantizar que los trabajos de gran envergadura utilicen la totalidad de los recursos de Frontier. Se trata de una tarea difícil dada la escala de Frontier. Alcanzar el máximo nivel de rendimiento es una cuestión importante para los sistemas de esta escala, ya que ofrecer a los investigadores un mayor rendimiento computacional permitirá que sus simulaciones se completen más rápidamente y maximizar el trabajo que el sistema puede realizar.

Oak Ridge superordenador Frontier

Aunque mucha gente está achacando los primeros problemas de hardware de Frontier a los aceleradores Instinct de AMD, Justin Whitt, director del programa Oak Ridge Leadership Computing Facility (OLCF), declaró que «Los problemas abarcan muchas categorías diferentes, las GPU son sólo una«.

En cuanto a la fiabilidad de los productos de AMD utilizados en el sistema Frontier de Oak Ridge, Whitt comentó que:

«No creo que en este momento tengamos mucha preocupación por los productos de AMD. Estamos tratando con muchas cosas del tipo de vida temprana que hemos visto con otras máquinas que hemos desplegado, así que no es nada demasiado fuera de lo común».

Justin Whitt

Actualmente, el superordenador de exaescala Frontier de Oak Ridge está previsto que entre en servicio el 1 de enero de 2023. Actualmente, el equipo de Oak Ridge está «ampliamente encaminado» para cumplirlo. El equipo de Oak Ridge confía en poder cumplir sus plazos, a pesar de los problemas a los que se han enfrentado para poner en marcha Frontier.

Fuente


Por Netón

Apasionado de la tecnología, el hardware y los videojuegos. Capitán del pequeño barco que es El Refugio 101.