INFRAESTRUCTURAS ACTUALES
El cluster Odisea es un proyecto conjunto del CSIC, IMDEA Matematicas y la UAM, canalizado a través del programa Modelización Matemática y Simulación Numérica en Ciencia y Tecnología “SIMUMAT” de la Comunidad de Madrid, prestando servicio a los investigadores de esta red y de su entorno.
ODISEA. Construcción.
| Fase |
Institución financiadora |
Hardware adquirido |
| 1ª fase |
SIMUMAT – COMUNIDAD DE MADRID |
- 8 placas duales con procesadores Intel Xeon EMT64, una de ellas con características de servidor.
- 4Gb de RAM por placa y 120 Gb de disco duro.
- Conexiones Infiniband y Gigabit Ethernet entre nodos.
- Total fase: 16 procesadores.
- Mantenimiento e instalación
|
| 2ª fase |
CSIC |
- 8 placas duales con procesadores Intel Xeon EMT64.
- 4Gb de RAM por placa y 120 Gb de disco duro.
- Total fase: 16 procesadores.
- Mantenimiento e instalación
|
| 3ª fase |
CSIC |
- 35000 € Presupuesto aprobado.
- 50.000 € ->Presupuesto pendiente de aprobación.
- Total fase: 16 procesadores binucleo
- Prevista una ampliación con 8 placas duales binúcleo
- 16GB de RAM por placa
- Mantenimiento e instalación
|
| Mantenimiento |
UAM |
- Aire acondicionado
- Gastos indeterminados pero importantes de consumo eléctrico y mantenimiento en general.
|
ODISEA. Hardware.
El Cluster Odisea consta de
- 16 nodos duales mononúcleo(32 procesadores).
- Biprocesadores Intel Xeon EMT64 3,2Ghz FSB 800.
- 4 Gb de RAM por nodo
- Discos Duros
- Nodo servidor, disco duro SCSI Ultra 320 a 1000 r.p.m. con 146 Gb.
- Nodos hijos, disco duro ATA 250 Gb.
- Redes de interconexión de nodos:
- Red de interconexión de baja latencia: SilverStorm 9024 (Infiniband) 24 @ 10/20Gbps.
- Red de interconexión para control del cluster: Gigabit.
ODISEA. Software.
El cluster Odisea tiene instalado como Sistema operativo Red Hat Enterprise Server 4.0 kernel 2.6.9-11.
- Compiladores GNU para Fortran77 y C.
- Compiladores INTEL para Fortran77/90/95, Java, C/C
- Compilador Python, con las bibliotecas PythonMPI, PythonNumerics y Pythonf2py, que permiten implementar programas en Python utilizando MPI.
- Paralelización de tareas a través de Scali Manage / Scali MPI Connect para InfiniBand.
- ScaTorque como sistema gestor de colas.
- Matlab 7.3
- Biblioteca estadística R y su versión paralela rmpi, para cálculos y visualización estadísticas.
- Actualmente se está llevando a cabo la implementación de Matlab yde las librerías científicas ARPACK, LAPACK, BLAS y SPARSEKIT.
- Programa en desarrollo ACTIV, para el diseño aerodinámico de aeronaves
ODISEA. Estado actual.
El cluster ODISEA es a día de hoy un cluster modesto, con procesadores Intel Xeon EMT 64 a 3,2 Ghz (de nivel medio, por encima están los Intel ITANIUM2 y las nuevas familias Power6 desarrolladas por IBM). Cada nodo hijo cuenta con 2Gb de memoria por procesador (4Gb por nodo), que resulta bastante escaso para simulaciones en casi todos los ámbitos científicos. Por tanto, ODISEA es un recurso que puede resultar un excelente banco de prueba para muchos programas y aplicaciones, y sirve de acercamiento a lo que supone una máquina de supercomputación.
ODISEA. Ampliación.
En la actualidad van a desaparecer del mercado los procesadores mononúcleo, de modo que a partir de ahora los procesadores que adquiramos serán binúcleo: esto quiere decir que cada antiguo procesador tendrá dos núcleos, es decir estará dividido en dos procesadores (pero sin alcanzar la eficiencia individual de dos procesadores mononúcleo. Esencialmente un procesador binúcleo puede trabajar como 1,6 procesadores individuales). También están empezando a aparecer los cuatrinúcleo, que todavía son muy caros y no están eficientemente implementados en las placas bases, p.e. por problemas en la gestión del BUS.
ODISEA. Comparación a nivel mundial con clusters de computación.
Para hacernos una idea de los clústeres a nivel mundial la mejor referencia se encuentra en www.top500.org que incluye información de las 500 mejores máquinas del mundo. Algunas estadísticas relevantes son las siguientes.
El número de procesadores que se suelen instalar en estas supercomputadoras son:
| Number of Processors |
Count |
Share % |
Rmax Sum (GF) |
Rpeak Sum (GF) |
Processor Sum |
| 257-512 |
36 |
7.20 % |
117710 |
162157 |
17836 |
| 513-1024 |
192 |
38.40 % |
716626 |
1144890 |
171117 |
| 1025-2048 |
185 |
37.00 % |
865405 |
1423050 |
262844 |
| 2049-4096 |
38 |
7.60 % |
372432 |
584622 |
98884 |
| 4000-8000 |
19 |
3.80 % |
357877 |
470662 |
95140 |
| 8000-16000 |
17 |
3.40 % |
542883 |
717847 |
159128 |
Marca de los mejores cluster instalados en el mundo:
| Vendors |
Count |
Share % |
Rmax Sum (GF) |
Rpeak Sum (GF) |
Processor Sum |
| Cray Inc. |
15 |
3.00 % |
288171 |
357970 |
65415 |
| Dell |
17 |
3.40 % |
237620 |
341451 |
39788 |
| IBM |
236 |
47.20 % |
1747565 |
2633891 |
602658 |
| SGI |
20 |
4.00 % |
191687 |
218295 |
34992 |
| Sun Microsystems |
9 |
1.80 % |
44166 |
68484 |
14808 |
| Linux Networx |
7 |
1.40 % |
59127 |
84206 |
15820 |
| Hewlett-Packard |
158 |
31.60 % |
582026 |
978900 |
176002 |
El tipo de microprocesadores que montan son:
| Processor Family |
Count |
Share % |
Rmax Sum (GF) |
Rpeak Sum (GF) |
Processor Sum |
| Power |
91 |
18.20 % |
1204808 |
1611805 |
416492 |
| PA-RISC |
20 |
4.00 % |
63786 |
119950 |
30708 |
| Intel IA-32 |
120 |
24.00 % |
448066 |
802549 |
131962 |
| Intel IA-64 |
35 |
7.00 % |
316934 |
374798 |
60862 |
| Intel EM64T |
108 |
21.60 % |
602989 |
1021525 |
123242 |
| AMD x86_64 |
113 |
22.60 % |
766661 |
1118476 |
230061 |
Los sistemas operativos en los que trabajanse recogen a continuación:
Operating system Family
| Operating system Family |
Count |
Share% |
Rmax Sum(GF) |
Rpeak Sum(GF) |
Processor Sum |
| Linux |
376 |
75.20% |
2014910 |
3195766 |
516189 |
| Unix |
86 |
17.20% |
559636 |
807423 |
142104 |
| BSD Based |
3 |
0.60% |
47697 |
53248 |
5888 |
| Mixed |
32 |
6.40% |
872226 |
1104103 |
350484 |
| Mac OS |
3 |
0.60% |
32989 |
53008 |
6296 |
| Totals |
500 |
100% |
3527458.35 |
5213548.18 |
1020961 |
En vista de este sondeo sobre los mejores clusteres del mundo: El cluster tipo sería un cluster de entre 500 y 2000 microprocesadores de marca INTEL o AMD (probablemente de 64 bits), fabricados por IBM, Hewlett Packard o Silicon Graphics. En la actualidad IBM comienza a comercializar sus procesadores POWER6, que alcanzan lor 5Ghz y disipan el calor de forma muy eficiente, y deben tenerse en cuenta por sus grandes posibilidades en el futuro próximo. En cuanto al sistema operativo Linux, junto con UNIX, desarrolla un 95% de la computación científica a nivel mundial. Linux garantiza una compatibilidad y estandarización de programas de cálculo muy difícil de superar, así como una gran escalabilidad de sus sistemas.
PERSPECTIVAS DE FUTURO
Consideraciones generales
En la actualidad, existe la previsión de creación de un gran centro de computación en el seno de los institutos IMDEA de la CM.Este centro no debe contemplarse como la ampliación de ODISEA, que en breve alcanzará el máximo de sus posibilidades, sino como un nuevo centro en el que además de nuevos clusters tenga cabida ODISEA como una máquina más.
La previsión a cuatro años vista consiste en poner en marcha un centro de unos 1000 procesadores (alcanzando una posición intermedia dentro del top500 de supercomputación) que tuviera la infraestructura necesaria (eléctrica, tamaño, seguridad) para poder ser ampliado hasta 2000 procesadores en el futuro.
A nivel hardware es necesario hacer un estudio en profundidad y comprar adecuadamente teniendo en cuenta la rápida evolución de procesadores y memoria. En la actualidad, los procesadores más potentes disponibles de la familia Intel son Itanium2. Sería también recomendable seguir la evolución de los procesadores Power6 de IBM, que alcanzan los 5 Ghz y son muy eficaces en la dispersión de calor. Estos procesadores van a ser la competencia directa de los Itanium de Intel a corto plazo, y están empezando a implementarse, por ejemplo, en la gran ampliación prevista del RZG ("Rechenzentrum Garching" http://www.hpcwire.com/hpc/1236561.html), el centro de supercomputación conjunta de la Sociedad Max Plancky el Instituto Max Planck de Física de Plasmas en Garching, cuyo cluster eServer pSeries p5 575 1.9 GHz de IBM, con 688 procesadores, se encuentra ya en el puesto 159 en la lista del top500 .
En cuanto a memoria RAM, cada placa debería venir equipada con 32 Gb de memoria, siendo recomendables algunos nodos que alcanzasen los 64 Gb de memoria, para simulaciones especialmente demandantes, como las desarrolladas en aeronaútica.
En general, respecto al sistema operativo, el alto nivel de estandarización alcanzado con Linuxen computaciónjustifica su implementación en las máquinas que se compren independientemente de la compañía (HP, SGI, IBM,…). Además Linux facilita en gran medida los problemas de escalabilidad.
Globalmente, respecto al equipo a adquirir, al tratarse de una inversión muy importante y de consecuencias críticas, debemos dejarnos guiar por criterios como compatibilidad, la relación calidad/precio, asistencia técnica de la compañía, experiencia en el sector de la compañía, número de clústeres de semejantes características instalados, contacto con grupos de investigación que tengan clústeres similares (con los que podamos compartir problemas y soluciones).
Características técnicas y estructurales para un futuro centro de supercomputación
A continuación se recogen las características técnicas y estructurales necesarias para una infraestructura capaz de acoger un centro de computación. Para la instalación de un centro de supercomputación es necesario disponer de tres estancias de las siguientes características:
Sala de computación
Función
Destinada a albergar los equipos de computación (racks con los procesadores), servidores de discos de almacenamiento y switches. Es el corazón del centro de computación y además es el enclave desde el que los administradores velan por el correcto funcionamiento del cluster, así como de su gestión y soporte.
Localización
Existen varias alternativas a barajar:
- Planta sótano del edificio. Ventajas: Reduce las vibraciones y soporta mucho mejor que cualquier otra planta un mayor peso por metro cuadrado, mayor seguridad de los equipos. Inconvenientes: Peligro de inundación, dificultad de acceso, es necesario montacargas para la instalación de los equipos, recintos de mala habitabilidad para los trabajadores del cluster.
- Planta a nivel de tierra. Ventajas: Facilidad de entrada de equipos, menor riesgo de inundaciones, mejor habitabilidad. Inconvenientes: Mayor dificultad en la proyección, forjados resistentes.
- Planta intermedia. Ventajas: Riesgo nulo de inundaciones, mayor habitabilidad. Inconvenientes: Forjados resistentes.
En definitiva, en cuanto a la altura de la planta idónea para ubicar el cluster, se considera que se debe primar la accesibilidad de las máquinas (que pesan más de una tonelada) y para las cuales sería necesario disponer de un ascensor montacargas si se desea ubicarlas en altura o en sótano. Por ello, se considera que una planta a ras de suelo (con la elevación necesaria para evitar humedades) y con accesos preparados (puertas de 3 metros de altura) sería idóneo para la ubicación. Además, puesto que en la sala de gestión habrá profesionales realizando su trabajo, se considera que la ubicación en plantas sótano, podría resultar contraproducente.
Dimensiones
En base a centros similares de cálculo se estima aproximadamente una superficie mínima necesaria de unos 150 m2 para la sala que alberga los equipos, más otros 50 m2 dedicados a una sala de gestión, que deberá estar debidamente aislada (tanto en lo que respecta al sonido que emitan las máquinas de cómputo, como térmicamente). En total, serían unos 200 m2 de planta. Una posible distribución podría consistir en una sala de gestión acristalada situada en medio de la sala de máquinas (de forma que a modo de mirador, se pudiera visualizar los recursos y las instalaciones). A la sala de gestión se podría acceder directamente desde el piso superior mediante una escalera separada por puertas ignífugas.
La sala de computación donde se ubican los racks tiene que tener una altura minima de 5 metros puesto que debe disponer de un falso suelo de 1 metro de altura, y de un falso techo de 1.5 metros, para albergar tanto el cableado, como los sistemas de refrigeración, vigilancia, y control de incendios.

Cada rack tiene las siguientes dimensiones aproximadas:
- 2 metros de altura
- 1.196 Kgr. de peso
- 1.524 mm de ancho
- 1.220 mm de profundidad
- Aproximadamente unos 2 m2 de área, pero hay que contar además con una cierta separación entre los racks, y espacio para pasillos.
- Cada rack cuenta con unos 32 o 64 procesadores.

Actualmente existen equipos que proporcionan mayor capacidad de integración. Se trata de “blades” formados a base de placas con varios procesadores, y que permiten un nivel de integración aproximado de unos 90 procesadores en un espacio similar al de un rack.
Es importante el hecho de que el forjado del suelo sea capaz de soportar el peso de los rack, puesto que la proporción peso por m2 es muy alta. 800/m2 con coeficiente de seguridad de 1.25
Electricidad, refrigeración, sistema antiincendios y seguridad
Sistema antiincendios: Las instalaciones deberán contar con un sistema contraincendios robusto y con aquellas consideraciones que la ley plantee a este respecto. Debido a los gases tóxicos empleados para la extinción de incendios, la sala de computación debe de poder aislarse completamente del resto del edificio. Además sería interesante la instalación de sensores para controlar la temperatura de la sala y generar avisos a los administradores en caso de que se sobrepasara un cierto umbral.
Control de acceso restringido a las instalaciones: Se deberá instalar un sistema de control de acceso de forma que sólo se permita el acceso a las instalaciones a ciertas personas.
Cámaras de vigilancia y monitorización: Sería conveniente la instalación de cámaras de vigilancia en la sala en la que irán ubicadas las máquinas de computación.
Es necesario la instalación de un sistema de aire acondicionado adecuado a un centro de computación, a través del suelo (el aire frío sale desde abajo y es en el techo) de forma se garantice una correcta temperatura en toda la sala. Una temperatura correcta de funcionamiento estaría cercana a los 20º (idealmente, trabajaríamos a unos 15º. Sin embargo el consumo de electricidad se encarecería muchísimo. Razonable es tratar de alcanzar unos 17-18º).
Sala de aprovisionamiento energético
Misión
Destinada a albergar los equipos de generación de energía y las UPS, encargados de proporcionar la alimentación a los distintos recursos del centro de computación, incluido el sistema de aire acondicionado.
Configuración
El esquema eléctrico básico para un centro de computación:

Todos los sistemas, tanto los generadores, como las UPS, deberán ser redundantes y establecerse una conexión correcta con las máquinas de cómputo, de forma que se garantice la prestación del servicio pese a cortes en el sistema eléctrico.
Se considera que la ubicación más idónea consistiría en un edificio auxiliar e independiente de una única planta de unos 150 m2.
En este edificio se prestará especial atención al aislamiento con respecto del agua.
En este edificio no iría ninguna dependencia para trabajo de personal debido a las influencias negativas para la salud de este tipo de instalaciones.
Distribución eléctrica: fundamental a la hora de diseñar la sala. Por un lado es necesaria una línea normal de planta, que mantendrá la luz, calefacción y despachos si los hubiera, y por otro lado una línea de cálculo que debe ser trifásica. A la hora de definir la intensidad de la línea de cálculo una aproximación adecuada es que una línea de 100 A soporta unas 80 placas de cálculo.
Haciendo una proyección de 500 placas (1000 procesadores) a cuatro años., partiendo de 125 placas, y suponiendo una vida media de las placas de 4 años, y una ampliación de 125 placas anuales, habría que mantener simultáneamente unas500 placas, lo que supone una intensidad de corriente total de unos 650 A.
Si además tenemos en cuenta que una instalación con 5 aires acondicionados adecuados para computación (4500 W) pueden utilizar unos 50 A de corriente, y que es necesario un aire acondicionado por cada dos racks (con 25 placas c/u), serían necesarios unos 10 aires acondicionados que consumirían unos 100 A.
Sumando el gasto de corriente de refrigeración y máquinas alcanzamos unos 750 A. Redondeando, alcanzamos 800 A para un centro con 1000 procesadores. Podría instalarse una línea de luz de 800 A (cuya existencia comercial desconozco, aunque las de 1000 A existen con toda seguridad), e incluso una segunda extra para alcanzar en posteriores ampliaciones los 2000 procesadores en el centro.
Generador: Necesario para mantener la corriente en caso de avería o caída de corriente. Suele basarse en un motor diesel. Debe generar corriente de la misma intensidad que la distribuidora. En condiciones normales (sin avería) no está funcionando, y la electricidad pasa a través del Bypass. Dadas las generosas previsiones para el centro, no sería descabellado trabajar con dos generadores.
UPS (Uninterrumpible Power Supply): gran batería a través de la que las máquinas reciben electricidad. Garantiza que no se queden nunca sin corriente. En caso de fallo de la distribución, y hasta la puesta en marcha del generador, suministra corriente a costa de sus baterías. El bypass permite mantener el sistema en servicio en caso de avería de la UPS. En función de las dimensiones con las que estamos hablando, habría que trabajar con una UPS por cada 100 A, aproximadamente.
Distribución de la línea de 400 A. Cuadros y diferenciales:

Finalmente, disponiendo de una línea de 800 A (o incluso de 400 A) lo más conveniente es bifurcarla desde el cuadro principal para ir escalando su uso con las distintas ampliaciones, por ejemplo,

Refrigeración: anteriormente hemos expuesto los requerimientos eléctricos del aire acondicionado. Hay que calcular un aire acondicionado de unos 4500 W por cada dos racks, más algún extra para prever averías. Idealmente, disponiendo de suficiente intensidad de corriente debería estar conectado a la UPS. En caso de una caída de tensión, si la UPS asume el suministro de corriente de las máquinas pero no el del aire, las máquinas pueden estropearse por sobrecalentamiento. Otra opción, más económica, es conectarlo al generador.
Sala de backup
Misión
Destinada a la ubicación de una máquina de backup (robot), y a una caja fuerte ignífuga.
Dimensiones y localización
Se estima que se necesitarían aproximadamente unos 50 m2.
Por motivos de seguridad, la ubicación tiene que ser distinta de la de las máquinas de las que se hace el backup, e incluso es conveniente que se trate de otro edificio.