Universidad Complutense de Madrid

Implantación de infraestructura como código en AWS

Cliente y servicio Cloud

Resumen ejecutivo

La Universidad Complutense de Madrid (UCM) es la mayor universidad presencial de España y la tercera a nivel europeo. Ubicada en Madrid rodeada de zonas verdes y con una intensa vida cultural y deportiva, dispone de más de 86.000 estudiantes inscritos.

La UCM es una universidad pública que apuesta por una formación integral y crítica del más alto nivel. Tiene convenios de cooperación con 340 universidades de todo el mundo y con 934 instituciones en 77 países, que permiten realizar intercambios de estudiantes, personal docente e investigador y PAS.

La actividad investigadora del Grupo de Arquitectura y Tecnología de Sistemas Informáticos (ArTeCS) de la Universidad Complutense de Madrid se centra en la concepción y construcción de sistemas de procesamiento digital de la información, y su aplicación eficiente en cuanto a rendimiento, consumo energético y coste. Dentro de esta amplia área, el grupo presta especial atención a la informática de alto rendimiento, el diseño de la jerarquía de memoria y procesador y los sistemas integrados.

Soluciones

  • Auto Scaling Groups
  • S3
  • EC2
  • AMI
  • GitLab
  • Jenkins
  • Terraform

Del reto al resultado

El reto

El grupo ArTeCS de la UCM requería de una automatización y disponibilidad flexible de su infraestructura IT. Los investigadores tenían un impedimento a la hora de poder ejecutar cargar de computación neuronal dado que la disponibilidad del hardware y su coste se debía priorizar en aquellos campos que aportarán más valor, impidiendo así ampliar el foco a otros nichos y tener que reservar turnos de uso para sus cálculos.

Por este motivo ArTeCS precisaba de la automatización de la infraestructura para tratar las tareas comunes de gestión, como son la preparación, la configuración, la implementación y finalmente el destroy de los servicios levantados en AWS que simplifican las operaciones. Así, se permitía recuperar el control y la concurrencia de infraestructuras levantadas a los diferentes equipos de investigadores.

La nueva solución permitiría a los equipos de investigación tener control y acceso concurrente a las infraestructuras necesarias para llevar a cabo sus cálculos, sin depender de los turnos y las limitaciones previas. Gracias a esta automatización, los investigadores podrían ampliar el alcance de sus proyectos a nuevas áreas de estudio, sin comprometer el uso eficiente de los recursos y reduciendo los tiempos de espera para ejecutar sus simulaciones y experimentos computacionales.

La solución tecnológica

ACKstorm propuso la implementación de infraestructura como código para permitir levantar la infraestructura necesaria en los proyectos de investigación de una manera programada, permitiendo la estandarización de las plataformas levantadas, la eliminación de la necesidad de realizar configuraciones manuales y los errores en la eliminación de infraestructura utilizada una vez finalizado el proyecto.

Las necesidades de computación para este tipo de servicios de cálculos neuronales, requerían una alta capacidad de procesamiento. Para ello, se implementaron los siguientes tipos de instancias:

  • f1.2xlarge: ( 1 FPGA, 8vCPU y 122 GB RAM)
  • Ml.t3.medium (2vCPU y 4GB RAM), p2.xlarge (1 GPU, 4 vCPU y 61GB RAM)
  • Amazon Machine (AMI)

La construcción de infraestructura de forma programática permite que pueda ser replicable gracias a la capacidad de modificar, configurar y apagar en cuestión de minutos.

La infraestructura es tratada de la misma manera que cualquier otro código empleado por los investigadores, por lo que se pueden aplicar las mejores prácticas como son el control de versiones, las pruebas y el monitoreo continuo.

También se ha utilizado la herramienta open source Terraform conectada a las APIs de AWS, para el desarrollo como código de las infraestructuras de los laboratorios que se debían levantar.

El resultado obtenido

La solución implementada permitió una estandarización completa de las plataformas desplegadas, eliminando la necesidad de configuraciones manuales y, con ello, reduciendo significativamente los errores humanos tanto en la configuración como en la eliminación de la infraestructura utilizada. Esta automatización no solo mejoró la precisión operativa, sino que también optimizó el tiempo de los investigadores, permitiéndoles concentrarse en su trabajo de investigación en lugar de gestionar manualmente los recursos tecnológicos.

Con la nueva infraestructura automatizada, es posible replicar, modificar, configurar y apagar los entornos en cuestión de minutos, lo que brinda una flexibilidad sin precedentes en la ejecución de proyectos. Esta agilidad ha facilitado a los investigadores la adopción de las mejores prácticas de la industria, como el control de versiones de sus entornos, la realización de pruebas de manera continua, y el monitoreo proactivo del estado y rendimiento de las plataformas.

Además, la capacidad de apagar y encender la infraestructura en función de las necesidades ha generado un ahorro considerable en los costos operativos, maximizando el uso eficiente de los recursos tecnológicos. En definitiva, la solución ha proporcionado una infraestructura robusta, escalable y eficiente que respalda el avance continuo de las investigaciones, garantizando una mayor productividad y calidad en los procesos.

Testimonial

Juan Carlos Moreno

CIO & Co-Founder de ACKstorm

«Colaborar con la Universidad Complutense de Madrid ha sido muy gratificante. En ACKstorm, nos enorgullece haber automatizado y flexibilizado su infraestructura IT, permitiendo a los investigadores del Grupo ArTeCS ejecutar cargas de computación neuronal sin limitaciones. La implementación de infraestructura como código ha mejorado la eficiencia operativa y facilitado una mayor innovación en sus proyectos. Estamos encantados de haber apoyado a la UCM y esperamos seguir contribuyendo a su éxito.»

Compártelo con tu comunidad

¿Quieres saber más sobre este caso de uso u otros?

Nos enfocamos en las soluciones, para que puedas enfocarte en tus desarrollos.