Responsable de l’infrastructure cloud du Human Brain Project à l’EPFL.
Le projet impliquait 400+ VMs réparties sur 4 datacenters européens. J’administrais la plateforme OpenStack, les clusters Kubernetes (OpenShift), et j’automatisais le provisioning avec Ansible/AWX. Le monitoring reposait sur Zabbix, l’authentification sur Keycloak, et les images Docker étaient gérées via Harbor.
Un jour, notre hébergeur principal CSCS a perdu l’accès Internet à cause d’un incident de sécurité sur ses supercalculateurs. On a dû redéployer une partie des applications chez Exoscale en urgence. Ça nous a rappelé l’importance d’avoir un plan B réel, pas juste sur papier.