Halian
Publiée le
05/05/2026
Calcul hautes performances (HPC)
CPU
GPU
FULL REMOTE Principal Engineer – HPC Operations Description du poste Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning . Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes . Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles. Responsabilités principales Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes). Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage). Être le point de contact technique principal pour les déploiements HPC dans le périmètre. Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents. Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM). Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow). Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources. Piloter les analyses de causes racines (RCA) , contribuer aux post-mortems et mener des actions d’amélioration continue. Encadrer et accompagner les ingénieurs moins expérimentés , favoriser le partage de connaissances et la montée en compétences. Participer à l’ astreinte si nécessaire. Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit , et maintenir la documentation associée. Profil recherché Formation & expérience Bac+5 en informatique, ingénierie ou domaine technique équivalent. Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique . Compétences techniques Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage). Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML. Solide maîtrise de la gestion des GPU , des ordonnanceurs de charges et de l’optimisation des performances. Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM). Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform. Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu). Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE). Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.
Voir cette offre