Le poste HPC Operations
Partager cette offre
Principal Engineer – HPC OperationsDescription du poste
Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning.
Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes.
Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles.
Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes).
Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage).
Être le point de contact technique principal pour les déploiements HPC dans le périmètre.
Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents.
Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM).
Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow).
Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources.
Piloter les analyses de causes racines (RCA), contribuer aux post-mortems et mener des actions d’amélioration continue.
Encadrer et accompagner les ingénieurs moins expérimentés, favoriser le partage de connaissances et la montée en compétences.
Participer à l’astreinte si nécessaire.
Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit, et maintenir la documentation associée.
Bac+5 en informatique, ingénierie ou domaine technique équivalent.
Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique.
Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).
Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.
Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.
Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).
Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.
Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).
Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).
Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.
Profil recherché
Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).
Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.
Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.
Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).
Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.
Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).
Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).
Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.
Environnement de travail
À propos de Halian Group
Fort de plus de 28 ans d’expérience, Halian Group est convaincu que l’innovation est la clé pour proposer des solutions agiles et concrètes, transformant à la fois les entreprises et les carrières.
Nos services de resourcing et de smart services vous aident à concrétiser le potentiel de demain en réunissant les bonnes personnes et les bonnes technologies.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +9 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
HPC Operations
Halian
