Halian

Job Vacancy HPC Operations

France

Halian

Job position

Permanent
Contractor
As soon as possible
4 years renewable
5 to 10 years experience
Remote
France
Published on 05/05/2026

Share this job

FULL REMOTE

Principal Engineer – HPC OperationsDescription du poste

Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning.

Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes.
Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles.

Responsabilités principales
  • Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes).

  • Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage).

  • Être le point de contact technique principal pour les déploiements HPC dans le périmètre.

  • Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents.

  • Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM).

  • Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow).

  • Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources.

  • Piloter les analyses de causes racines (RCA), contribuer aux post-mortems et mener des actions d’amélioration continue.

  • Encadrer et accompagner les ingénieurs moins expérimentés, favoriser le partage de connaissances et la montée en compétences.

  • Participer à l’astreinte si nécessaire.

  • Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit, et maintenir la documentation associée.

Profil recherchéFormation & expérience
  • Bac+5 en informatique, ingénierie ou domaine technique équivalent.

  • Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique.

Compétences techniques
  • Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).

  • Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.

  • Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.

  • Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).

  • Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.

  • Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).

  • Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).

  • Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.

Candidate profile

Compétences techniques
  • Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).

  • Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.

  • Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.

  • Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).

  • Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.

  • Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).

  • Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).

  • Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.

Working environment

À propos de Halian Group

Fort de plus de 28 ans d’expérience, Halian Group est convaincu que l’innovation est la clé pour proposer des solutions agiles et concrètes, transformant à la fois les entreprises et les carrières.

Nos services de resourcing et de smart services vous aident à concrétiser le potentiel de demain en réunissant les bonnes personnes et les bonnes technologies.

100 - 249 employees
Recruitment agency
Staffgroup est un cabinet de placement de profils spécialisés dans l'informatique. Pour du freelancing ou des postes en CDI, nous accompagnons les candidats et les entreprises dans leurs recherches. Notre objectif n'est pas de révolutionner le recrutement mais d'en simplifier toutes les étapes parfois laborieuses. Et pour cela, nos équipes sont divisées par domaines de spécialisation : Java, JavaScript, Microsoft .Net, Data, PHP et Infrastructure. Staffgroup est présent sur toute l'Europe, en particulier sur les marchés suivants : France, Belgique, Pays-Bas, Scandinavie, Suisse et l'Allemagne.

Apply to this job!

Find your next career move from +10,000 jobs!

  • Manage your visibility

    Salary, remote work... Define all the criteria that are important to you.

  • Get discovered

    Recruiters come directly to look for their future hires in our CV library.

  • Join a community

    Connect with like-minded tech and IT professionals on a daily basis through our forum.

HPC Operations

Halian

Connecting Tech-Talent

Free-Work, THE platform for all IT professionals.

Free-workers
Resources
About
Recruiters area
2026 © Free-Work / AGSI SAS
Follow us