Halian

Offre d'emploi HPC Operations

France

Halian

Le poste

CDI
Freelance
Dès que possible
4 ans renouvelable
5 à 10 ans d’expérience
Télétravail 100%
France
Publiée le 05/05/2026

Partager cette offre

FULL REMOTE

Principal Engineer – HPC OperationsDescription du poste

Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning.

Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes.
Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles.

Responsabilités principales
  • Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes).

  • Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage).

  • Être le point de contact technique principal pour les déploiements HPC dans le périmètre.

  • Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents.

  • Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM).

  • Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow).

  • Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources.

  • Piloter les analyses de causes racines (RCA), contribuer aux post-mortems et mener des actions d’amélioration continue.

  • Encadrer et accompagner les ingénieurs moins expérimentés, favoriser le partage de connaissances et la montée en compétences.

  • Participer à l’astreinte si nécessaire.

  • Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit, et maintenir la documentation associée.

Profil recherchéFormation & expérience
  • Bac+5 en informatique, ingénierie ou domaine technique équivalent.

  • Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique.

Compétences techniques
  • Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).

  • Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.

  • Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.

  • Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).

  • Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.

  • Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).

  • Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).

  • Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.

Profil recherché

Compétences techniques
  • Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage).

  • Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML.

  • Solide maîtrise de la gestion des GPU, des ordonnanceurs de charges et de l’optimisation des performances.

  • Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM).

  • Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform.

  • Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu).

  • Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE).

  • Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.

Environnement de travail

À propos de Halian Group

Fort de plus de 28 ans d’expérience, Halian Group est convaincu que l’innovation est la clé pour proposer des solutions agiles et concrètes, transformant à la fois les entreprises et les carrières.

Nos services de resourcing et de smart services vous aident à concrétiser le potentiel de demain en réunissant les bonnes personnes et les bonnes technologies.

100 - 249 salariés
Cabinet de recrutement / placement
Staffgroup est un cabinet de placement de profils spécialisés dans l'informatique. Pour du freelancing ou des postes en CDI, nous accompagnons les candidats et les entreprises dans leurs recherches. Notre objectif n'est pas de révolutionner le recrutement mais d'en simplifier toutes les étapes parfois laborieuses. Et pour cela, nos équipes sont divisées par domaines de spécialisation : Java, JavaScript, Microsoft .Net, Data, PHP et Infrastructure. Staffgroup est présent sur toute l'Europe, en particulier sur les marchés suivants : France, Belgique, Pays-Bas, Scandinavie, Suisse et l'Allemagne.

Postulez à cette offre !

Trouvez votre prochaine mission parmi +9 000 offres !

  • Fixez vos conditions

    Rémunération, télétravail... Définissez tous les critères importants pour vous.

  • Faites-vous chasser

    Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.

  • 100% gratuit

    Aucune commission prélevée sur votre mission freelance.

HPC Operations

Halian

Au service des talents IT

Free-Work est une plateforme qui s'adresse à tous les professionnels des métiers de l'informatique.

Ses contenus et son jobboard IT sont mis à disposition 100% gratuitement pour les indépendants et les salariés du secteur.

Free-workers
Ressources
A propos
Espace recruteurs
2026 © Free-Work / AGSI SAS
Suivez-nous