Jobs and contract opportunities GPU

Contractor job
Expert GPU GRID

EXteam

Published on 02/06/2026

GPU

Helm

Kubernetes

3 years

500-630 €

Ile-de-France, France

Missions principales (Doit connaitre Kubernetes, Helm, Python, Gestion et tunning de GPU (Nvidia)) Gestion du RUN • Supervision des alertes, incidents et changements ; • Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ; • Rédaction & maintenance des runbooks, playbooks et SOP ; • Suivi du MTTR, escalades et reporting aux parties prenantes. Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ; • Mise en place d’actions correctives et préventives ; • Gestion du carnet d’incidents dans ServiceNow (SNOW). Optimisation des plateformes • Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ; • Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ; • Gestion des patchs de sécurité et suivi des CVE. Automation & CI/CD • Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ; • Intégration des bonnes pratiques GitOps. Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ; • Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ; • Veille à la conformité ITSM (processes, KPI, SLA). Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ; • Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore Profil recherché Expérience • 5 + ans d’expérience en exploitation (Run/Production) d’environnements Kubernetes à grande échelle ; • Expérience confirmée avec des équipes offshore ou distribuées (3 personnes minimum). Compétences techniques • Kubernetes, Helm, Argo CD ; • Scripting Python (débogage, packaging : venv, poetry, uv) ; • Notions Data Science : pandas, numpy ; • CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ; • Observabilité (Prometheus, Grafana, Loki) ; • Gestion des GPU (NVIDIA GRID) ; • Sécurité production : gestion CVE, RBAC, Vault.

Job Vacancy
HPC Operations

Halian

Published on 05/05/2026

CPU

GPU

High performance computing (HPC)

4 years

France

FULL REMOTE Principal Engineer – HPC Operations Description du poste Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning . Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes . Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles. Responsabilités principales Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes). Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage). Être le point de contact technique principal pour les déploiements HPC dans le périmètre. Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents. Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM). Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow). Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources. Piloter les analyses de causes racines (RCA) , contribuer aux post-mortems et mener des actions d’amélioration continue. Encadrer et accompagner les ingénieurs moins expérimentés , favoriser le partage de connaissances et la montée en compétences. Participer à l’ astreinte si nécessaire. Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit , et maintenir la documentation associée. Profil recherché Formation & expérience Bac+5 en informatique, ingénierie ou domaine technique équivalent. Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique . Compétences techniques Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage). Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML. Solide maîtrise de la gestion des GPU , des ordonnanceurs de charges et de l’optimisation des performances. Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM). Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform. Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu). Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE). Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.

Contractor job
Ingénieur ML Platform Senior

Cherry Pick

Published on 06/05/2026

GPU

Machine Learning

Python

12 months

610 €

Paris, France

En tant qu' Ingénieur ML au sein de l'équipe ML Platform, vous mettrez à profit votre solide expérience en industrialisation , votre maîtrise de Python et votre expertise pratique de l'entraînement de modèles. Votre rôle sera de faciliter le travail quotidien du ML Lab sur (leur "neocloud" de choix) et d'assurer la liaison avec l'outillage MLOps (principalement sur AWS ), en étroite collaboration avec un ingénieur DevOps dédié. Responsabilités Clés Favoriser l'expérimentation rapide : Créer et maintenir les outils permettant aux chercheurs d'itérer rapidement sur de nouvelles approches ML. Gérer des expériences de recherche à grande échelle : Concevoir et superviser des cycles d'entraînement massifs sur l'infrastructure , en implémentant le suivi des expériences ( experiment tracking ) et la reproductibilité. Faciliter la collaboration externe : Permettre une collaboration sécurisée avec des partenaires académiques et l'accès aux ressources open-source tout en respectant les protocoles de sécurité. Optimisation des performances et des ressources : Profiler et optimiser les pipelines d'entraînement ; gérer efficacement les ressources GPU. Développement d'outils de recherche : Développer des bibliothèques et utilitaires spécifiques aux domaines du Lab (nouvelles architectures, techniques d'entraînement, frameworks d'évaluation). Transfert de connaissances : Partager les enseignements issus de la recherche expérimentale avec l'ensemble de l'équipe ML Platform et les chercheurs

Job Vacancy
Ingénieur DevOps Data / IA Générative On-Premise — Secteur bancaire

WE +

Published on 02/06/2026

Ansible

Dataiku

Docker

12 months

Ile-de-France, France

Contexte et environnement Notre client, acteur majeur du secteur bancaire, engage un projet stratégique autour de la conception, du déploiement, de l’industrialisation et de l’exploitation d’une plateforme d’intelligence artificielle générative en environnement on-premise. Ce dispositif s’inscrit dans un contexte bancaire exigeant, marqué par de forts enjeux de sécurité, de conformité, de souveraineté, de gouvernance des données et de résilience des services. L’objectif est de mettre à disposition des solutions GenAI industrialisées, sécurisées et exploitables à grande échelle pour différents métiers et entités internes. L’intervention s’effectuera au sein d’une équipe dédiée aux produits et services Data & IA, dans un environnement technique complexe, distribué, hautement disponible et soumis à des exigences fortes en matière de production IT. Périmètre d’intervention Le périmètre couvre l’ensemble du cycle de vie de la plateforme, depuis la contribution à la conception du service jusqu’à son maintien en conditions opérationnelles et de sécurité en production. Le consultant interviendra sur un dispositif à forts enjeux techniques, au croisement des sujets DevOps, Data, IA générative, conteneurisation, automatisation, sécurité et exploitation de plateformes critiques. Dans un environnement bancaire, la capacité à sécuriser les déploiements, fiabiliser les processus d’industrialisation et garantir la conformité des services sera déterminante. Missions principales Dans ce cadre, le consultant contribuera notamment à : Industrialiser et automatiser le déploiement d’une plateforme d’IA générative en environnement on-premise sécurisé ; Contribuer à la conception et à l’évolution de l’architecture de la plateforme ; Participer à la mise en place de services managés intégrant les contraintes de sécurité, de conformité, de gouvernance et de production bancaire ; Accompagner la mise en production des offres et services associés ; Documenter les services, les modes opératoires et les éléments nécessaires à leur exploitation ; Réaliser des présentations et démonstrations afin de valoriser les offres et services auprès des parties prenantes ; Maintenir les plateformes IA déployées en conditions opérationnelles et de sécurité ; Contribuer au traitement des sujets techniques au sein d’une équipe produit ; Participer aux échanges de cadrage, de priorisation et de co-construction de la roadmap ; Prendre en charge des éléments de backlog formalisés par le Product Owner ; Assurer un rôle de référent technique sur un produit ou un périmètre de la plateforme ; Participer aux rituels d’équipe et aux instances de coordination du dispositif ; Contribuer aux astreintes techniques liées au périmètre. Compétences attendues Le consultant devra présenter une expérience solide sur les environnements DevOps, Data et plateformes distribuées, avec une capacité à intervenir sur des sujets d’industrialisation, d’automatisation et d’exploitation en environnement critique. Les compétences attendues sont notamment les suivantes : Maîtrise du déploiement et de la manipulation de workloads Data ; Bonne compréhension des environnements conteneurisés et des pratiques CI/CD ; Expérience sur des plateformes Kubernetes, OpenShift et Docker ; Capacité à intervenir sur des environnements on-premise sécurisés ; Connaissance des meilleures pratiques en matière de sécurité des données, conformité et gouvernance ; Expérience en automatisation et infrastructure as code ; Capacité à documenter, structurer et sécuriser des services techniques destinés à la production ; Aptitude à porter un rôle de référent technique au sein d’une équipe produit. Une expérience dans le secteur bancaire, financier ou dans un environnement fortement réglementé sera particulièrement appréciée. Une connaissance des plateformes d’IA générative, des environnements LLMOps ou des plateformes agentiques constitue également un plus.

Contractor job
ML Engineer senior orienté plateforme / DevOps ML

Trait d'Union

Published on 06/05/2026

AWS Cloud

Deep learning

Docker

1 year

400-760 €

Paris, France

Permettre à des chercheurs de tester, entraîner et industrialiser rapidement des modèles de machine learning à grande échelle, dans un environnement hybride : neocloud pour la recherche AWS (MLOps / prod) Gérer des entraînements de modèles à grande échelle (GPU / distribué) Assurer la reproductibilité des expériences Optimiser les ressources (GPU, compute) Créer des outils internes pour la recherche ML Faire le lien entre recherche académique ↔ production industrielle Avoir déjà travaillé : soit dans une boîte très technique (type scale-up / deeptech) soit dans un environnement de recherche / labo Parler Anglais

Job Vacancy
Ingénieur Infrastructure - Support LLM Gateway

VISIAN

Published on 30/06/2026

Ansible

Argo CD

Gitlab

1 year

40k-55k €

520-580 €

Paris, France

Vous rejoindrez une équipe de 5 ingénieurs infrastructure répartis sur 2 produits IA/LLM au sein de la Division IA & Data. Vous participerez au support d'une application de gateway d'accès LLM et contribuerez à l'exploitation d'un portefeuille de 3 produits majeurs : une plateforme d'inférence LLM, un pipeline de data-science et un service de mise à disposition de modèles IA. Vos missions principales couvriront plusieurs domaines : Gestion du RUN : Vous assurerez la supervision des alertes, incidents et changements, coordonnerez le triage (L1 → L2 → L3) avec l'équipe offshore, rédigerez et maintiendrez les runbooks, playbooks et SOP, et suivrez le MTTR, les escalades et le reporting aux parties prenantes. Incident Management & RCA : Vous conduirez des enquêtes post-mortem (RCA), mettrez en place des actions correctives et préventives, et gérerez le carnet d'incidents dans ServiceNow (SNOW). Optimisation des plateformes : Vous monitorerez les métriques (latence, utilisation GPU, capacité des nœuds), proposerez des optimisations (autoscaling, right-sizing, tuning des ressources) et gérerez les patchs de sécurité et le suivi des CVE. Automation & CI/CD : Vous automatiserez les tâches récurrentes via des scripts Python, Terraform et Ansible. Collaboration & gouvernance : Vous serez l'interface avec les Product Owners, les équipes DataScience et les fournisseurs d'infrastructure, participerez aux cérémonies Scrum/Kanban (stand-up, grooming, retro) et veillerez à la conformité ITSM (processes, KPI, SLA). Support aux utilisateurs : Vous gérerez les demandes d'accès, les droits RBAC et la documentation technique, et assurerez la formation ponctuelle (on-boarding) des nouveaux membres de l'équipe offshore. L'environnement technique comprend Kubernetes (cluster(s) on-prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault) et gestion des GPU (NVIDIA GRID). La méthodologie utilisée est Agile (Scrum/Kanban) avec tableau JIRA et suivi ITSM (ServiceNow).

Contractor job
POT9264 - Un Senior Software Engineer sur Grenoble

Almatek

Published on 25/06/2026

Safe

6 months

Grenoble, Auvergne-Rhône-Alpes

Almatek recherche pour l'un de ses clients Un Senior Software Engineer sur Grenoble. Profil recherché : - Très bonne maîtrise de Python, avec une vraie expérience de développement (obligatoire) - Compétence solide sur les deux domaines suivants, avec une priorité sur l'IA : - Agentic AI (IA agentique), avec des frameworks comme LangChain, LangGraph, LangSmith - Edge computing (informatique de périphérie) - Bon niveau d'anglais, écrit et parlé (obligatoire) - Profil senior, capable de s'engager sur une mission longue durée En plus c'est un vrai plus : Linux, Docker, CI/CD, IoT, GPU, Scrum/SAFe

Contractor job
POT9236 - Un Senior Software Engineer / DevOps sur Grenoble

Almatek

Published on 11/06/2026

Python

6 months

Grenoble, Auvergne-Rhône-Alpes

Almatek recherche pour l'un de ses clients Un Senior Software Engineer / DevOps sur Grenoble. Profil recherché : - Senior (7+ ans d'expérience) - Développement Python + Azure Cloud - DevOps / DevSecOps : CI/CD (GitHub Actions), Docker, Kubernetes / K3s, Helm - Bonne maîtrise de Linux et des architectures micro-services distribuées - Un plus : Edge AI (Machine Learning, Computer Vision, Agentic AI), C/C++/Rust, GPU - Anglais courant Localisation : Grenoble + 2jrs de TT Almatek recherche pour l'un de ses clients Un Senior Software Engineer / DevOps sur Grenoble. Profil recherché : - Senior (7+ ans d'expérience) - Développement Python + Azure Cloud - DevOps / DevSecOps : CI/CD (GitHub Actions), Docker, Kubernetes / K3s, Helm - Bonne maîtrise de Linux et des architectures micro-services distribuées - Un plus : Edge AI (Machine Learning, Computer Vision, Agentic AI), C/C++/Rust, GPU - Anglais courant Localisation : Grenoble + 2jrs de TT

Contractor job
Ingénieur ML Platform Senior

Cherry Pick

Published on 30/06/2026

MLOps

Python

Pytorch

24 months

Paris, France

En tant qu' Ingénieur ML au sein de l'équipe ML Platform, vous mettrez à profit votre solide expérience en industrialisation , votre maîtrise de Python et votre expertise pratique de l'entraînement de modèles. Votre rôle sera de faciliter le travail quotidien du ML Lab sur (leur "neocloud" de choix) et d'assurer la liaison avec l'outillage MLOps (principalement sur AWS ), en étroite collaboration avec un ingénieur DevOps dédié. Responsabilités Clés Favoriser l'expérimentation rapide : Créer et maintenir les outils permettant aux chercheurs d'itérer rapidement sur de nouvelles approches ML. Gérer des expériences de recherche à grande échelle : Concevoir et superviser des cycles d'entraînement massifs sur l'infrastructure , en implémentant le suivi des expériences ( experiment tracking ) et la reproductibilité. Faciliter la collaboration externe : Permettre une collaboration sécurisée avec des partenaires académiques et l'accès aux ressources open-source tout en respectant les protocoles de sécurité. Optimisation des performances et des ressources : Profiler et optimiser les pipelines d'entraînement ; gérer efficacement les ressources GPU. Développement d'outils de recherche : Développer des bibliothèques et utilitaires spécifiques aux domaines du Lab (nouvelles architectures, techniques d'entraînement, frameworks d'évaluation). Transfert de connaissances : Partager les enseignements issus de la recherche expérimentale avec l'ensemble de l'équipe ML Platform et les chercheurs

Contractor job
FinOps Cloud (H/F)

HELIS

Published on 03/07/2026

FinOps

Openshift

OpenStack

3 months

400-680 €

Paris, France

Dans le cadre du développement de son Cloud privé, notre client recherche un FinOps Cloud afin d'accompagner le pilotage économique des infrastructures Cloud et de contribuer à l'optimisation des coûts liés à la consommation des ressources. Rattaché aux équipes d'architecture Cloud, vous interviendrez au croisement des enjeux techniques, financiers et opérationnels afin de mettre en place une démarche FinOps pérenne, permettant d'améliorer la visibilité des coûts, d'optimiser les dépenses et d'accompagner les équipes dans leurs décisions. Vos principales missions seront les suivantes : Concevoir et faire évoluer les modèles de coûts des services Cloud (IaaS, stockage, GPU, plateformes conteneurisées, etc.). Définir les mécanismes de valorisation et de refacturation des ressources consommées. Garantir la cohérence des modèles tarifaires avec les référentiels et recommandations en vigueur. Collecter, consolider et analyser les données de consommation des infrastructures Cloud. Développer des tableaux de bord et des reportings permettant un suivi précis des coûts par projet, service ou entité. Automatiser la collecte et le traitement des données grâce à des scripts, API et outils d'analyse. Participer à l'amélioration des outils de capacity planning en développant des modèles prédictifs intégrant des mécanismes d'intelligence artificielle. Accompagner les équipes techniques dans l'intégration des enjeux financiers au sein des projets Cloud. Participer à la diffusion des bonnes pratiques FinOps auprès des équipes d'architecture, d'exploitation et de gouvernance. Être force de proposition dans l'optimisation des coûts et contribuer, le cas échéant, aux échanges avec les fournisseurs. Vous évoluerez dans un environnement Cloud privé reposant notamment sur des technologies OpenStack, OpenShift et des services de stockage objet et bloc.

Find your next tech and IT Job or contract GPU

Contractor job
Expert GPU GRID

Job Vacancy
HPC Operations

Contractor job
Ingénieur ML Platform Senior

Job Vacancy
Ingénieur DevOps Data / IA Générative On-Premise — Secteur bancaire

Contractor job
ML Engineer senior orienté plateforme / DevOps ML

Job Vacancy
Ingénieur Infrastructure - Support LLM Gateway

Contractor job
POT9264 - Un Senior Software Engineer sur Grenoble

Contractor job
POT9236 - Un Senior Software Engineer / DevOps sur Grenoble

Contractor job
Ingénieur ML Platform Senior

Contractor job
FinOps Cloud (H/F)

Submit your CV

Latest forum topics

Contracts

Location

Remote type

Rate minimum.

Salary minimum

Experience

Date posted