Find your next tech and IT Job or contract GPU
Your search returns 9 results.
Contractor job
Expert GPU GRID
EXteam
Published on
GPU
Helm
Kubernetes
3 years
500-630 €
Ile-de-France, France
Missions principales (Doit connaitre Kubernetes, Helm, Python, Gestion et tunning de GPU (Nvidia)) Gestion du RUN • Supervision des alertes, incidents et changements ; • Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ; • Rédaction & maintenance des runbooks, playbooks et SOP ; • Suivi du MTTR, escalades et reporting aux parties prenantes. Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ; • Mise en place d’actions correctives et préventives ; • Gestion du carnet d’incidents dans ServiceNow (SNOW). Optimisation des plateformes • Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ; • Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ; • Gestion des patchs de sécurité et suivi des CVE. Automation & CI/CD • Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ; • Intégration des bonnes pratiques GitOps. Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ; • Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ; • Veille à la conformité ITSM (processes, KPI, SLA). Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ; • Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore Profil recherché Expérience • 5 + ans d’expérience en exploitation (Run/Production) d’environnements Kubernetes à grande échelle ; • Expérience confirmée avec des équipes offshore ou distribuées (3 personnes minimum). Compétences techniques • Kubernetes, Helm, Argo CD ; • Scripting Python (débogage, packaging : venv, poetry, uv) ; • Notions Data Science : pandas, numpy ; • CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ; • Observabilité (Prometheus, Grafana, Loki) ; • Gestion des GPU (NVIDIA GRID) ; • Sécurité production : gestion CVE, RBAC, Vault.
Premium Job
Job Vacancy
HPC Operations
Halian
Published on
CPU
GPU
High performance computing (HPC)
4 years
France
FULL REMOTE Principal Engineer – HPC Operations Description du poste Nous recherchons un(e) Principal Engineer – HPC Operations expérimenté(e) pour piloter l’exploitation quotidienne d’infrastructures de calcul haute performance (HPC) dédiées à des workloads à grande échelle en IA et Machine Learning . Ce rôle clé consiste à garantir la stabilité, la performance, la sécurité et l’évolutivité des clusters HPC, en s’appuyant sur des technologies telles que Slurm, Kubernetes et des plateformes MLOps modernes . Vous interviendrez dans des environnements complexes et distribués à l’échelle internationale, tout en jouant un rôle de référent technique et de mentor pour les équipes opérationnelles. Responsabilités principales Assurer la gestion opérationnelle quotidienne des infrastructures HPC (compute, stockage, réseau, ordonnanceurs comme Slurm et Kubernetes). Optimiser la performance, la disponibilité et l’utilisation des ressources (CPU, GPU, stockage). Être le point de contact technique principal pour les déploiements HPC dans le périmètre. Agir comme point d’escalade technique (L3) pour les équipes support, en assurant une résolution rapide et efficace des incidents. Superviser l’état des systèmes via des outils de monitoring et d’observabilité (Prometheus, Grafana, DCGM). Gérer les environnements utilisateurs pour les workloads IA/ML via des containers et orchestrateurs (Docker, Kubernetes) et des outils MLOps (MLflow, Kubeflow). Définir et appliquer les politiques de planification des jobs (priorités, quotas, partitions) afin de garantir l’équité et l’efficacité des ressources. Piloter les analyses de causes racines (RCA) , contribuer aux post-mortems et mener des actions d’amélioration continue. Encadrer et accompagner les ingénieurs moins expérimentés , favoriser le partage de connaissances et la montée en compétences. Participer à l’ astreinte si nécessaire. Veiller au respect des politiques de sécurité, des processus opérationnels et des exigences d’audit , et maintenir la documentation associée. Profil recherché Formation & expérience Bac+5 en informatique, ingénierie ou domaine technique équivalent. Minimum 8 ans d’expérience en HPC, ingénierie systèmes ou DevOps, dont au moins 2 ans dans un rôle senior ou de leadership technique . Compétences techniques Expertise avancée en environnements HPC complexes (matériel, logiciels, stockage). Expérience confirmée avec Slurm et/ou Kubernetes appliqués à des workloads IA/ML. Solide maîtrise de la gestion des GPU , des ordonnanceurs de charges et de l’optimisation des performances. Bonne connaissance des outils de monitoring (Prometheus, Grafana, DCGM). Excellentes compétences en automatisation et scripting : Python, Bash, Ansible, Terraform. Très bonne maîtrise de Linux (RHEL, CentOS, Ubuntu). Connaissances approfondies en réseaux haute performance (RDMA, InfiniBand, RoCE). Expérience avec des solutions de stockage telles que NFS, Lustre, Ceph.
Contractor job
Ingénieur ML Platform Senior
Cherry Pick
Published on
GPU
Machine Learning
Python
12 months
610 €
Paris, France
En tant qu' Ingénieur ML au sein de l'équipe ML Platform, vous mettrez à profit votre solide expérience en industrialisation , votre maîtrise de Python et votre expertise pratique de l'entraînement de modèles. Votre rôle sera de faciliter le travail quotidien du ML Lab sur (leur "neocloud" de choix) et d'assurer la liaison avec l'outillage MLOps (principalement sur AWS ), en étroite collaboration avec un ingénieur DevOps dédié. Responsabilités Clés Favoriser l'expérimentation rapide : Créer et maintenir les outils permettant aux chercheurs d'itérer rapidement sur de nouvelles approches ML. Gérer des expériences de recherche à grande échelle : Concevoir et superviser des cycles d'entraînement massifs sur l'infrastructure , en implémentant le suivi des expériences ( experiment tracking ) et la reproductibilité. Faciliter la collaboration externe : Permettre une collaboration sécurisée avec des partenaires académiques et l'accès aux ressources open-source tout en respectant les protocoles de sécurité. Optimisation des performances et des ressources : Profiler et optimiser les pipelines d'entraînement ; gérer efficacement les ressources GPU. Développement d'outils de recherche : Développer des bibliothèques et utilitaires spécifiques aux domaines du Lab (nouvelles architectures, techniques d'entraînement, frameworks d'évaluation). Transfert de connaissances : Partager les enseignements issus de la recherche expérimentale avec l'ensemble de l'équipe ML Platform et les chercheurs
Job Vacancy
Ingénieur DevOps Data / IA Générative On-Premise — Secteur bancaire
WE +
Published on
Ansible
Dataiku
Docker
12 months
Ile-de-France, France
Contexte et environnement Notre client, acteur majeur du secteur bancaire, engage un projet stratégique autour de la conception, du déploiement, de l’industrialisation et de l’exploitation d’une plateforme d’intelligence artificielle générative en environnement on-premise. Ce dispositif s’inscrit dans un contexte bancaire exigeant, marqué par de forts enjeux de sécurité, de conformité, de souveraineté, de gouvernance des données et de résilience des services. L’objectif est de mettre à disposition des solutions GenAI industrialisées, sécurisées et exploitables à grande échelle pour différents métiers et entités internes. L’intervention s’effectuera au sein d’une équipe dédiée aux produits et services Data & IA, dans un environnement technique complexe, distribué, hautement disponible et soumis à des exigences fortes en matière de production IT. Périmètre d’intervention Le périmètre couvre l’ensemble du cycle de vie de la plateforme, depuis la contribution à la conception du service jusqu’à son maintien en conditions opérationnelles et de sécurité en production. Le consultant interviendra sur un dispositif à forts enjeux techniques, au croisement des sujets DevOps, Data, IA générative, conteneurisation, automatisation, sécurité et exploitation de plateformes critiques. Dans un environnement bancaire, la capacité à sécuriser les déploiements, fiabiliser les processus d’industrialisation et garantir la conformité des services sera déterminante. Missions principales Dans ce cadre, le consultant contribuera notamment à : Industrialiser et automatiser le déploiement d’une plateforme d’IA générative en environnement on-premise sécurisé ; Contribuer à la conception et à l’évolution de l’architecture de la plateforme ; Participer à la mise en place de services managés intégrant les contraintes de sécurité, de conformité, de gouvernance et de production bancaire ; Accompagner la mise en production des offres et services associés ; Documenter les services, les modes opératoires et les éléments nécessaires à leur exploitation ; Réaliser des présentations et démonstrations afin de valoriser les offres et services auprès des parties prenantes ; Maintenir les plateformes IA déployées en conditions opérationnelles et de sécurité ; Contribuer au traitement des sujets techniques au sein d’une équipe produit ; Participer aux échanges de cadrage, de priorisation et de co-construction de la roadmap ; Prendre en charge des éléments de backlog formalisés par le Product Owner ; Assurer un rôle de référent technique sur un produit ou un périmètre de la plateforme ; Participer aux rituels d’équipe et aux instances de coordination du dispositif ; Contribuer aux astreintes techniques liées au périmètre. Compétences attendues Le consultant devra présenter une expérience solide sur les environnements DevOps, Data et plateformes distribuées, avec une capacité à intervenir sur des sujets d’industrialisation, d’automatisation et d’exploitation en environnement critique. Les compétences attendues sont notamment les suivantes : Maîtrise du déploiement et de la manipulation de workloads Data ; Bonne compréhension des environnements conteneurisés et des pratiques CI/CD ; Expérience sur des plateformes Kubernetes, OpenShift et Docker ; Capacité à intervenir sur des environnements on-premise sécurisés ; Connaissance des meilleures pratiques en matière de sécurité des données, conformité et gouvernance ; Expérience en automatisation et infrastructure as code ; Capacité à documenter, structurer et sécuriser des services techniques destinés à la production ; Aptitude à porter un rôle de référent technique au sein d’une équipe produit. Une expérience dans le secteur bancaire, financier ou dans un environnement fortement réglementé sera particulièrement appréciée. Une connaissance des plateformes d’IA générative, des environnements LLMOps ou des plateformes agentiques constitue également un plus.
Contractor job
ML Engineer senior orienté plateforme / DevOps ML
Trait d'Union
Published on
AWS Cloud
Deep learning
Docker
1 year
400-760 €
Paris, France
Permettre à des chercheurs de tester, entraîner et industrialiser rapidement des modèles de machine learning à grande échelle, dans un environnement hybride : neocloud pour la recherche AWS (MLOps / prod) Gérer des entraînements de modèles à grande échelle (GPU / distribué) Assurer la reproductibilité des expériences Optimiser les ressources (GPU, compute) Créer des outils internes pour la recherche ML Faire le lien entre recherche académique ↔ production industrielle Avoir déjà travaillé : soit dans une boîte très technique (type scale-up / deeptech) soit dans un environnement de recherche / labo Parler Anglais
Job Vacancy
Ingénieur Infrastructure - Support LLM Gateway
VISIAN
Published on
Ansible
Argo CD
Gitlab
1 year
40k-55k €
520-580 €
Paris, France
Vous rejoindrez une équipe de 5 ingénieurs infrastructure répartis sur 2 produits IA/LLM au sein de la Division IA & Data. Vous participerez au support d'une application de gateway d'accès LLM et contribuerez à l'exploitation d'un portefeuille de 3 produits majeurs : une plateforme d'inférence LLM, un pipeline de data-science et un service de mise à disposition de modèles IA. Vos missions principales couvriront plusieurs domaines : Gestion du RUN : Vous assurerez la supervision des alertes, incidents et changements, coordonnerez le triage (L1 → L2 → L3) avec l'équipe offshore, rédigerez et maintiendrez les runbooks, playbooks et SOP, et suivrez le MTTR, les escalades et le reporting aux parties prenantes. Incident Management & RCA : Vous conduirez des enquêtes post-mortem (RCA), mettrez en place des actions correctives et préventives, et gérerez le carnet d'incidents dans ServiceNow (SNOW). Optimisation des plateformes : Vous monitorerez les métriques (latence, utilisation GPU, capacité des nœuds), proposerez des optimisations (autoscaling, right-sizing, tuning des ressources) et gérerez les patchs de sécurité et le suivi des CVE. Automation & CI/CD : Vous automatiserez les tâches récurrentes via des scripts Python, Terraform et Ansible. Collaboration & gouvernance : Vous serez l'interface avec les Product Owners, les équipes DataScience et les fournisseurs d'infrastructure, participerez aux cérémonies Scrum/Kanban (stand-up, grooming, retro) et veillerez à la conformité ITSM (processes, KPI, SLA). Support aux utilisateurs : Vous gérerez les demandes d'accès, les droits RBAC et la documentation technique, et assurerez la formation ponctuelle (on-boarding) des nouveaux membres de l'équipe offshore. L'environnement technique comprend Kubernetes (cluster(s) on-prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault) et gestion des GPU (NVIDIA GRID). La méthodologie utilisée est Agile (Scrum/Kanban) avec tableau JIRA et suivi ITSM (ServiceNow).
Contractor job
POT9264 - Un Senior Software Engineer sur Grenoble
Almatek
Published on
Safe
6 months
Grenoble, Auvergne-Rhône-Alpes
Almatek recherche pour l'un de ses clients Un Senior Software Engineer sur Grenoble. Profil recherché : - Très bonne maîtrise de Python, avec une vraie expérience de développement (obligatoire) - Compétence solide sur les deux domaines suivants, avec une priorité sur l'IA : - Agentic AI (IA agentique), avec des frameworks comme LangChain, LangGraph, LangSmith - Edge computing (informatique de périphérie) - Bon niveau d'anglais, écrit et parlé (obligatoire) - Profil senior, capable de s'engager sur une mission longue durée En plus c'est un vrai plus : Linux, Docker, CI/CD, IoT, GPU, Scrum/SAFe
Contractor job
POT9236 - Un Senior Software Engineer / DevOps sur Grenoble
Almatek
Published on
Python
6 months
Grenoble, Auvergne-Rhône-Alpes
Almatek recherche pour l'un de ses clients Un Senior Software Engineer / DevOps sur Grenoble. Profil recherché : - Senior (7+ ans d'expérience) - Développement Python + Azure Cloud - DevOps / DevSecOps : CI/CD (GitHub Actions), Docker, Kubernetes / K3s, Helm - Bonne maîtrise de Linux et des architectures micro-services distribuées - Un plus : Edge AI (Machine Learning, Computer Vision, Agentic AI), C/C++/Rust, GPU - Anglais courant Localisation : Grenoble + 2jrs de TT Almatek recherche pour l'un de ses clients Un Senior Software Engineer / DevOps sur Grenoble. Profil recherché : - Senior (7+ ans d'expérience) - Développement Python + Azure Cloud - DevOps / DevSecOps : CI/CD (GitHub Actions), Docker, Kubernetes / K3s, Helm - Bonne maîtrise de Linux et des architectures micro-services distribuées - Un plus : Edge AI (Machine Learning, Computer Vision, Agentic AI), C/C++/Rust, GPU - Anglais courant Localisation : Grenoble + 2jrs de TT
Contractor job
Ingénieur ML Platform Senior
Cherry Pick
Published on
MLOps
Python
Pytorch
24 months
Paris, France
En tant qu' Ingénieur ML au sein de l'équipe ML Platform, vous mettrez à profit votre solide expérience en industrialisation , votre maîtrise de Python et votre expertise pratique de l'entraînement de modèles. Votre rôle sera de faciliter le travail quotidien du ML Lab sur (leur "neocloud" de choix) et d'assurer la liaison avec l'outillage MLOps (principalement sur AWS ), en étroite collaboration avec un ingénieur DevOps dédié. Responsabilités Clés Favoriser l'expérimentation rapide : Créer et maintenir les outils permettant aux chercheurs d'itérer rapidement sur de nouvelles approches ML. Gérer des expériences de recherche à grande échelle : Concevoir et superviser des cycles d'entraînement massifs sur l'infrastructure , en implémentant le suivi des expériences ( experiment tracking ) et la reproductibilité. Faciliter la collaboration externe : Permettre une collaboration sécurisée avec des partenaires académiques et l'accès aux ressources open-source tout en respectant les protocoles de sécurité. Optimisation des performances et des ressources : Profiler et optimiser les pipelines d'entraînement ; gérer efficacement les ressources GPU. Développement d'outils de recherche : Développer des bibliothèques et utilitaires spécifiques aux domaines du Lab (nouvelles architectures, techniques d'entraînement, frameworks d'évaluation). Transfert de connaissances : Partager les enseignements issus de la recherche expérimentale avec l'ensemble de l'équipe ML Platform et les chercheurs
Submit your CV
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Latest forum topics
- Tracking & Recovering Lost & Stolen Cryptocurrency Top 1 Most Legit & Best Cryptocurrency Recovery Experts
- Tracking & Recovering Lost & Stolen Cryptocurrency Top 1 Most Legit & Best Cryptocurrency Recovery Service
- Tracking & Recovering Lost & Stolen Cryptocurrency Top 1 Most Legit & Best Cryptocurrency Recovery Company
- Guaranteed Best & Top 2 Cryptocurrency Recovery Agency Recovering Lost & Stolen Cryptocurrency
- Guaranteed Best & Top 1 Cryptocurrency Recovery Expert Recovering Lost & Stolen Cryptocurrency
- Guaranteed Best & Top 1 Cryptocurrency Recovery Service Recovering Lost & Stolen Cryptocurrency
Jobs by city
Jobs by country
9 results
Contracts
Location
Remote type
Rate minimum.
£150
£1300 and more
Salary minimum
£20k
£250k