Share this job
Missions principales
(Doit connaitre Kubernetes, Helm, Python, Gestion et tunning de GPU (Nvidia))
Gestion du RUN • Supervision des alertes, incidents et changements ;
• Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ;
• Rédaction & maintenance des runbooks, playbooks et SOP ;
• Suivi du MTTR, escalades et reporting aux parties prenantes.
Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ;
• Mise en place d’actions correctives et préventives ;
• Gestion du carnet d’incidents dans ServiceNow (SNOW).
Optimisation des plateformes
• Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ;
• Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ;
• Gestion des patchs de sécurité et suivi des CVE.
Automation & CI/CD
• Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ;
• Intégration des bonnes pratiques GitOps.
Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ;
• Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ;
• Veille à la conformité ITSM (processes, KPI, SLA).
Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ;
• Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore
Profil recherché
Expérience • 5 + ans d’expérience en exploitation (Run/Production) d’environnements Kubernetes à grande échelle ;
• Expérience confirmée avec des équipes offshore ou distribuées (3 personnes minimum).
Compétences techniques
• Kubernetes, Helm, Argo CD ;
• Scripting Python (débogage, packaging : venv, poetry, uv) ;
• Notions Data Science : pandas, numpy ;
• CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ;
• Observabilité (Prometheus, Grafana, Loki) ;
• Gestion des GPU (NVIDIA GRID) ;
• Sécurité production : gestion CVE, RBAC, Vault.
Candidate profile
Missions principales
(Doit connaitre Kubernetes, Helm, Python, Gestion et tunning de GPU (Nvidia))
Gestion du RUN • Supervision des alertes, incidents et changements ;
• Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ;
• Rédaction & maintenance des runbooks, playbooks et SOP ;
• Suivi du MTTR, escalades et reporting aux parties prenantes.
Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ;
• Mise en place d’actions correctives et préventives ;
• Gestion du carnet d’incidents dans ServiceNow (SNOW).
Optimisation des plateformes
• Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ;
• Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ;
• Gestion des patchs de sécurité et suivi des CVE.
Automation & CI/CD
• Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ;
• Intégration des bonnes pratiques GitOps.
Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ;
• Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ;
• Veille à la conformité ITSM (processes, KPI, SLA).
Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ;
• Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore
Profil recherché
Expérience • 5 + ans d’expérience en exploitation (Run/Production) d’environnements Kubernetes à grande échelle ;
• Expérience confirmée avec des équipes offshore ou distribuées (3 personnes minimum).
Compétences techniques
• Kubernetes, Helm, Argo CD ;
• Scripting Python (débogage, packaging : venv, poetry, uv) ;
• Notions Data Science : pandas, numpy ;
• CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ;
• Observabilité (Prometheus, Grafana, Loki) ;
• Gestion des GPU (NVIDIA GRID) ;
• Sécurité production : gestion CVE, RBAC, Vault.
Working environment
Apply to this job!
Find your next career move from +10,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Expert GPU GRID
EXteam