WINSIDE Technology

Mission freelance DataOps & DevSecOps & Run Manager ( IA / Data / LLM) (Observabilité & incidents ) - KUBERNETES

Paris

WINSIDE Technology

Le poste

Freelance
Dès que possible
3 ans
500-580 €⁄j
5 à 10 ans d’expérience
Télétravail partiel
Paris, France
Publiée le 26/05/2026

Partager cette offre

. Objectif du poste

Suivi de la disponibilité, la performance et la résilience des plateformes IA / Data / LLM déployées 100 % sur Kubernetes.

Vous pilotez le RUN (opérations quotidiennes, incidents, évolutions mineures) d’une équipe offshore de 3 personnes, garantissant une prise en charge fluide des incidents, la mise en œuvre des correctifs et l’optimisation continue des ressources. Vous assurez également la coordination entre les équipes produit, les équipes d’infrastructure et les fournisseurs afin d’aligner les exigences métier avec les contraintes techniques.

Principales missions :

- Définition et organisation des procédures d’exploitation.

- Coordination des projets techniques.

- Diagnostic et résolution des problèmes techniques.

- Développement et mise en œuvre des procédures d’exploitation.

- Mise en production ou administration et exploitation des logiciels et des matériels d’infrastructure.

- Documentation des environnements techniques.

- Suivi des infrastructures auprès des équipes en charge et/ou des utilisateurs.

- Collaboration à l’établissement des procédures d’exploitation et suivi de leur application.

- Supervision d’une équipe de techniciens d’exploitation et de pilotes d’exploitation.

- Participation à la conception d’une nouvelle infrastructure afin de préparer sa mise en exploitation.

- Suivi de la qualité du service (analyse de charge, suivi des performances).

. Contexte

Équipe : 3 ingénieurs (DevOps/Infra / Data) basés offshore, travail majoritairement asynchrone.

Portefeuille : 3 produits majeurs – plateforme d’inférence LLM, pipeline de data‑science, service de mise à disposition de modèles IA.

Environnement technique : Kubernetes (cluster(s) on‑prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault), gestion des GPU (NVIDIA GRID).

Méthodologie : Agile (Scrum/Kanban) – tableau JIRA, suivi ITSM (ServiceNow).

. Missions principales

Domaine Responsabilités

Gestion du RUN

• Supervision des alertes, incidents et changements ;

• Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ;

• Rédaction & maintenance des runbooks, playbooks et SOP ;

• Suivi du MTTR, escalades et reporting aux parties prenantes.

Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ;

• Mise en place d’actions correctives et préventives ;

• Gestion du carnet d’incidents dans ServiceNow (SNOW).

Optimisation des plateformes • Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ;

• Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ;

• Gestion des patchs de sécurité et suivi des CVE.

Automation & CI/CD

• Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ;

• Intégration des bonnes pratiques GitOps.

Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ;

• Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ;

• Veille à la conformité ITSM (processes, KPI, SLA).

Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ;

• Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore.

Profil recherché

4. Profil recherché

Domaine Exigences

Expérience

• 5 + ans d’expérience en exploitation (Run/Production) d’environnements Kubernetes à grande échelle ;

• Expérience confirmée avec des équipes offshore ou distribuées (3 personnes minimum).

Compétences techniques

• Kubernetes, Helm, Argo CD ;

• Scripting Python (débogage, packaging : venv, poetry, uv) ;

• Notions Data Science : pandas, numpy ;

• CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ;

• Observabilité (Prometheus, Grafana, Loki) ;

• Gestion des GPU (NVIDIA GRID) ;

• Sécurité production : gestion CVE, RBAC, Vault.

Environnement de travail

. Objectif du poste

Suivi de la disponibilité, la performance et la résilience des plateformes IA / Data / LLM déployées 100 % sur Kubernetes.

Vous pilotez le RUN (opérations quotidiennes, incidents, évolutions mineures) d’une équipe offshore de 3 personnes, garantissant une prise en charge fluide des incidents, la mise en œuvre des correctifs et l’optimisation continue des ressources. Vous assurez également la coordination entre les équipes produit, les équipes d’infrastructure et les fournisseurs afin d’aligner les exigences métier avec les contraintes techniques.

Principales missions :

- Définition et organisation des procédures d’exploitation.

- Coordination des projets techniques.

- Diagnostic et résolution des problèmes techniques.

- Développement et mise en œuvre des procédures d’exploitation.

- Mise en production ou administration et exploitation des logiciels et des matériels d’infrastructure.

- Documentation des environnements techniques.

- Suivi des infrastructures auprès des équipes en charge et/ou des utilisateurs.

- Collaboration à l’établissement des procédures d’exploitation et suivi de leur application.

- Supervision d’une équipe de techniciens d’exploitation et de pilotes d’exploitation.

- Participation à la conception d’une nouvelle infrastructure afin de préparer sa mise en exploitation.

- Suivi de la qualité du service (analyse de charge, suivi des performances).

. Contexte

Équipe : 3 ingénieurs (DevOps/Infra / Data) basés offshore, travail majoritairement asynchrone.

Portefeuille : 3 produits majeurs – plateforme d’inférence LLM, pipeline de data‑science, service de mise à disposition de modèles IA.

Environnement technique : Kubernetes (cluster(s) on‑prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault), gestion des GPU (NVIDIA GRID).

Méthodologie : Agile (Scrum/Kanban) – tableau JIRA, suivi ITSM (ServiceNow).

. Missions principales

Domaine Responsabilités

Gestion du RUN

• Supervision des alertes, incidents et changements ;

• Coordination du triage (L1 → L2 → L3) avec l’équipe offshore ;

• Rédaction & maintenance des runbooks, playbooks et SOP ;

• Suivi du MTTR, escalades et reporting aux parties prenantes.

Incident Management & RCA • Conduite d’enquêtes post‑mortem (RCA) ;

• Mise en place d’actions correctives et préventives ;

• Gestion du carnet d’incidents dans ServiceNow (SNOW).

Optimisation des plateformes • Monitoring des métriques (latence, utilisation GPU, capacité des nœuds) ;

• Propositions d’optimisation (autoscaling, right‑sizing, tuning des ressources) ;

• Gestion des patchs de sécurité et suivi des CVE.

Automation & CI/CD

• Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ;

• Intégration des bonnes pratiques GitOps.

Collaboration & gouvernance • Interface avec les Product Owners, les équipes DataScience et les fournisseurs d’infrastructure ;

• Participation aux cérémonies Scrum/Kanban (stand‑up, grooming, retro) ;

• Veille à la conformité ITSM (processes, KPI, SLA).

Support aux utilisateurs • Gestion des demandes d’accès, des droits RBAC et de la documentation technique ;

• Formation ponctuelle (on‑boarding) des nouveaux membres de l’équipe offshore.

Paris, France
20 - 99 salariés
Cabinet de conseil
Winside est une Entreprise de Services du Numérique. Notre valeur ajoutée réside dans notre appréhension des nouveaux enjeux de la digitalisation, dans la recherche continue de nouvelles technologies et méthodes. Winside vous apporte des solutions adaptées à chacun de vos besoins et ambitions tout au long de vos projets.

Postulez à cette offre !

Trouvez votre prochaine mission parmi +8 000 offres !

  • Fixez vos conditions

    Rémunération, télétravail... Définissez tous les critères importants pour vous.

  • Faites-vous chasser

    Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.

  • 100% gratuit

    Aucune commission prélevée sur votre mission freelance.

DataOps & DevSecOps & Run Manager ( IA / Data / LLM) (Observabilité & incidents ) - KUBERNETES

WINSIDE Technology

Au service des talents IT

Free-Work est une plateforme qui s'adresse à tous les professionnels des métiers de l'informatique.

Ses contenus et son jobboard IT sont mis à disposition 100% gratuitement pour les indépendants et les salariés du secteur.

Free-workers
Ressources
A propos
Espace recruteurs
2026 © Free-Work / AGSI SAS
Suivez-nous