Le poste Domain Manager SRE (H/F)
Partager cette offre
Le Domain Manager SRE est responsable de garantir la fiabilité des services, l’excellence opérationnelle et la conformité des performances sur l’ensemble des environnements, tout en intégrant les pratiques SRE au sein de l’Agile Release Train et du cycle de livraison produit.
Il agit comme garant de l’évolution des produits vers la production, en veillant à ce que le niveau de qualité soit toujours conforme aux attentes des clients.
Il collabore étroitement avec les équipes Produit, Tech et Plateforme afin de maintenir un équilibre entre innovation, vélocité et robustesse opérationnelle.
MissionGarantir la stabilité, la performance et la disponibilité des services en production et hors production
Promouvoir une culture orientée fiabilité au sein des équipes de delivery
Assurer un rôle de gatekeeper dans le passage en production des évolutions produits, en garantissant un niveau de qualité aligné avec les attentes clients
Définir, suivre et reporter les SLO (Service Level Objectives), SLI (Service Level Indicators) et error budgets sur les différents environnements afin d’assurer une fiabilité mesurable par domaine applicatif
Mettre en place et améliorer en continu des solutions robustes d’observabilité, monitoring et alerting
Superviser la préparation opérationnelle des releases et garantir la stabilité en production via une coordination transverse avec les équipes Produit et Tech
Être en capacité de bloquer une mise en production si le niveau de qualité ne correspond pas aux attentes clients
Piloter la gestion des incidents, les analyses de causes racines et les post-mortems afin d’assurer l’amélioration continue
Collaborer avec les équipes Core Platform et Observability & FinOps pour :
Renforcer la résilience des systèmes
Optimiser les coûts
Maintenir la performance de la plateforme
Communiquer sur l’état de la fiabilité, les risques et les plans d’amélioration auprès des Agile Release Managers et des responsables de domaine
Participer activement à l’Agile Release Train (ART) comme référent fiabilité et opérations, en soutenant le rythme et la qualité des livraisons
Profil recherché
Forte expertise en Site Reliability Engineering (SRE) dans des environnements SaaS ou cloud-native
Excellente maîtrise des concepts d’observabilité, d’automatisation et de monitoring
Expérience confirmée dans la définition et le pilotage de SLO, SLI et error budgets
Bonne maîtrise des pratiques DevSecOps, des pipelines CI/CD et du monitoring continu
Expérience solide en :
Gestion des incidents
Analyses post-mortem
Préparation opérationnelle des mises en production
Capacité avérée à coordonner des initiatives de fiabilité entre équipes Produit, Tech et Plateforme
Orientation forte sur les métriques de performance, la prévention des incidents et la gouvernance opérationnelle
Forte capacité d’analyse avec une approche data-driven dans le suivi de la fiabilité
Rigueur et sens du pilotage des indicateurs
Capacité à travailler avec des parties prenantes multiples
Environnement de travail
Organisation en Agile Release Train (ART)
Interaction avec :
Équipes Produit
Équipes Techniques
Équipes Plateforme et Observabilité
Environnement orienté cloud / SaaS avec pratiques SRE avancées
Aucun télétravail pendant les 3 premiers mois
Puis présence requise 3 jours sur site par semaine
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Domain Manager SRE (H/F)
Crafteam
