Le poste SITE RELIABILITY ENGINEER (SRE) H/F
Partager cette offre
Afin dâamĂ©liorer durablement la stabilitĂ© et la performance, une Ă©quipe dĂ©diĂ©e de Site Reliability Engineering (SRE) â Flying Squad est créée.
Cette équipe transverse intervient en mode commando sur des périmÚtres critiques pour :
Ăradiquer les causes profondes des incidents
Renforcer la résilience des systÚmes
Apporter des pratiques SRE pérennes aux équipes internes
En tant que SRE, vous aurez pour mission de :
Restaurer et garantir la fiabilité des services critiques
Identifier et éliminer les causes racines des incidents
AmĂ©liorer la rĂ©silience, la performance et lâobservabilitĂ©
Contribuer Ă une rĂ©duction dâau moins 20 % des incidents
Diffuser les bonnes pratiques SRE auprÚs des équipes internes
Analyser les incidents récurrents et le backlog de problÚmes
Réaliser des post-mortems blameless
Identifier les causes profondes (techniques et organisationnelles)
Cartographier les dépendances (applications, batchs, flux de données)
Mettre en Ćuvre des corrections structurelles :
Optimisation des performances
Refactoring de code
Stabilisation des processus batch
Implémenter des mécanismes de résilience :
Retries, circuit breakers, timeouts
Participer au capacity planning
DĂ©ployer et optimiser les outils de monitoring (Dynatrace, PrometheusâŠ)
Mettre en place des indicateurs SLI/SLO
Superviser les golden signals :
Latence
Trafic
Erreurs
Saturation
Réduire le bruit et améliorer la pertinence des alertes
Automatiser les tùches récurrentes (RUN)
Développer des scripts en :
Shell / Bash
PowerShell
Python
Implémenter des mécanismes de self-healing
Intervenir sur des environnements hybrides :
AWS / OCI
On-prem Linux / AIX
Contribuer Ă lâexploitation et Ă lâoptimisation Kubernetes :
Troubleshooting
Capacity management
Observabilité
Gérer et sécuriser les certificats (rotation, expiration)
Contribuer au durcissement de lâinfrastructure
Participer aux bonnes pratiques de sécurité applicative
Accompagner les équipes internes (DEV / OPS)
Documenter les patterns de fiabilité
Contribuer Ă la culture SRE ("You build it, you run it")
Profil recherché
Bac +5 (ingénieur ou équivalent)
5+ ans dâexpĂ©rience en production / SRE / DevOps
Expérience en environnements complexes et critiques
Expérience en contexte cloud et hybride
SystĂšmes & Infra
Linux / Unix (AIX est un plus)
Environnements cloud (AWS, OCI)
Réseaux et architectures distribuées
Observabilité & monitoring
Dynatrace / Prometheus / Grafana
ELK / Splunk (logs)
OpenTelemetry (traces)
Automatisation & scripting
Shell / Bash
Python
PowerShell
Containerisation
Kubernetes (indispensable)
Docker
Data & batch
SQL (optimisation)
Ordonnanceurs / chaĂźnes batch
Sécurité
Gestion des certificats (PKI)
Notions de sécurité infra/applicative
Analyse de problĂšmes complexes
Méthodologie de Root Cause Analysis
Gestion des incidents critiques
Capacité à prioriser via impact business
Utilisation dâIA pour :
Analyse de logs
CorrĂ©lation dâincidents
Génération de code
Détection de code smells
Environnement de travail
Travail en Flying Squad (intervention sur périmÚtres successifs)
Cycle :
Diagnostic
Plan dâaction
Remédiation
Suivi
Transfert
Interaction forte avec :
Ăquipes DEV
Ops / Production
Métiers
RĂ©duction du nombre dâincidents
Diminution du MTTR
Amélioration des SLO
Réduction du bruit alerting
Augmentation du taux dâautomatisation
Qualité des post-mortems
Expérience dans une organisation à grande échelle
Connaissance des environnements legacy (Cobol / batch)
Certifications cloud (AWS, Kubernetes)
Expérience SAAS / microservices
Postulez Ă cette offre !
Trouvez votre prochaine mission parmi +8âŻ000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critÚres importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthĂšque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
SITE RELIABILITY ENGINEER (SRE) H/F
ADONYS