Job position Site Reliability Engineering (SRE)
Share this job
Nous sommes à la recherche d’un SRE pour renforcer l’équipe technique de notre client et accompagner la montée en puissance de sa plateforme e-commerce.
Ce rôle stratégique implique une vision globale de l’architecture, une forte sensibilité sécurité, ainsi qu’une capacité à intervenir rapidement et efficacement sur les incidents tout en améliorant la résilience de la plateforme.
🚀 Missions principales :Gestion de la fiabilité et réponse à incident
• Suivre les budgets d’erreur et arbitrer avec les équipes produit : pas de nouvelles features si la
fiabilité est en danger.
• Être en première ligne sur les incidents
• Coordonner la réponse (diagnostic, communication, mitigation).
• Rédiger et animer les post-mortems, identifier les causes racines et mettre en place des
correctifs systémiques.
Capacité, Performance et Sécurité
• Planifier la capacité (scaling horizontal/vertical).
• Effectuer des tests de charge, de résilience et du chaos engineering.
• Anticiper les goulets d’étranglement.
• Optimiser les coûts de l’infrastructure
• Veiller à ce que l’infrastructure respecte les standards en matière de sécurité
Build
• Éliminer les tâches récurrentes par des scripts, pipelines, auto-healing.
• Construire des mécanismes de déploiement et de rollback sécurisés et fiables.
• Optimiser le Disaster Recovery Plan en collaboration avec l'équipe platform engineering
Observabilité & excellence opérationnelle
• Maintenir et améliorer la stack d'observability basée sur OTEL et Elastic.
• Développer de nouvelles metrics et renforcer l’observabilité globale.
• Améliorer les temps de détection (MTTD) et de résolution (MTTR).
• Garantir que les déploiements respectent les standards de fiabilité
• Mise en place de process de déploiement fiables (blue/green, canary releases, progressive
delivery).
Culture & pratiques
• Former les devs à la responsabilité de la production, tout en restant gardien de la fiabilité.
• Instaurer une approche “reliability-first” dans la roadmap.
• Former et accompagner les équipes internes dans la prise en main des outils.
• Rédaction et mise à jour de la documentation relative à l’infrastructure, aux processus et aux meilleures pratiques pour faciliter le partage des connaissances et l’intégration des nouveaux
membres de l’équipe.
Candidate profile
Techniques :
• Maîtrise des environnements Cloudflare, Elastic, CI/CD (Github ou équivalent), Terraform ou autre IaC.
• Solides compétences en sécurité applicative.
• Bonnes bases en observabilité, monitoring et métriques.
• Expérience sur stack JS
Transverses :
• Capacité à documenter et formaliser (ADR, guidelines)
• Pédagogie et accompagnement des équipes
• Capacité d’analyse et de debugging dans une architecture distribuée
• Langages & environnements appréciés : TypeScript, Nuxt, C#, Azure, GCP, Elastic, outils CI/CD, solutions de monitoring.
• Expérience au sein d’un univers e-commerce et/ou retail
Working environment
📍🏠 Mission en full télétravail (depuis la France)
⏳ Mission longue, contrats de 6 mois renouvelables
📆 Début de mission : ASAP
❌ Freelance uniquement, pas d’ESN
Apply to this job!
Find your next career move from +9,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Site Reliability Engineering (SRE)
DEV AND CONNECT