Le poste Tech Lead SRE / Site Reliability Engineer (H/F)
Partager cette offre
Vous rejoignez la Platform Team au sein de la Tribe Paiement de la Digital Factory en tant que Tech Lead SRE.
Votre rôle : piloter la vision technique SRE, garantir la fiabilité des plateformes de paiement, et assurer la performance, la résilience et la scalabilité des environnements cloud.
Vous serez le référent technique, le mentor de l’équipe SRE, et un acteur clé dans la définition des standards d’ingénierie, DevOps et SRE.
Leadership & Vision technique
Superviser l’ensemble des activités SRE de la Platform Team.
Porter la vision d’architecture résiliente, scalable et moderne (cloud, conteneurs, automatisation).
Définir les standards SRE, bonnes pratiques DevOps et orientations techniques : CI/CD, observabilité, sécurité, gestion des incidents.
Encadrer et développer l’équipe SRE (mentorat, pair programming, formation).
Architecture & Fiabilité
Concevoir et faire évoluer l’architecture cible de la plateforme Paiement avec les architectes et Tech Leads.
Définir et maintenir les blueprints d’architecture : réseau, sécurité, déploiement, observabilité.
Participer aux choix technologiques et à l’urbanisation cloud (AWS).
Exploitation & Automatisation
Garantir le maintien en condition opérationnelle (MCO) de l’ensemble des applications Paiement.
Optimiser les performances, la sécurité, la stabilité et la scalabilité des environnements.
Construire et améliorer les pipelines CI/CD (GitLab CI) : tests, scans sécurité, qualité, déploiements progressifs.
Automatiser les opérations répétitives (scripts, jobs, workflows).
Support technique & gestion des incidents
Analyser, corriger et suivre les tickets (ServiceNow, Jira) de niveau 3.
Réaliser les opérations de maintenance, rattrapages d’incidents et opérations bulk.
Participer aux handovers des nouvelles fonctionnalités en production.
Produire des rapports techniques sur la performance et les incidents.
Observabilité & Monitoring
Mettre en place, maintenir et améliorer les dispositifs d’observabilité (Splunk Observability).
Réagir rapidement en cas de panne, diagnostiquer les causes et proposer des solutions pérennes.
Suivre l'état de santé des applications, lever les alertes et réaliser les premières analyses.
FinOps & optimisation des ressources
Suivre les coûts AWS, détecter les dérives et proposer des optimisations.
Contribuer à une démarche FinOps structurée pour un usage maîtrisé du cloud.
Profil recherché
Expérience et expertise
Minimum 7 ans d’expérience SRE, dont plusieurs expériences en leadership technique.
Maîtrise avancée de Kubernetes, Docker, Terraform, monitoring avancé, CI/CD.
Excellente connaissance des environnements AWS : ECS, RDS, S3, EventBridge, CloudWatch.
Solide maîtrise du SQL, bases de données relationnelles + notions NoSQL.
Maîtrise des outils DevOps : GitLab, GitLab CI, Docker, Terraform, Ansible.
Connaissance des solutions d’observabilité Splunk Observability.
Soft skills
Leadership affirmé, capacité à arbitrer et à prendre des décisions structurantes.
Excellente communication et pédagogie.
Capacité à monter des task forces lors d’incidents critiques.
Rigueur, sens de l’analyse, collaboration transverse.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +9 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Tech Lead SRE / Site Reliability Engineer (H/F)
SMARTPOINT
