Le poste Site Reliability Enginner (SRE)
Partager cette offre
En tant que Site Reliability Engineer (SRE), vous rejoignez l'équipe en charge du maintien en condition opérationnelle (MCO) d'un écosystème critique lié au référentiel client et à l'authentification. Vous évoluez au sein d'un environnement agile de grande envergure, gérant un parc applicatif de plus de 90 applications et plus de 600 APIs en production.
Votre mission consiste à garantir la disponibilité, la performance et la fiabilité des actifs stratégiques alimentant les espaces clients, les outils de relation client et de nombreux partenaires externes.
Vos missions seront :
Pilotage de l'Observabilité : Mettre en place, maintenir et suivre quotidiennement les systèmes de surveillance (notamment via Splunk Observability) pour assurer la performance des applications.
Gestion des Incidents : Réagir promptement en cas de défaillance, analyser les causes racines et proposer des solutions pérennes pour éviter la récurrence.
Support de Niveau 3 : Analyser, suivre et corriger les tickets de support complexe émanant de l'écosystème des partenariats via Service Now.
Maintenance Opérationnelle : Réaliser les traitements de maintenance curative, incluant les rattrapages de données en cas d'incidents.
Amélioration Continue : Traduire les analyses techniques en propositions d'évolution ou d'optimisation auprès des équipes de développement.
Documentation : Assurer la mise à jour rigoureuse des procédures de maintien en condition opérationnelle.
Collaboration Agile : Participer activement à l'ensemble des cérémonies de l'équipe (Daily, Sprint Planning, Démo, Review).
Profil recherché
Expérience Requise :
Vous justifiez d'au moins 3 ans d'expérience sur un poste de SRE, de Delivery Manager ou toute fonction liée au "build" logiciel.
Compétences Techniques :
Data & API : Excellente aisance dans la manipulation de données et la réalisation de requêtes en bases de données (SQL et noSQL).
Outillage : Maîtrise impérative de POSTMAN pour l'interrogation des APIs.
Observabilité : Une connaissance des plateformes de monitoring, idéalement Splunk Observability, est un atout majeur.
Qualités Professionnelles :
Esprit d'Analyse : Forte capacité de résolution de problèmes et curiosité naturelle pour comprendre des systèmes d'information complexes.
Leadership Opérationnel : Capacité à s'affirmer et à mobiliser des "task forces" éphémères lors de la gestion d'incidents critiques.
Communication : Esprit d'équipe et aptitude à collaborer avec des interlocuteurs variés, internes ou externes.
Environnement de travail
Organisation Agile : Intégration au sein d'une "Tribe" et d'une équipe dédiée (16 personnes) fonctionnant selon les méthodologies Agiles (Daily, Review, Démo, Sprint Planning).
Écosystème Technique : Gestion d'un parc applicatif dense comprenant plus de 90 applications et plus de 600 APIs en production.
Périmètre Critique : Travail sur des actifs stratégiques incluant le référentiel client, l'authentification, ainsi que l'agrégation et la distribution de données (loyalty, bookings).
Infrastructure Cloud : Surveillance et maintenance d'infrastructures et d'applications déployées dans le cloud.
Collaboration Étendue : Interactions fréquentes avec d'autres équipes internes ou externes pour la qualification de problèmes et le débogage.
Outils et Data : Manipulation de volumes importants de données variées nécessitant l'usage de bases de données (SQL, noSQL), d'APIs et de plateformes d'observabilité (Splunk Observability).
Gestion de Flux : Relation avec un écosystème de plus de 150 partenaires et consommateurs de données différents.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Site Reliability Enginner (SRE)
Trait d'Union