Le poste Site Reliability Engineer
Partager cette offre
Compétences techniques : Définir et implémenter des mécanismes de monitoring et d’alerting permettant de détecter les dysfonctionnements à tous les niveaux (front-end, backend, ETL, data quality, connectivité)
AWS : Prometheus, Cloudwatch (Logs, Metrics, Application Signals, Synthetics), PromQL, X-Ray, AWS Firewall
Azure : Azure Monitor, KQL, Application Insights, Container Insights, Log Analytics
Google Cloud Observability (metrics, cloud monitoring)
Grafana : Contribuer à la résilience des applications en implémentant et testant des mécanismes de sauvegarde des données et de restauration des applications : bonne connaissance et expérience des mécanismes de sauvegardes natifs AWS et Azure pour les bases de données, datalake, stockage blob. Implémenter des scénarios de Chaos Engineering (type Chaos Monkey) sur les environnements de production sur Azure et AWS. Mise en place de Disaster Recovery Plan et participation à l’implémentation et aux tests des mécanismes associés (pipelines de déploiement, restauration de données à partir de sauvegarde, etc.). Travailler sur l’optimisation de la gestion des incidents pour réduire le MTTR : détection, notification aux utilisateurs et suivi, outils d’analyse (logging). Mettre en place des solutions techniques d’AIOps pour améliorer l’observabilité, la résilience et la gestion des incidents dans le groupe. Implémenter et utiliser des agents IA capables d'identifier les améliorations relatives à la fiabilité à mettre en place sur les projets, de détecter les dysfonctionnements et de résoudre les pannes. Contribuer à améliorer la fiabilité des produits par la promotion auprès des équipes de bonnes pratiques SRE.
Soft skills : Aisance relationnelle et capacité de communiquer en anglais et en français à l’écrit et à l’oral. Capacité de présenter et expliquer des architectures techniques. Autonomie.
Conditions : Télétravail possible : 2 jours par semaine. Locaux : une grande ville métropolitaine.
Profil recherché
Compétences requises
Compétences techniques
AWS : Niveau confirmé
Azure : Niveau confirmé
Programmation Python : Niveau expert
Infrastructure en tant que code (Terraform et Ansible) : Niveau confirmé
Test de résilience : Niveau confirmé
OpenTelemetry : Niveau confirmé
GIT : Niveau avancé
Compétences linguistiques
Anglais : Bilingue
Français : Courant
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Site Reliability Engineer
Codezys