Job position Site Reliability Engineer
Share this job
Compétences techniques : Définir et implémenter des mécanismes de monitoring et d’alerting permettant de détecter les dysfonctionnements à tous les niveaux (front-end, backend, ETL, data quality, connectivité)
AWS : Prometheus, Cloudwatch (Logs, Metrics, Application Signals, Synthetics), PromQL, X-Ray, AWS Firewall
Azure : Azure Monitor, KQL, Application Insights, Container Insights, Log Analytics
Google Cloud Observability (metrics, cloud monitoring)
Grafana : Contribuer à la résilience des applications en implémentant et testant des mécanismes de sauvegarde des données et de restauration des applications : bonne connaissance et expérience des mécanismes de sauvegardes natifs AWS et Azure pour les bases de données, datalake, stockage blob. Implémenter des scénarios de Chaos Engineering (type Chaos Monkey) sur les environnements de production sur Azure et AWS. Mise en place de Disaster Recovery Plan et participation à l’implémentation et aux tests des mécanismes associés (pipelines de déploiement, restauration de données à partir de sauvegarde, etc.). Travailler sur l’optimisation de la gestion des incidents pour réduire le MTTR : détection, notification aux utilisateurs et suivi, outils d’analyse (logging). Mettre en place des solutions techniques d’AIOps pour améliorer l’observabilité, la résilience et la gestion des incidents dans le groupe. Implémenter et utiliser des agents IA capables d'identifier les améliorations relatives à la fiabilité à mettre en place sur les projets, de détecter les dysfonctionnements et de résoudre les pannes. Contribuer à améliorer la fiabilité des produits par la promotion auprès des équipes de bonnes pratiques SRE.
Soft skills : Aisance relationnelle et capacité de communiquer en anglais et en français à l’écrit et à l’oral. Capacité de présenter et expliquer des architectures techniques. Autonomie.
Conditions : Télétravail possible : 2 jours par semaine. Locaux : une grande ville métropolitaine.
Candidate profile
Compétences requises
Compétences techniques
AWS : Niveau confirmé
Azure : Niveau confirmé
Programmation Python : Niveau expert
Infrastructure en tant que code (Terraform et Ansible) : Niveau confirmé
Test de résilience : Niveau confirmé
OpenTelemetry : Niveau confirmé
GIT : Niveau avancé
Compétences linguistiques
Anglais : Bilingue
Français : Courant
Apply to this job!
Find your next career move from +1,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Site Reliability Engineer
Codezys