Job position Site Reliability Engineer Azure -Ingénieur Fiabilité Cloud
Share this job
- Rattachement hiérarchique : Responsable Cloud & Datacenter – Équipe Cloud & Datacenter
Missions principales :
• Fiabilité & SRE : définition des SLI/SLO/error budgets, revues de fiabilité, gestion des incidents majeurs, post-mortems blameless, plans de remédiation.
• Observabilité : contribution à la plateforme monitoring (Prometheus, Grafana, Loki, Mimir, Alloy), intégration de nouveaux périmètres Azure, dashboards et alerting.
• FinOps & gouvernance Cloud : suivi de la consommation MACC, analyses Azure Resource Graph (KQL), right-sizing, chasse aux ressources orphelines, recommandations d’optimisation.
• Infrastructure as Code : industrialisation via Terraform, modules réutilisables, pipelines GitOPS CI/CD, revues de code et bonnes pratiques IaC.
• Plateforme Kubernetes (AKS) : exploitation, patching, scaling, sécurité (RBAC, Network Policies, Azure AD integration), support aux équipes applicatives.
• Data Platform : accompagnement de la migration ADF v2 vers Databricks, fiabilisation des pipelines et suivi des coûts de compute.
• Automatisation & tooling : scripts Python / PowerShell / Bash, runbooks, self-healing, réduction du toil.
• Sécurité & conformité : application des standards groupe, gestion des secrets (Key Vault), RBAC, Defender for Cloud, PRA/PCA.
• Documentation & partage : runbooks, architecture decision records (ADR), transfert de compétences vers l’équipe et les partenaires (Accenture).
Candidate profile
Compétences requises :
• Azure : AKS, App Service, Azure Monitor, Log Analytics, Azure Resource Graph (KQL), Networking (VNet, ExpressRoute, Private Link), Key Vault, Azure AD, Policy, Cost Management.
• Data : Azure Data Factory, Databricks, notions SQL Server / PostgreSQL (ESU, licensing, tuning de base).
• Observabilité : Prometheus, Grafana, Loki, Mimir, Grafana Alloy, OpenTelemetry.
• IaC & GitOps : Terraform (obligatoire), GitOPS CI/CD, Helm
• Conteneurs : Kubernetes (AKS en priorité), Docker, Helm, ingress / service mesh (notions).
• Scripting & dev : Python, PowerShell, Bash ; familiarité avec Git et les pratiques de code review.
• Sécurité : RBAC, identités managées, gestion des certificats, hardening Windows / Linux, lecture de logs d’audit.
• Méthodologie : SRE (Google SRE book), ITIL v4, pratiques FinOps (FinOps Foundation), post-mortems blameless.
Working environment
Profil recherché :
• Bac +5 en informatique, systèmes, réseaux ou cloud computing.
• Expérience > 4 ans en environnement Cloud Azure à l’échelle entreprise, dont au moins 2 ans sur un rôle SRE / Platform / Cloud Ops.
• Certifications appréciées : AZ-104, AZ-305, AZ-400, CKA, HashiCorp Terraform Associate.
• Expérience dans un contexte multi-partenaires (intégrateurs, éditeurs, infogérant) appréciée.
• Anglais technique requis (échanges réguliers avec partenaires internationaux).
Apply to this job!
Find your next career move from +10,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Site Reliability Engineer Azure -Ingénieur Fiabilité Cloud
AVALIANCE