Le poste Platform Engineer — Disaster Recovery AWS (remote)
Partager cette offre
MISSIONS PRINCIPALES
Review & Challenge de l'Architecture DR
Analyser et challenger l'architecture Warm Pilot existante : robustesse, faisabilité, angles morts, SPOFs non-évidents
Identifier les dépendances cachées entre services AWS non visibles dans les schémas
Évaluer les choix de services AWS DR (Route 53 failover, Aurora Global Database, RDS cross-region, S3 Cross-Region Replication, EKS multi-cluster) et proposer des alternatives argumentées
Défendre les recommandations en arbitrant entre coût, délai et complexité opérationnelle
Implémentation IaC & GitOps
Implémenter en Terragrunt : configurations multi-comptes, multi-régions, modules DRY, orchestration des dépendances entre stacks
Configurer ArgoCD pour les environnements DR : ApplicationSets multi-cluster, stratégies de sync, gestion des secrets
Mettre en place les pipelines GitLab CI/CD pour la validation IaC et les tests automatisés
Garantir la cohérence GitOps end-to-end : aucun changement d'infrastructure hors du pipeline
Résilience, Réplication & Failover
Implémenter les mécanismes de réplication selon les services (synchrone/asynchrone) : données, configurations, secrets
Concevoir et implémenter les procédures de failover et de failback orchestrées
Définir et implémenter les critères de déclenchement du basculement (health checks, alerting, seuils)
Assurer la cohérence des RPO/RTO par application avec les équipes applicatives
Sécurité Cross-Region & Conformité
IAM cross-account, KMS cross-region, VPC peering / Transit Gateway dans le contexte DR
Garantir la conformité des données répliquées : souveraineté, chiffrement, audit trail
Collaborer avec les équipes sécurité sur les contraintes spécifiques au contexte DR
Testabilité & Documentation
Automatiser les tests de DR : scénarios de failover répétables et non-destructifs, validation des RTO/RPO atteints
Chaos engineering basique pour valider la résilience en conditions contrôlées
Runbooks de failover/failback exploitables par des équipes ops à 3h du matin en conditions de stress
Architecture Decision Records (ADR) documentant les choix techniques et leurs justifications
Profil recherché
COMPÉTENCES REQUISES
AWS DR — Must Have (++) :
Route 53 failover routing, Aurora Global Database, RDS Multi-AZ / cross-region, S3 Cross-Region Replication, EKS multi-cluster, AWS Backup
IAM cross-account policies, KMS multi-region keys, VPC peering / Transit Gateway
Architecture AWS multi-comptes, multi-régions en production réelle
IaC & GitOps — Must Have (++) :
Terragrunt (++) — configurations multi-comptes, modules DRY, orchestration des dépendances entre stacks
ArgoCD / GitOps (++) — gestion multi-cluster, ApplicationSets, stratégies de sync pour environnements DR
GitLab CI/CD — pipelines d'infrastructure, validation IaC, tests automatisés
Résilience & DR — Must Have :
Conception de stratégies DR : Cold, Warm Pilot, Warm Standby, Hot — arbitrage coût/RTO/RPO
Mécanismes de failover/failback orchestrés et automatisés
DR testing automation : scénarios répétables, non-destructifs, avec critères de validation mesurables
Nice-to-have :
Chaos engineering : AWS Fault Injection Simulator ou équivalent
Observabilité en contexte DR : CloudWatch, Prometheus/Grafana, alerting de failover
Contraintes de souveraineté ou de conformité sur les données répliquées
SOFT SKILLS CLÉS
Hybridité architecture/implémentation : conçoit et implémente — pas d'architecte théorique sans pratique terrain
Challenger constructif : remet en question avec des arguments précis, sans être bloquant
Rigueur sur les livrables : les runbooks doivent fonctionner à 3h du matin — pas de vague acceptable
Vision systémique : identifie les SPOFs et dépendances cachées que les schémas ne montrent pas
Coordination multi-équipes : plateforme, sécurité, applicatif, ops — sans perdre la cohérence de la mission
Calme sous pression : le DR se valide en conditions de stress simulé
Environnement de travail
CONTEXTE & OBJECTIF DU POSTE
Le client opère une plateforme cloud critique sur AWS. La stratégie de Disaster Recovery actuelle doit être revue, challengée et implémentée en mode Warm Pilot.
Ce n'est pas un projet de conseil théorique.
Le Platform Engineer recruté challenge la cible existante, l'implémente en IaC/GitOps, la rend testable de façon répétable et la documente de façon exploitable par les équipes ops.
Cinq enjeux concrets :
Challenger l'architecture DR existante — identifier les angles morts, SPOFs et gaps opérationnels avant qu'un incident réel les révèle
Implémenter les composants DR en Terragrunt et ArgoCD/GitOps — zéro ClickOps acceptable
Automatiser et rendre testable le DR de façon répétable et non-destructive
Garantir la cohérence sécurité end-to-end : IAM cross-account, KMS cross-region, conformité des données répliquées
Produire des runbooks de failover/failback exploitables en conditions de stress
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Platform Engineer — Disaster Recovery AWS (remote)
CONCRETIO SERVICES