Share this job
Le client (finance) utilise AWS depuis quelques années, d’abord sur une stack HPC (librairie permettant de distribuer sur AWS Batch l’exécution d’un DAG), puis avec une stack SageMaker (expérience interactive via l’utilisation de Studio JupyterLab / MLFlow).
Ce projet, comme les précédents, prend la forme d’un MAP (Migration Acceleration Program), approche structurée par AWS (Assess - Mobilize - Migrate). La phase Assess a identifié une typologie d’usages (embarassingly parallel map, cross-partition shuffling / window-heavy computation, dataset-level summaries, ML/tensor-preparation, interactive exploration) et 3 technologies-clés : 1) Ray/Daft 2) Spark (via EMR) et 3) Iceberg, comme couche de stockage/accès aux données.
La phase de Mobilize doit permettre :
● De valider la capacité de ces outils à adresser les enjeux de feature engineering avec les contraintes ci-dessus exprimées, et une expérience chercheur aussi aisée que possible.
● D’envisager leur exploitation dans un mode “plateforme” / industrialisé ; les aspect self-service, observabilité technique et finops, sont clés. Exprimée aujourd’hui comme un side-topic, l’exploitation unifiée des technologies ci-dessus sur un socle Kubernetes (sur EKS) pourrait devenir un sujet central de la phase Mobilize.
Cette phase de mobilize doit durer 7 mois et sera réalisée par une équipe de 3 personnes:
Un software engineer, un devOps (vous) et un data Engineer.
● Mise en œuvre de stacks data : Expérience pratique de mise en œuvre d’EMR ainsi que de clusters hors service managé EMR (donc, sur EC2, Batch, ou EKS). Expérience sur Kubernetes
● Architectures lakehouse modernes : expérience pratique avec Iceberg : recul sur l’interopérabilité multi-moteurs (Spark/PyIceberg), gestion des permissions.
● Infrastructure AWS & IaC : Solide maîtrise du déploiement de plateformes de données de qualité production sur AWS en utilisant Terraform.
● Observabilité & FinOps : Expérience dans la mise en œuvre du tagging d'allocation des coûts, la construction de tableaux de bord CloudWatch pour 1) le suivi des jobs et des coûts, et la conception de mécanismes d'application de quotas/budgets pour les plateformes de recherche multi-tenants et 2) le suivi des performances des applications Data.
Compétences techniques
-> Bonne maitrise et expérience de EKS
-> Maitrise du cloud AWS (services EMR, S3, Daft serait un plus) et notamment des aspects IAM (gestion multi-comptes)
-> Avoir déjà touché a du Iceberg est un plus
-> Maitrise de Terraform
-> Anglais courant obligatoire
Localisation
Paris, présence sur site obligatoire à minima 3j/semaine
Candidate profile
Compétences techniques
-> Bonne maitrise et expérience de EKS
-> Maitrise du cloud AWS (services EMR, S3, Daft serait un plus) et notamment des aspects IAM (gestion multi-comptes)
-> Avoir déjà touché a du Iceberg est un plus
-> Maitrise de Terraform
-> Anglais courant obligatoire
Apply to this job!
Find your next career move from +700 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
DevOps Engineer Senior
Aneo
