
Le poste Senior Big Data Consultant (Spark on Kubernetes / Airflow / Kubernetes)
Partager cette offre
Concevoir, industrialiser et opérer des plateformes data “cloud-native” sur Kubernetes, incluant l’orchestration de pipelines via Airflow sur Kube, afin d’accélérer l’ingestion, le traitement et la mise à disposition de données à grande échelle (batch & near-real time) avec des standards élevés de fiabilité, sécurité et coûts.
Responsabilités clésArchitecture & design
Définir l’architecture Data on Kube (ingestion, stockage, calcul, orchestration, observabilité).
Modéliser et standardiser les data pipelines (DAGs Airflow) et patterns d’infrastructure (Helm/Kustomize).
Industrialisation & déploiement
Packager et déployer Airflow sur Kube (Helm chart officiel/Astro/OSS) avec HA, RBAC, autoscaling.
Mettre en place des opérateurs Airflow (KubernetesPodOperator, SparkK8sOperator, etc.).
Automatiser via GitOps (Argo CD/Flux) et CI/CD (GitHub Actions/GitLab CI).
Opérations & SRE
Gérer la capacité, le autoscaling (HPA/VPA/Karpenter), la QoS et l’optimisation des coûts (requests/limits, Spot/Preemptible).
Observabilité end-to-end (logs, metrics, traces) et runbook d’incident (SLA/SLO/SLI).
Sécuriser la plateforme (NetworkPolicy, Secrets, IAM, image signing, pod security).
Data Engineering sur Kube
Exécuter Spark/Flink/Beam sur K8s ; optimiser ressources, shuffle, I/O.
Normaliser les environnements d’exécution (Docker base images, Python/Java runtimes).
Gouvernance & qualité
Mettre en place un data contract / schema registry, tests de données (Great Expectations/Deequ), lineage (OpenLineage/Marquez).
Accompagnement
Enablement des équipes data (templates, cookbooks), code reviews, mentorat et evangelism des bonnes pratiques.
Profil recherché
5–8 ans d’expérience dont 3+ sur K8s en prod et 2+ sur Airflow en prod.
Expérience avérée de plateformes data à grande échelle (batch/streaming).
Expérience avérée Big Data Hadoop.
Environnement de travail
Environnement technique
1) Fondations plateformeKubernetes (Kube)
Packaging & déploiement : Helm (charts) et Kustomize (overlays)
GitOps : Argo CD (ou Flux) pour que tout déploiement passe par Git (traçable et réversible).
Airflow sur Kubernetes : déployé via Helm, exécuteurs KubernetesExecutor ou CeleryKubernetes.
Exécution des tâches : KubernetesPodOperator (une tâche = un pod) ; opérateurs Spark si besoin.
3) Traitements de données
Batch & streaming :
Spark on K8s pour les gros traitements batch.
Environnements d’exécution : images Docker standardisées (Python/Java), dépendances versionnées.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Senior Big Data Consultant (Spark on Kubernetes / Airflow / Kubernetes)
KLETA