Le poste Senior Data Engineer Optimisation et stabilisation d’une pipeline PySpark (Forecast ML)
Partager cette offre
Profil : Senior Data Engineer
· Contexte de la mission : L’équipe Supply Zone Forecast (SZF) développe et maintient les modèles de prévision de la demande et des ventes pour l’ensemble des produits Décathlon, par centre d’approvisionnement continental.
Aujourd’hui, notre pipeline est en production sur l’Europe, la Chine et l’Inde, et notre ambition pour 2026 est d’étendre la couverture à LATAM et MEA.
Dans ce cadre, nous recherchons un Data Engineer Senior expérimenté sur PySpark et l’optimisation de pipelines.
Notre Stack Data : AWS (S3, ECR, EKS); Databricks; Airflow; Pyspark; Python Et Github.
La mission portera principalement sur la reprise, l’optimisation et la refonte partielle du module de “refining”, hérité d’une autre équipe. Ce module présente aujourd’hui plusieurs limites : lenteur d'exécution (compute), manque de gouvernance, faible modularité, documentation incomplète et difficulté à évoluer ou à scaler à l’échelle mondiale. Le contexte inclut également plusieurs dettes techniques autour de la stabilité, de la qualité du code et du renforcement des tests (unitaires et fonctionnels)
La mission se déroulera sur site à Paris , au sein du pôle data Digital
Principales responsabilités
Refonte et optimisation du module “Refining” :
Auditer le code existant, identifier les goulots de performance et axes d’amélioration.
Revoir la structure du code pour renforcer la modularité, la lisibilité et la maintenabilité.
Mettre en place une documentation claire et partagée (technique + fonctionnelle).
Optimiser le traitement PySpark (logique de partitionnement, cache, broadcast, etc.).
Proposer une approche flexible pour l’ajout de nouvelles features.
Renforcement de la robustesse et de la qualité :
Implémenter ou renforcer les tests unitaires et fonctionnels.
Améliorer la stabilité globale de la pipeline ML de forecast.
Participer à la mise en place de bonnes pratiques d’ingénierie logicielle (CI/CD, gouvernance du code, monitoring).
Collaboration et transfert de compétences :
Travailler étroitement avec les Data Scientists et lMachine Learning Engineers de l’équipe SZF.
Assurer un transfert de connaissances clair et structuré à l’équipe interne.
Contribuer à la montée en compétence collective sur PySpark et la scalabilité de pipelines ML.
Livrables attendus :
Module “refining” refactoré, documenté et testé
Rapports d’audit et plan d’optimisation validés
Documentation technique centralisée
Pipeline stable et industrialisable à l’échelle mondiale
Profil recherché
Compétences requises :
Databricks Data Intelligence Platform
GitHub
AWS
Amazon S3
Python
PySpark
Amazon EC2
Livrables attendus :
Module “refining” refactoré, documenté et testé
Rapports d’audit et plan d’optimisation validés
Documentation technique centralisée
Pipeline stable et industrialisable à l’échelle mondiale
Postulez à cette offre !
Trouvez votre prochaine mission parmi +9 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Senior Data Engineer Optimisation et stabilisation d’une pipeline PySpark (Forecast ML)
Nicholson SAS
