Le poste Senior Data Engineer – Optimisation et stabilisation d’une pipeline PySpark
Partager cette offre
L’équipe développe et maintient les modèles de prévision de la demande et des ventes pour l’ensemble des produits Décathlon, par centre d’approvisionnement continental. Aujourd’hui, notre pipeline est en production sur l’Europe, la Chine et l’Inde, et notre ambition pour 2026 est d’étendre la couverture à LATAM et MEA.
Dans ce cadre, nous recherchons un Data Engineer Senior expérimenté sur PySpark et l’optimisation de pipelines.
Notre Stack Data : AWS (S3, ECR, EKS); Databricks; Airflow; Pyspark; Python Et Github.
La mission portera principalement sur la reprise, l’optimisation et la refonte partielle du module de “refining”, hérité d’une autre équipe. Ce module présente aujourd’hui plusieurs limites : lenteur d'exécution (compute), manque de gouvernance, faible modularité, documentation incomplète et difficulté à évoluer ou à scaler à l’échelle mondiale. Le contexte inclut également plusieurs dettes techniques autour de la stabilité, de la qualité du code et du renforcement des tests (unitaires et fonctionnels).
Profil recherché
Objectifs et livrables
Le consultant aura pour principales responsabilités :
Refonte et optimisation du module “Refining” : Auditer le code existant, identifier les goulots de performance et axes d’amélioration. Revoir la structure du code pour renforcer la modularité, la lisibilité et la maintenabilité. Mettre en place une documentation claire et partagée (technique + fonctionnelle). Optimiser le traitement PySpark (logique de partitionnement, cache, broadcast, etc.). Proposer une approche flexible pour l’ajout de nouvelles features.
Renforcement de la robustesse et de la qualité : Implémenter ou renforcer les tests unitaires et fonctionnels. Améliorer la stabilité globale de la pipeline ML de forecast. Participer à la mise en place de bonnes pratiques d’ingénierie logicielle (CI/CD, gouvernance du code, monitoring).
Collaboration et transfert de compétences : Travailler étroitement avec les Data Scientists et les Machine Learning Engineers de l’équipe. Assurer un transfert de connaissances clair et structuré à l’équipe interne. Contribuer à la montée en compétence collective sur PySpark et la scalabilité de pipelines ML.
Livrables attendus :
Module “refining” refactoré, documenté et testé
Rapports d’audit et plan d’optimisation validés
Documentation technique centralisée
Pipeline stable et industrialisable à l’échelle mondiale
AWS EC2 -Expert
Programmation Python-Expert
GitHub Actions-Expert
Apache Airflow-Expert
AWS-Expert
DATABRICKS-Confirmé
AWS S3-Expert
PYSPARK-Expert
GITHUB-Expert
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Senior Data Engineer – Optimisation et stabilisation d’une pipeline PySpark
R&S TELECOM
