Le poste data engineer python spark anglais - 5 ans d'EXP
Partager cette offre
Dans un secteur logistique en plein essor, en prise direct avec les problématiques actuelles (smart cities, environnement, géopolitique), et en pleine transformation technologique (véhicules autonomes, digitalisation, mobilité), DPD Group vous offre l’opportunité d’avoir un impact direct sur la gestion de colis du futur.
Vous intégrerez l’équipe Analytics et contribuerez principalement au développement de la plateforme DataHub. Actuellement petite équipe autonome de 4 personnes engagées à 100% sur ce projet, l’équipe Analytics est intégrée au sein de l’équipe Data Science & Analytics de la DPSIN.
L’objectif de la plateforme interne DataHub est de stocker les données historiques des activités et permettre leur requêtage efficient. Les données sont issues de et exploitées par divers acteurs – Marketing, Sales, OPS, IT, Data Science, … en central ou depuis les Business Units – pour des usages tels que la récupération simple de données historiques, la BI ou le machine learning.
L’environnement de travail est international, avec des contacts quotidiens avec des équipes en France et à l’étranger. Les demandes d’utilisations de la plateforme croissent fortement.
La plateforme DataHub en quelques faits :
§ 2023 : Forte croissance des usages de la plateforme (BI, requêtage ad-hoc, requêtages fréquents standardisés et hautes performances d’applications), enrichissement de l’offre de services (Data Viz avec Superset)
§ 2024 : Monter en charge sur les usages (plus de use cases !), étendre l’offre de services et améliorer l’expérience utilisateurs (Data Viz, Data lineage), optimiser l’usage de notre stack technique (Spark, Airflow...), généraliser l’usage de tables d’Apache Iceberg, poursuivre l’industrialisation des pipelines de traitement de données…
o Les cas d’usages aujourd’hui en production :
§ 9 rapports BI servis
§ Requêtages fréquents (standardisés et tunés, avec ou sans API) par des applications :: 4 cas d’usages
§ Requêtage ad-hoc croissant des data scientists et équipes IT (+1000 requêtes / mois)
o Volumes de données sous gestion active :
§ ~10 To de données
§ +15 flux de données
§ Flux de donné majeur : +100 millions d’évènements / jour d’évènements sur les colis
Environnement technique :
§ Data Lake basé sur des technologies open source.
§ Architecture Cloud Kubernetes (Outscale Cloud)
§ Stockage des données sur du S3 (Outscale OOS) sous forme de fichiers Parquet (simples ou tables Iceberg) ou json
§ Query engine pour se connecter (S3 et autres DB) et requêter (SQL standard) les données : Dremio
§ Maintenance de tables Iceberg et requêtage de données avec Apache Spark
§ Automatisation des opérations et traitements de données en python avec Apache Airflow
§ Data Viz orientée métier avec Apache Superset
§ Data Viz orientée Monitoring IT avec Grafana
§ APIs développées en Python et Java
§ Gestion de version et CI/CD avec GIT Lab
Organisation :
§ Equipe Produit de 4 personnes
§ Mode de travail Agile Scrum
Profil recherché
5 ans d’expérience minimum
Requis :
o Analyse des besoins auprès des utilisateurs de Datahub (métiers, équipes IT, process...), formalisation des échanges, des process et développements à effectuer
o Activités DevOps pour les applications Datahub :
§ Déploiements et mises à jour d’applications sur clusters Kubernetes
§ Customisation, paramétrages avancés d’applications open-sources
§ Amélioration continue de la stabilité des applications
§ Monitoring des applications
o Réalisation/Suivi de sujets d’architecture IT avec des spécialistes architecture IT (réseau, cluster Kuberneters, bases de données relationnelles, containers, usage des ressources de calculs)
o Développements (niveaux moyens minimum)
§ Python pour automatisation de tâches planifiées (rafraichissements de données, calculs de KPI, opérations techniques…)
§ Traitement de données Parquet (modifications des données et schémas) avec pyArrow, pySpark ou polars
§ SQL pour requêtes Adhoc, qualité de données, modélisation et réalisation de développements SQL complexes (Ex : datasets pour rapports BI), performance tuning.
o Bonne communication en Français et Anglais, à l’écrit et à l’oral.
o Curiosité, bonne capacité d’analyse pour l’acquisition rapide de compétences techniques, rigueur, proactivité, bon relationnel.
Une expérience et/ou expertise serait un plus sur :
o Une ou plusieurs des applications/technologies suivantes :
o Dremio v20+, Presto, Athena
o Apache Spark
o Apache Iceberg, Delta Lake
o Apache Airflow
o Apache Superset
o Collecte et analyse de Data Lineage (Ex. openlineage)
o GIT, GIT Lab, GIT CI/CD
o Stockage de données S3
o Fichiers parquet
o Développements d’API (code first)
o Kubernetes et containers
o Grafana, Prometeus, Loki
o Travail en équipe Agile Scrum
o Rôle de Scrum Master (expérience du rôle, certification)
o Développements Java
Environnement de travail
5 ans d’expérience minimum
Requis :
o Analyse des besoins auprès des utilisateurs de Datahub (métiers, équipes IT, process...), formalisation des échanges, des process et développements à effectuer
o Activités DevOps pour les applications Datahub :
§ Déploiements et mises à jour d’applications sur clusters Kubernetes
§ Customisation, paramétrages avancés d’applications open-sources
§ Amélioration continue de la stabilité des applications
§ Monitoring des applications
o Réalisation/Suivi de sujets d’architecture IT avec des spécialistes architecture IT (réseau, cluster Kuberneters, bases de données relationnelles, containers, usage des ressources de calculs)
o Développements (niveaux moyens minimum)
§ Python pour automatisation de tâches planifiées (rafraichissements de données, calculs de KPI, opérations techniques…)
§ Traitement de données Parquet (modifications des données et schémas) avec pyArrow, pySpark ou polars
§ SQL pour requêtes Adhoc, qualité de données, modélisation et réalisation de développements SQL complexes (Ex : datasets pour rapports BI), performance tuning.
o Bonne communication en Français et Anglais, à l’écrit et à l’oral.
o Curiosité, bonne capacité d’analyse pour l’acquisition rapide de compétences techniques, rigueur, proactivité, bon relationnel.
Une expérience et/ou expertise serait un plus sur :
o Une ou plusieurs des applications/technologies suivantes :
o Dremio v20+, Presto, Athena
o Apache Spark
o Apache Iceberg, Delta Lake
o Apache Airflow
o Apache Superset
o Collecte et analyse de Data Lineage (Ex. openlineage)
o GIT, GIT Lab, GIT CI/CD
o Stockage de données S3
o Fichiers parquet
o Développements d’API (code first)
o Kubernetes et containers
o Grafana, Prometeus, Loki
o Travail en équipe Agile Scrum
o Rôle de Scrum Master (expérience du rôle, certification)
o Développements Java
Postulez à cette offre !
Trouvez votre prochaine mission parmi +15 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
data engineer python spark anglais - 5 ans d'EXP
Innov and Co