Innov and Co

Mission freelance data engineer python spark anglais - 5 ans d'EXP

Issy-les-Moulineaux (92)

Innov and Co

Le poste

Freelance
Dès que possible
12 mois
100-600 €⁄j
5 à 10 ans d’expérience
Télétravail partiel
Issy-les-Moulineaux, Île-de-France
Publiée le 02/05/2024

Partager cette offre

Dans un secteur logistique en plein essor, en prise direct avec les problématiques actuelles (smart cities, environnement, géopolitique), et en pleine transformation technologique (véhicules autonomes, digitalisation, mobilité), DPD Group vous offre l’opportunité d’avoir un impact direct sur la gestion de colis du futur. 

 

Vous intégrerez l’équipe Analytics et contribuerez principalement au développement de la plateforme DataHub. Actuellement petite équipe autonome de 4 personnes engagées à 100% sur ce projet, l’équipe Analytics est intégrée au sein de l’équipe Data Science & Analytics de la DPSIN.

L’objectif de la plateforme interne DataHub est de stocker les données historiques des activités et permettre leur requêtage efficient. Les données sont issues de et exploitées par divers acteurs – Marketing, Sales, OPS, IT, Data Science, … en central ou depuis les Business Units – pour des usages tels que la récupération simple de données historiques, la BI ou le machine learning.

L’environnement de travail est international, avec des contacts quotidiens avec des équipes en France et à l’étranger. Les demandes d’utilisations de la plateforme croissent fortement.

 

 

La plateforme DataHub en quelques faits :

§  2023 : Forte croissance des usages de la plateforme (BI, requêtage ad-hoc, requêtages fréquents standardisés et hautes performances d’applications), enrichissement de l’offre de services (Data Viz avec Superset)

§  2024 : Monter en charge sur les usages (plus de use cases !), étendre l’offre de services et améliorer l’expérience utilisateurs (Data Viz, Data lineage), optimiser l’usage de notre stack technique (Spark, Airflow...), généraliser l’usage de tables d’Apache Iceberg, poursuivre l’industrialisation des pipelines de traitement de données…

o   Les cas d’usages aujourd’hui en production :

§  9 rapports BI servis

§  Requêtages fréquents (standardisés et tunés, avec ou sans API) par des applications :: 4 cas d’usages

§  Requêtage ad-hoc croissant des data scientists et équipes IT (+1000 requêtes / mois)

o   Volumes de données sous gestion active :

§  ~10 To de données

§  +15 flux de données

§  Flux de donné majeur : +100 millions d’évènements / jour d’évènements sur les colis

 

 

 Environnement technique :

§  Data Lake basé sur des technologies open source.

§  Architecture Cloud Kubernetes (Outscale Cloud)

§  Stockage des données sur du S3 (Outscale OOS) sous forme de fichiers Parquet (simples ou tables Iceberg) ou json

§  Query engine pour se connecter (S3 et autres DB) et requêter (SQL standard) les données : Dremio

§  Maintenance de tables Iceberg et requêtage de données avec Apache Spark

§  Automatisation des opérations et traitements de données en python avec Apache Airflow

§  Data Viz orientée métier avec Apache Superset

§  Data Viz orientée Monitoring IT avec Grafana

 

§  APIs développées en Python et Java

§  Gestion de version et CI/CD avec GIT Lab

Organisation :

§  Equipe Produit de 4 personnes

§  Mode de travail Agile Scrum

Profil recherché

5 ans d’expérience minimum

 

Requis :

o   Analyse des besoins auprès des utilisateurs de Datahub (métiers, équipes IT, process...), formalisation des échanges, des process et développements à effectuer

o   Activités DevOps pour les applications Datahub :

§  Déploiements et mises à jour d’applications sur clusters Kubernetes

§  Customisation, paramétrages avancés d’applications open-sources

§  Amélioration continue de la stabilité des applications

§  Monitoring des applications

o   Réalisation/Suivi de sujets d’architecture IT avec des spécialistes architecture IT (réseau, cluster Kuberneters, bases de données relationnelles, containers, usage des ressources de calculs)

o   Développements (niveaux moyens minimum)

§  Python pour automatisation de tâches planifiées (rafraichissements de données, calculs de KPI, opérations techniques…)

§  Traitement de données Parquet (modifications des données et schémas) avec pyArrow, pySpark ou polars

§  SQL pour requêtes Adhoc, qualité de données, modélisation et réalisation de développements SQL complexes (Ex : datasets pour rapports BI), performance tuning.

o   Bonne communication en Français et Anglais, à l’écrit et à l’oral.

o   Curiosité, bonne capacité d’analyse pour l’acquisition rapide de compétences techniques, rigueur, proactivité, bon relationnel.

 

Une expérience et/ou expertise serait un plus sur :

o   Une ou plusieurs des applications/technologies suivantes :

o   Dremio v20+, Presto, Athena

o   Apache Spark

o   Apache Iceberg, Delta Lake

o   Apache Airflow

o   Apache Superset

o   Collecte et analyse de Data Lineage (Ex. openlineage)

o   GIT, GIT Lab, GIT CI/CD

o   Stockage de données S3

o   Fichiers parquet

o   Développements d’API (code first)

o   Kubernetes et containers

o   Grafana, Prometeus, Loki

o   Travail en équipe Agile Scrum

o   Rôle de Scrum Master (expérience du rôle, certification)

o   Développements Java

Environnement de travail

5 ans d’expérience minimum

 

Requis :

o   Analyse des besoins auprès des utilisateurs de Datahub (métiers, équipes IT, process...), formalisation des échanges, des process et développements à effectuer

o   Activités DevOps pour les applications Datahub :

§  Déploiements et mises à jour d’applications sur clusters Kubernetes

§  Customisation, paramétrages avancés d’applications open-sources

§  Amélioration continue de la stabilité des applications

§  Monitoring des applications

o   Réalisation/Suivi de sujets d’architecture IT avec des spécialistes architecture IT (réseau, cluster Kuberneters, bases de données relationnelles, containers, usage des ressources de calculs)

o   Développements (niveaux moyens minimum)

§  Python pour automatisation de tâches planifiées (rafraichissements de données, calculs de KPI, opérations techniques…)

§  Traitement de données Parquet (modifications des données et schémas) avec pyArrow, pySpark ou polars

§  SQL pour requêtes Adhoc, qualité de données, modélisation et réalisation de développements SQL complexes (Ex : datasets pour rapports BI), performance tuning.

o   Bonne communication en Français et Anglais, à l’écrit et à l’oral.

o   Curiosité, bonne capacité d’analyse pour l’acquisition rapide de compétences techniques, rigueur, proactivité, bon relationnel.

 

Une expérience et/ou expertise serait un plus sur :

o   Une ou plusieurs des applications/technologies suivantes :

o   Dremio v20+, Presto, Athena

o   Apache Spark

o   Apache Iceberg, Delta Lake

o   Apache Airflow

o   Apache Superset

o   Collecte et analyse de Data Lineage (Ex. openlineage)

o   GIT, GIT Lab, GIT CI/CD

o   Stockage de données S3

o   Fichiers parquet

o   Développements d’API (code first)

o   Kubernetes et containers

o   Grafana, Prometeus, Loki

o   Travail en équipe Agile Scrum

o   Rôle de Scrum Master (expérience du rôle, certification)

o   Développements Java

Asnières-sur-Seine, Île-de-France
20 - 99 salariés
ESN
Innov and Co Inclusion, Diversité ou Handicap fait partie de l'économie responsable, pour 100 collaborateurs. Ce sont 2 entreprises sociales et solidaires. Notre métier est de lever les idées reçues sur les "bons profils" pour l'entreprise. Une entreprise de consultants de séniors, de jeunes, de personnes porteuses d’un handicap, ou issus des quartiers politiques des territoires, ainsi que de femmes sont des métiers genrés homme, agréée Entreprise Solidaire et Sociale, SAS au capital social de 200 000 euros. Nous sommes dans le classement les Echos 2022 des entreprises en plus forte croissance en France. Avec plus de 17 référencements de rang un, nous sommes reconnus grâce à notre positionnement unique en France depuis 10 ans. Nous avons plus de 40 clients grands comptes actifs. Chez nous, le savoir être est aussi important que les process de travail, d’industrialisation des développements, que la technicité du produit réalisé. Nous avons engagés une démarche de charte RFAR : Relations Fournisseurs et Achats Responsables, sous conseil de nos propres clients, qui font cette démarche avec nous. Nous le faisons naturellement, mais nous souhaitons professionnaliser notre relation avec nos fournisseurs, afin d'augmenter la confiance qu'ils nous témoignent au quotidien, et pour les nouveaux fournisseurs, de savoir qui nous sommes vraiment. https://www.innovandco.net

Postulez à cette offre !

Trouvez votre prochaine mission parmi +15 000 offres !

  • Fixez vos conditions

    Rémunération, télétravail... Définissez tous les critères importants pour vous.

  • Faites-vous chasser

    Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.

  • 100% gratuit

    Aucune commission prélevée sur votre mission freelance.

data engineer python spark anglais - 5 ans d'EXP

Innov and Co

Au service des talents IT

Free-Work est une plateforme qui s'adresse à tous les professionnels des métiers de l'informatique.

Ses contenus et son jobboard IT sont mis à disposition 100% gratuitement pour les indépendants et les salariés du secteur.

Free-workers
Ressources
A propos
Espace recruteurs
2024 © Free-Work / AGSI SAS
Suivez-nous