Le poste Data Engineer (H/F) - Paris
Partager cette offre
Ingestion des données sources via NIFI dans des tables de travail Cassandra ou en parquet sur AWS S3
Développement des Traitements Spark/Scala en lots des données sources ingérées
Traitement au quotidien des nouvelles données clients (ajout nouveaux clients
Enrichissement au quotidien des données des clients avec des fichiers de scoring et de segmentation (fournis par un autre projet)
Traitement toutes les 8 heures des nouvelles ventes avec notamment la mise à jour des ventes auditées ainsi que l’enrichissement des ventes avec les données des clients
Ingestion toutes les 8 heures des données des ventes dans Druid
Ajout et mise à jour des nouveaux produits des marques avec leur description, leur taille, leurs stocks ….
Traitement en temps réel via Kafka/Spark des données sources fournies par les marques dans les topics dédiés :
Enrichissement des données des produits des différentes marques en temps réel avec les informations des stocks, des prix
Mise à jour temps réel des données des ventes
Mise à jour temps réel des données clients
Mise à jour des commandes clients
Anonymisation des informations clients (RGPD)
Mise à jour des stocks disponibles en magasin
Exposition des informations des produits en transit (magasin d’origine, magasin destination) afin que les utilisateurs de Luce puissent estimer leurs dates de livraison
Traitement et Stockage des données dans Apache Solr et Cassandra
Exposition des données traitées dans une API nodejs à travers Cassandra et Solr
Ingestion des données des ventes et commandes sur Apache Druid via NIFI
Mise en place de tests automatiques afin d’éviter les régressions suite aux nouvelles évolutions
Développement de tests unitaires avant déploiement
Garantie de la cohérence des données
Planification des heures de lancement des différents traitements afin d’éviter d’avoir des données corrompues
Déploiement des différents traitements Spark via Jenkins/Livy dans les environnements dédiés
Monitoring des Jobs Spark via Yarn et Spark UI avec un système d’alerting via Slack en cas de problème durant les traitements
Mise en place de logs qui seront ensuite déposés dans ElasticSearch afin de faciliter la résolution et la recherche des bugs
Optimisation des différents traitements Data (optimisation du code Spark, des traitements NIFI)
Migration de tous nos workflows NIFI, traitements de données en lots/ temps réel Spark sur Amazon AWS
Migration de l’api ainsi que des tables et collections utilisées dans Cassandra
Environnement sur AWS
Ordonnancement des tâches via Airflow/Python, gestion des différentes dépendances entre les traitements
Mise à jour d’une librairie Airflow pour le lancement de nos Jobs Sparks ainsi que le monitoring (vérification des statuts des traitements). Mise en place des capteurs (sensors) nécessaires pour le suivi des statuts des traitements
Mise à jour d’une librairie générique Spark pour les jobs d’ingestion via parquet/csv/json
Profil recherché
Gestion du projet :
Méthodologie Scrum
Evaluation et priorisation des améliorations possibles.
Sprint de trois semaines avec un point chaque jour pour savoir l’avancement de chaque tâche et à la fin du sprint une démonstration et une rétrospective sont organisées.
Stack technique : Scala, Python, Spark, Kafka, NIFI Airflow, AWS, Cassandra, Solr, Jenkins, Git, Grafana, Druid, ElasticSearch, Kibana, SQL
Environnement de travail
Entreprise du luxe
Basée à Paris
TJM selon profil
Mission de longue durée
Postulez à cette offre !
Trouvez votre prochaine mission parmi +15 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data Engineer (H/F) - Paris
Mindquest