Le poste Data engineer - Expert Pyspark
Partager cette offre
Dans le cadre d'un programme stratégique de modernisation de la plateforme Data, intervention en tant que Data Engineer Expert PySpark pour accompagner la migration des traitements de données d'une architecture On-Premise vers Google Cloud Platform (GCP). La mission vise à industrialiser les pipelines de données, optimiser les performances des traitements Big Data et mettre en place une architecture cloud scalable, sécurisée et résiliente.
Principales responsabilitésParticiper à la définition de l'architecture cible Data sur GCP.
Analyser les flux et traitements existants sur l'environnement On-Premise.
Concevoir et développer des pipelines de données distribués avec PySpark.
Migrer les traitements ETL/ELT vers les services GCP.
Optimiser les performances des jobs Spark et réduire les temps de traitement.
Industrialiser les workflows de traitement et d'intégration des données.
Mettre en œuvre les bonnes pratiques de développement, de monitoring et de sécurité.
Assurer la qualité, la fiabilité et la traçabilité des données.
Participer aux phases de tests, validation et mise en production.
Accompagner les équipes Data dans l'adoption des nouvelles solutions Cloud.
Profil recherché
Minimum 5 ans d'expérience en Data Engineering.
Expertise confirmée en PySpark et optimisation de traitements Spark.
Très bonne connaissances des services GCP Data (Dataproc, BigQuery, GCS, Composer).
Solides compétences en Python et SQL.
Connaissance des problématiques de performance, partitionnement et optimisation de données.
Expérience des pratiques CI/CD et Infrastructure as Code.
Capacité à travailler dans des environnements complexes à fort volume de données.
Environnement de travail
Minimum 5 ans d'expérience en Data Engineering.
Expertise confirmée en PySpark et optimisation de traitements Spark.
Très bonne connaissances des services GCP Data (Dataproc, BigQuery, GCS, Composer).
Solides compétences en Python et SQL.
Connaissance des problématiques de performance, partitionnement et optimisation de données.
Expérience des pratiques CI/CD et Infrastructure as Code.
Capacité à travailler dans des environnements complexes à fort volume de données.
Environnement technique
Cloud :
Google Cloud Platform (GCP)
Dataproc
BigQuery
Cloud Storage (GCS)
Cloud Composer (Airflow)
Big Data :
Apache Spark
PySpark
Data Engineering :
Python
SQL
ETL / ELT
Data Lake
Data Warehouse
Méthodologie :
Agile Scrum
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data engineer - Expert Pyspark
DATAMED RESEARCH
