Job position Data engineer - Expert Pyspark
Share this job
Dans le cadre d'un programme stratégique de modernisation de la plateforme Data, intervention en tant que Data Engineer Expert PySpark pour accompagner la migration des traitements de données d'une architecture On-Premise vers Google Cloud Platform (GCP). La mission vise à industrialiser les pipelines de données, optimiser les performances des traitements Big Data et mettre en place une architecture cloud scalable, sécurisée et résiliente.
Principales responsabilitésParticiper à la définition de l'architecture cible Data sur GCP.
Analyser les flux et traitements existants sur l'environnement On-Premise.
Concevoir et développer des pipelines de données distribués avec PySpark.
Migrer les traitements ETL/ELT vers les services GCP.
Optimiser les performances des jobs Spark et réduire les temps de traitement.
Industrialiser les workflows de traitement et d'intégration des données.
Mettre en œuvre les bonnes pratiques de développement, de monitoring et de sécurité.
Assurer la qualité, la fiabilité et la traçabilité des données.
Participer aux phases de tests, validation et mise en production.
Accompagner les équipes Data dans l'adoption des nouvelles solutions Cloud.
Candidate profile
Minimum 5 ans d'expérience en Data Engineering.
Expertise confirmée en PySpark et optimisation de traitements Spark.
Très bonne connaissances des services GCP Data (Dataproc, BigQuery, GCS, Composer).
Solides compétences en Python et SQL.
Connaissance des problématiques de performance, partitionnement et optimisation de données.
Expérience des pratiques CI/CD et Infrastructure as Code.
Capacité à travailler dans des environnements complexes à fort volume de données.
Working environment
Minimum 5 ans d'expérience en Data Engineering.
Expertise confirmée en PySpark et optimisation de traitements Spark.
Très bonne connaissances des services GCP Data (Dataproc, BigQuery, GCS, Composer).
Solides compétences en Python et SQL.
Connaissance des problématiques de performance, partitionnement et optimisation de données.
Expérience des pratiques CI/CD et Infrastructure as Code.
Capacité à travailler dans des environnements complexes à fort volume de données.
Environnement technique
Cloud :
Google Cloud Platform (GCP)
Dataproc
BigQuery
Cloud Storage (GCS)
Cloud Composer (Airflow)
Big Data :
Apache Spark
PySpark
Data Engineering :
Python
SQL
ETL / ELT
Data Lake
Data Warehouse
Méthodologie :
Agile Scrum
Apply to this job!
Find your next career move from +10,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Data engineer - Expert Pyspark
DATAMED RESEARCH
