Le poste Data Engineer – Cloudera CDP & Data Services (OpenShift)
Partager cette offre
Dans le cadre de la mise en place et de l’évolution de sa plateforme data, l’entreprise
recherche un Data Engineer spécialisé sur l’écosystème CDP, évoluant dans
un environnement conteneurisé OpenShift.
Au sein de l’équipe data, le collaborateur conçoit, développe et optimise les pipelines
de traitement de données. Il intervient sur l’ensemble du cycle de vie de la donnée,
depuis son ingestion jusqu’à sa mise à disposition pour les usages analytiques et
métiers.
Il contribue activement à la fiabilité, à la performance et à la scalabilité des traitements
dans un environnement distribué.
Le Data Engineer conçoit et développe des pipelines de données robustes et
performants en s’appuyant sur les services CDP et les frameworks de
traitement distribué.
Il met en œuvre des processus d’ingestion de données provenant de différentes sources
(bases de données, APIs, flux temps réel) et garantit leur qualité.
Il développe et optimise des traitements batch et streaming à l’aide d’outils tels que
Spark, Hive ou autres composants de l’écosystème Hadoop.
Il exploite les CDP Data Services, notamment Data Engineering et Data Warehouse,
pour industrialiser les traitements et faciliter l’accès aux données.
Il collabore avec les équipes data science, BI et métiers afin de comprendre les besoins
et de proposer des solutions adaptées.
Il participe à la structuration et à la modélisation des données en définissant des
schémas optimisés pour l’analyse.
Il veille à la qualité des données en mettant en place des contrôles, des tests et des
mécanismes de monitoring.
Le Data Engineer développe des workflows de traitement dans un environnement
CDP Private Cloud (PVC) en s’appuyant sur des outils comme Spark et Hive.
Il déploie et exécute ses traitements dans un environnement OpenShift via les CDP Data
Services, en garantissant leur bon fonctionnement et leur scalabilité.
Il optimise les performances des jobs en travaillant sur la gestion des ressources, le
partitionnement des données et l’optimisation des requêtes.
Il met en œuvre des bonnes pratiques de développement (versioning, tests,
documentation) et participe à l’automatisation des déploiements.
Il assure la gestion des dépendances et l’orchestration des traitements à l’aide d’outils
adaptés.
Le candidat possède une expérience significative en data engineering, idéalement dans
un environnement CDP.
Il maîtrise les frameworks de traitement distribué, notamment Apache Spark, ainsi que
les outils de requêtage comme Hive ou Impala.
Il a une bonne compréhension des architectures big data et des systèmes distribués.
Il est à l’aise avec les environnements conteneurisés, notamment OpenShift ou
Kubernetes.
Il maîtrise au moins un langage de programmation utilisé en data engineering (Python,
Scala ou Java).
Il possède des compétences en modélisation de données et en optimisation des
performances.
Une connaissance des pratiques DevOps et des outils d’intégration continue constitue
un atout.
Le poste s’adresse à un profil curieux, autonome et orienté solution, capable de
travailler dans un environnement technique exigeant.
Le candidat sait faire preuve de rigueur dans la gestion de la qualité des données et
possède un bon esprit d’équipe.
Il est capable de communiquer efficacement avec des interlocuteurs techniques et
métiers.
CDP Private Cloud (PVC)
CDP Data Services (Data Engineering, Data Warehouse)
OpenShift / Kubernetes
Apache Spark, Hive, Impala / Hadoop ecosystem (HDFS) / Python / Scala / Java
Outils d’orchestration et de CI/CD / Linux
Profil recherché
Le poste s’adresse à un profil curieux, autonome et orienté solution, capable de
travailler dans un environnement technique exigeant.
Le candidat sait faire preuve de rigueur dans la gestion de la qualité des données et
possède un bon esprit d’équipe.
Il est capable de communiquer efficacement avec des interlocuteurs techniques et
métiers.
Environnement de travail
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data Engineer – Cloudera CDP & Data Services (OpenShift)
Craftman data
