Le poste Data Engineer ( Trino & Iceberg & dbt & Argo workflows & Superset & Metabase & OpenMetadata)
Partager cette offre
le client lance l'étude d'un potentiel nouveau Data Lake afin de remplacer l’infrastructure legacy par une plateforme moderne, scalable et pleinement gouvernée.
Le nouveau lake s’appuiera sur une architecture Medallion et intégrera les technologies suivantes : TrinoDB, Apache Iceberg, Parquet, dbt, Argo?Workflows, Apache Superset, Metabase et OpenMetadata.
Voici les tâches attendues pour la mission :
Analyse de l’existant & migration
• Cartographier les sources, pipelines et jeux de données actuels (legacy, SQL, fichiers plats...).
• Définition de la stratégie de migration vers le nouveau lake (bronze -> silver -> gold).
• Conception des plans de bascule tout en minimisant les interruptions de service.
Architecture & ingestion
• Conception des couches Bronze / Silver / Gold du nouveau Data Lake avec TrinoDB, Apache Iceberg et Parquet.
• Création de pipelines d’ingestion (batch & near-real-time) depuis les systèmes de crédit.
Modélisation & transformation
• Développement des modèles de transformation dans dbt?: scripts SQL, tests automatisés, documentation et versionning.
• Harmonisation des schémas (normes de nommage, typage, PK/UK) avec les exigences du domaine crédit.
Orchestration
• Implémentation des workflows de migration et de rafraîchissement des données avec Argo?Workflows (planification, gestion des dépendances, monitoring).
Self-service & visualisation
• Déployement des espaces de travail Apache Superset et Metabase pour que les analystes métier puissent créer leurs propres dashboards à partir du nouveau lake.
• Rédaction des guides d’utilisation et accompagner la montée en compétence des équipes.
Gouvernance, catalogue & lineage
• Intégration OpenMetadata pour le catalogage automatique, le suivi du lineage et la gestion des métadonnées (description, propriétaire, sensibilité).
• Mise en place des processus de data ownership, de versionning et de validation.
Qualité & validation
• Implémentation, dans les modèles dbt, des tests de qualité (not-null, unicité, règles métiers spécifiques au crédit).
• Mise en place des indicateurs de suivi (freshness, complétude, anomalies) et des alertes automatiques.
Sécurité & conformité
• Application des standards de sécurité du groupe (RBAC, data-masking).
• Contribution aux audits internes et aux revues de conformité réglementaire.
Profil recherché
Compétences techniques
• TrinoDB (SQL fédéré) -> Intermédiaire
• Apache Iceberg & Parquet -> Intermédiaire
• Dbt (modélisation, tests, documentation) -> Intermédiaire
• Argo?Workflows (orchestration) -> Intermédiaire à avancé
• Apache Superset / Metabase (BI) -> Intermédiaire
• OpenMetadata (catalogue, lineage) -> Intermédiaire
• Architecture Medallion (Bronze-Silver-Gold) -> Expérience démontrée
• Migration / refonte d’un Data Lake existant -> Expérience significative
• Gestion de versions (Git), CI/CD (GitHub Actions, GitLab, Jenkins) -> Intermédiaire
• Scripting (Python, Bash) -> Intermédiaire
Collaboration inter-équipes
• Travail en étroite coordination avec les équipes métiers.
• Participation aux cérémonies projets et aux ateliers de design.
Environnement de travail
le client lance l'étude d'un potentiel nouveau Data Lake afin de remplacer l’infrastructure legacy par une plateforme moderne, scalable et pleinement gouvernée.
Le nouveau lake s’appuiera sur une architecture Medallion et intégrera les technologies suivantes : TrinoDB, Apache Iceberg, Parquet, dbt, Argo?Workflows, Apache Superset, Metabase et OpenMetadata.
Voici les tâches attendues pour la mission :
Analyse de l’existant & migration
• Cartographier les sources, pipelines et jeux de données actuels (legacy, SQL, fichiers plats...).
• Définition de la stratégie de migration vers le nouveau lake (bronze -> silver -> gold).
• Conception des plans de bascule tout en minimisant les interruptions de service.
Architecture & ingestion
• Conception des couches Bronze / Silver / Gold du nouveau Data Lake avec TrinoDB, Apache Iceberg et Parquet.
• Création de pipelines d’ingestion (batch & near-real-time) depuis les systèmes de crédit.
Modélisation & transformation
• Développement des modèles de transformation dans dbt?: scripts SQL, tests automatisés, documentation et versionning.
• Harmonisation des schémas (normes de nommage, typage, PK/UK) avec les exigences du domaine crédit.
Orchestration
• Implémentation des workflows de migration et de rafraîchissement des données avec Argo?Workflows (planification, gestion des dépendances, monitoring).
Self-service & visualisation
• Déployement des espaces de travail Apache Superset et Metabase pour que les analystes métier puissent créer leurs propres dashboards à partir du nouveau lake.
• Rédaction des guides d’utilisation et accompagner la montée en compétence des équipes.
Gouvernance, catalogue & lineage
• Intégration OpenMetadata pour le catalogage automatique, le suivi du lineage et la gestion des métadonnées (description, propriétaire, sensibilité).
• Mise en place des processus de data ownership, de versionning et de validation.
Qualité & validation
• Implémentation, dans les modèles dbt, des tests de qualité (not-null, unicité, règles métiers spécifiques au crédit).
• Mise en place des indicateurs de suivi (freshness, complétude, anomalies) et des alertes automatiques.
Sécurité & conformité
• Application des standards de sécurité du groupe (RBAC, data-masking).
• Contribution aux audits internes et aux revues de conformité réglementaire.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data Engineer ( Trino & Iceberg & dbt & Argo workflows & Superset & Metabase & OpenMetadata)
WINSIDE Technology
