Le poste Data Engineer - Google Cloud Platform - Scripting Bash - Requêtes complexes SQL
Partager cette offre
Conception, Développement et Optimisation de Pipelines de Données sur GCP :
Concevoir, développer et maintenir des pipelines robustes et performants de
collecte, transformation et chargement de données à partir de diverses sources
(Oracle, fichiers, APIs, etc.) vers BigQuery et d'autres destinations.
Utiliser et orchestrer les services Google Cloud Platform (Dataflow, Dataproc,
Cloud Composer/Airflow, Pub/Sub, Cloud Storage, BigQuery) pour construire des
architectures de données scalables et fiables.
Assurer l'automatisation des traitements, la gestion des dépendances et
l'ordonnancement des jobs de données.
Optimiser les performances des pipelines et la consommation des ressources
GCP.
Modélisation et Gestion des Données :
Participer à la conception et à l'évolution des modèles de données dans
BigQuery, en collaboration avec les Data Analysts et les équipes métier.
Assurer la qualité, la cohérence et l'intégrité des données stockées et mises à
disposition.
Mettre en place et gérer des stratégies de versioning des schémas de données
et de cycle de vie des données.
Run Opérationnel, Maintenance et Support N2/N3 :
Assurer le support opérationnel de niveau 2/3 du produit Topase dans ensemble
(GCP + Solution éditeur).
Développer et maintenir des scripts Bash pour l'automatisation des tâches
opérationnelles, la supervision des flux, l'extraction/transformation de données et
les tâches de maintenance système.
Écrire, optimiser et exécuter des requêtes SQL complexes pour l'analyse, la
qualification, le diagnostic d'incidents, la manipulation et la restitution de données
dans BigQuery et Oracle.
Gérer les incidents en collaboration avec l'éditeur et les équipes internes.
Participer à la qualification des livraisons de patchs éditeur impactant les flux de
données.
Gérer les incidents éditeur sur son CRM et participer aux ateliers de suivi.
Monitoring, Logging et Alerting des Données :
Mettre en place et maintenir des solutions de supervision spécifiques aux flux de
données, à la qualité des données, aux performances des traitements et à
l'utilisation des ressources GCP (Stackdriver, Grafana, Looker Studio).
Définir et implémenter des alertes pertinentes pour détecter proactivement les
anomalies de données ou de pipelines.
Créer des dashboards visuels pour le suivi des KPI opérationnels et métier liés à
la donnée.
Infrastructure as Code (IaC) pour la Data :
Participer à la définition et à l'implémentation de l'infrastructure de données
(bases de données, services GCP) via des outils IaC (Terraform).
Garantir la reproductibilité et la traçabilité des environnements de données (Dev,
Recette, Pré-Prod, Prod).
Collaboration et Conseil :
Travailler en étroite collaboration avec les Data Scientists, Data Analysts, Product
Owners et les équipes métier pour comprendre les besoins en données et
proposer des solutions techniques adaptées.
Conseiller sur les meilleures pratiques d'ingénierie des données, l'utilisation des
services GCP et l'optimisation des architectures de données.
Participer aux rituels Agile/Kanban de l'équipe produit.
Profil recherché
Cloud Public (GCP) : Expertise avérée et significative sur les services data de Google
Cloud Platform (BigQuery, Dataflow, Cloud Storage, Pub/Sub, Cloud Composer/Airflow,
Stackdriver, Data Catalog).
Bases de données : Maîtrise avancée de SQL (requêtes complexes, optimisation),
expérience avec BigQuery et Oracle 19. Connaissance d'autres bases de données
(MySQL, PostgreSQL) est un plus.
Scripting et Programmation : Maîtrise de Bash (indispensable pour le run opérationnel)
Systèmes d'exploitation : Connaissances avancées de Linux (RedHat).
IaC & Configuration Management : Maîtrise de Terraform pour la gestion
d'infrastructures cloud.
CI/CD : Expertise sur au moins un outil majeur (GitLab CI) pour l'automatisation des
déploiements de code data.
Monitoring & Logging : Expérience avec Stackdriver (GCP), Grafana, ELK Stack
(Elasticsearch, Logstash, Kibana) et Looker Studio.
Gestion de Versions : Maîtrise d’outils type Git (GitLab).
Réseaux : Connaissances solides en réseau (TCP/IP, HTTP/S, DNS, Load Balancers,
Firewalls) dans un environnement cloud.
Concepts Data Engineering : Maîtrise des principes ETL/ELT, Data Warehousing, Data
Lake, streaming de données.
Environnement de travail
OS : RedHat Enterprise 9.4
Cloud : Azure pour la solution Editeur & GCP pour l'exposition de données, le monitoring
et les pipelines data.
CI/CD : GitLab CI
IaC : Terraform
Monitoring : Looker Studio, GANTI (interface graphique de Run), Grafana, ELK Stack
DBs : Oracle, BigQuery
Langages : Bash
Expérience de travail en méthodologie Agile (Scrum, Kanban).
Forte capacité d'analyse, de résolution de problèmes et de prise de décision, en
particulier face à des incidents de données.
Autonomie, proactivité et force de proposition pour l'amélioration continue des processus
et des architectures data.
Excellentes compétences en communication écrite et orale (Français et Anglais
technique) pour interagir avec des équipes techniques et métier.
Capacité à travailler en équipe, à partager les connaissances et à accompagner les
montées en compétences.
Sens aigu des responsabilités et de la gestion des incidents en environnement de
production de données.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +9 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data Engineer - Google Cloud Platform - Scripting Bash - Requêtes complexes SQL
ARKAMA CS