Le poste Devops / sysops périmètre IA (full remote) H/F
Partager cette offre
Le client est un acteur majeur du secteur bancaire.
Notre travail est de mettre en place des plateformes Cloud-Native de Data Science (Domino Datalab) clé-en-main pour l’ensemble des équipes Data du groupe.
À ce jour, nous avons 25 gros clients, représentant au total près de 700 Data Scientists utilisant nos plateformes.
Actuellement, nous assurons l’installation, le déploiement et le support de 2 typologies de plateformes :
Celles installées sur une ferme de GPUs Nvidia, installées sur des machines On-Premises, utilisables par toutes les équipes Data Science qui en font la demande
Celles installées sur IBM Cloud
Nous développons également des services / produits rattachés à ces plateformes :
→ Up & Running :
Le Model Hub : Catalogue de modèles LLM utilisables dans la banque.
L’AI Competency Center : Nous sommes délégués chez des clients du groupe pour sortir de terre des projets IA
→ En cours (et où votre accompagnement sera très bénéfique !) :
Plateforme d’inférence dédiée
Notre équipe est passée de 4 à 12 personnes en 2ans et nous passons à 16 cette année. Elle est séparée en 3 « mini-équipes » :
Front : Assurent le développement des solutions à offrir as-as-service et l’accompagnement des utilisateurs.
Automation : Assurent les déploiements, le devsecops
Back : Assurent l’administration des systèmes
Une équipe de DevOps pour les outils de plateformes (Vault, SSO etc...)
Une équipe de SRE pour les plateformes d’infra
Une équipe qui supporte le Datalake (Trino, Spark, et Minio)
Notre environnement technique
Plateforme de Data Science (Domino Datalab)
Cloud native / Kubernetes Centric (Stateful workloads, stockage multi-AZ, GPUs, etc.)
Stack Domino DataLab cloud-native dans K8s:
Platform: ElasticSearch, MongoDB, RabbitMQ, Redis, PostgreSQL, etc...
Environnements de Dev interactifs: (code server, Jupyterlab, Jupyter, etc.)
GPUs Nvidia (A100, V100, DGX, Infiniband, etc.)
Clusters de compute distribues: (Spark, ray, dask, mpi, etc.)
Outils de monitoring AIOps (Prometheus, Grafana, Elastic Stack)
Infrastructure: Cloud IBM (possibilité d'ouverture multi-cloud) + Bare Metal Cloud (on premise)
+ récemment : nous commençons à travailler avec Red Hat OpenShift AI pour le côté IA
Profil recherché
Votre rôle :
Piloter l'exploitation et l'optimisation d'un cluster Kubernetes bare metal complet, conçu pour les charges de travail exigeantes en IA/ML. Les responsabilités englobent un large éventail d'expertises techniques, notamment :
Gestion et maintenance du système d'exploitation (RHEL)
Installation, mise à niveau, gestion et maintenance du cluster Kubernetes Infrastructure GPU NVidia, V100, A100, H100, du pilote aux graphiques d'opérateur GPU
Exploitation réseau, notamment Infiniband Fabric pour exploiter la puissance GPU
Surveillance détaillée afin d'optimiser l'utilisation des ressources et de garantir les performances et l'évolutivité
Environnement de travail
Notre environnement technique
Plateforme de Data Science (Domino Datalab)
Cloud native / Kubernetes Centric (Stateful workloads, stockage multi-AZ, GPUs, etc.)
Stack Domino DataLab cloud-native dans K8s:
Platform: ElasticSearch, MongoDB, RabbitMQ, Redis, PostgreSQL, etc...
Environnements de Dev interactifs: (code server, Jupyterlab, Jupyter, etc.)
GPUs Nvidia (A100, V100, DGX, Infiniband, etc.)
Clusters de compute distribues: (Spark, ray, dask, mpi, etc.)
Outils de monitoring AIOps (Prometheus, Grafana, Elastic Stack)
Infrastructure: Cloud IBM (possibilité d'ouverture multi-cloud) + Bare Metal Cloud (on premise)
+ récemment : nous commençons à travailler avec Red Hat OpenShift AI pour le côté IA
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Devops / sysops périmètre IA (full remote) H/F
LeHibou
