Le poste Ingénieur Infrastructure Cloud & IA
Partager cette offre
Administrer et maintenir le parc de serveurs sous Linux Ubuntu.
Gérer le cycle de vie du cluster Kubernetes (déploiement, mise à l'échelle, haute disponibilité).
Assurer la gestion des ressources de calcul : déploiement des pilotes NVIDIA, configuration de CUDA et mise en œuvre du MIG (Multi-Instance GPU) pour optimiser le partage des ressources.
Piloter le stockage haute performance et objet (S3, systèmes de fichiers distribués) pour répondre aux besoins de données massives.
Industrialiser le déploiement de l'infrastructure via Ansible et des scripts (Bash/Python).
Gérer les mises à jour critiques (OS, Drivers GPU, Kubernetes) avec un impact minimal sur la production.
Appliquer les meilleures pratiques ITIL/ITSM : gestion des incidents, des changements et tenue rigoureuse de la documentation opérationnelle.
Maintenir la stack de monitoring (Prometheus, Grafana) pour anticiper les pannes.
Analyse fine de l'architecture réseau (VLAN, Load Balancing) pour garantir des flux de données fluides entre les nœuds.
Optimiser l'ordonnancement des tâches : gestion des quotas, des priorités et de la planification GPU.
Intervenir en escalade sur les incidents d'infrastructure.
Réaliser des analyses post-mortem pour identifier les causes racines et éviter la récurrence des problèmes.
Profil recherché
InfrastructureLinux Ubuntu, Kubernetes, DockerHardware IAGPU NVIDIA, Drivers, CUDA, MIGAutomatisationAnsible, Bash, PythonObservabilitéPrometheus, GrafanaStockageSystèmes de fichiers distribués, Stockage ObjetRéseauVLAN, Load Balancing, routage de clusters
Environnement de travail
Compétences techniques et professionnelles requises :
Infrastructure : Linux Ubuntu, Kubernetes, Docker, GPU NVIDIA (pilotes, CUDA, MIG), Ansible, gestion d’environnements distribués. Observabilité : Prometheus, Grafana Stockage : systèmes de fichiers distribués, stockage haute performance et stockage objet Réseau : compréhension de l’architecture réseau des clusters (VLAN, équilibrage de charge, etc.) Méthodes : ITIL/ITSM, gestion des incidents et des changements, documentation des opérations
Remarques : Garantir la disponibilité, les performances et la stabilité du cluster IA (GPU/CPU/réseau/stockage), automatiser ses opérations et assurer le support. Principales responsabilités : >Exploitation et maintenance (MCO) du cluster IA (nœuds GPU/CPU, stockage, réseau) >Administration Linux (installation, configuration) >Opérations Kubernetes (déploiement, mise à l'échelle, haute disponibilité) >Supervision et surveillance (Prometheus, Grafana) >Gestion des incidents et analyse post-mortem >Automatisation (Ansible, scripts Bash/Python) >Gestion des tâches (planification GPU, quotas, priorités) >Gestion des mises à jour (système d'exploitation, pilotes NVIDIA, Kubernetes) >Assistance en cas d'incident d'infrastructure >Documentation des opérations
Postulez à cette offre !
Trouvez votre prochaine mission parmi +10 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Ingénieur Infrastructure Cloud & IA
Izyfree
