Le poste Ingénieur Infrastructure - Support LLM Gateway
Partager cette offre
Vous rejoindrez une équipe de 5 ingénieurs infrastructure répartis sur 2 produits IA/LLM au sein de la Division IA & Data. Vous participerez au support d'une application de gateway d'accès LLM et contribuerez à l'exploitation d'un portefeuille de 3 produits majeurs : une plateforme d'inférence LLM, un pipeline de data-science et un service de mise à disposition de modèles IA.
Vos missions principales couvriront plusieurs domaines :
Gestion du RUN : Vous assurerez la supervision des alertes, incidents et changements, coordonnerez le triage (L1 → L2 → L3) avec l'équipe offshore, rédigerez et maintiendrez les runbooks, playbooks et SOP, et suivrez le MTTR, les escalades et le reporting aux parties prenantes.
Incident Management & RCA : Vous conduirez des enquêtes post-mortem (RCA), mettrez en place des actions correctives et préventives, et gérerez le carnet d'incidents dans ServiceNow (SNOW).
Optimisation des plateformes : Vous monitorerez les métriques (latence, utilisation GPU, capacité des nœuds), proposerez des optimisations (autoscaling, right-sizing, tuning des ressources) et gérerez les patchs de sécurité et le suivi des CVE.
Automation & CI/CD : Vous automatiserez les tâches récurrentes via des scripts Python, Terraform et Ansible.
Collaboration & gouvernance : Vous serez l'interface avec les Product Owners, les équipes DataScience et les fournisseurs d'infrastructure, participerez aux cérémonies Scrum/Kanban (stand-up, grooming, retro) et veillerez à la conformité ITSM (processes, KPI, SLA).
Support aux utilisateurs : Vous gérerez les demandes d'accès, les droits RBAC et la documentation technique, et assurerez la formation ponctuelle (on-boarding) des nouveaux membres de l'équipe offshore.
L'environnement technique comprend Kubernetes (cluster(s) on-prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault) et gestion des GPU (NVIDIA GRID). La méthodologie utilisée est Agile (Scrum/Kanban) avec tableau JIRA et suivi ITSM (ServiceNow).
Profil recherché
Vous devez justifier d'au moins 5 ans d'expérience en exploitation (Run/Production) d'environnements Kubernetes à grande échelle.
Sur le plan technique, vous maîtrisez Kubernetes, Helm et Argo CD. Vous possédez des compétences solides en scripting et développement Python, incluant le débogage et le packaging (venv, poetry, uv). Vous avez une expérience confirmée en CI/CD (GitLab, Jenkins) et en Infrastructure as Code (Terraform, Ansible). Vous êtes familier avec les outils d'observabilité (Prometheus, Grafana, Loki). Le développement Go est un plus.
Vous connaissez les méthodologies ITSM et Agile, avec une expérience de la gestion de tickets JIRA et des pratiques Scrum/Kanban.
Sur le plan des compétences soft, vous disposez d'un esprit d'analyse et d'une capacité à résoudre les incidents. Vous maîtrisez la rédaction technique (runbooks, rapports d'incident). Vous avez un sens du service client interne, de la diplomatie et une capacité à gérer les priorités conflictuelles.
Environnement de travail
Vous rejoindrez la Division IA & Data – IT du groupe [EMPLOYER], un environnement d'innovation où l'infrastructure supporte des initiatives majeures en intelligence artificielle et data science.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Ingénieur Infrastructure - Support LLM Gateway
VISIAN
