Job position Ingénieur Infrastructure - Support LLM Gateway
Share this job
Vous rejoindrez une équipe de 5 ingénieurs infrastructure répartis sur 2 produits IA/LLM au sein de la Division IA & Data. Vous participerez au support d'une application de gateway d'accès LLM et contribuerez à l'exploitation d'un portefeuille de 3 produits majeurs : une plateforme d'inférence LLM, un pipeline de data-science et un service de mise à disposition de modèles IA.
Vos missions principales couvriront plusieurs domaines :
Gestion du RUN : Vous assurerez la supervision des alertes, incidents et changements, coordonnerez le triage (L1 → L2 → L3) avec l'équipe offshore, rédigerez et maintiendrez les runbooks, playbooks et SOP, et suivrez le MTTR, les escalades et le reporting aux parties prenantes.
Incident Management & RCA : Vous conduirez des enquêtes post-mortem (RCA), mettrez en place des actions correctives et préventives, et gérerez le carnet d'incidents dans ServiceNow (SNOW).
Optimisation des plateformes : Vous monitorerez les métriques (latence, utilisation GPU, capacité des nœuds), proposerez des optimisations (autoscaling, right-sizing, tuning des ressources) et gérerez les patchs de sécurité et le suivi des CVE.
Automation & CI/CD : Vous automatiserez les tâches récurrentes via des scripts Python, Terraform et Ansible.
Collaboration & gouvernance : Vous serez l'interface avec les Product Owners, les équipes DataScience et les fournisseurs d'infrastructure, participerez aux cérémonies Scrum/Kanban (stand-up, grooming, retro) et veillerez à la conformité ITSM (processes, KPI, SLA).
Support aux utilisateurs : Vous gérerez les demandes d'accès, les droits RBAC et la documentation technique, et assurerez la formation ponctuelle (on-boarding) des nouveaux membres de l'équipe offshore.
L'environnement technique comprend Kubernetes (cluster(s) on-prem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault) et gestion des GPU (NVIDIA GRID). La méthodologie utilisée est Agile (Scrum/Kanban) avec tableau JIRA et suivi ITSM (ServiceNow).
Candidate profile
Vous devez justifier d'au moins 5 ans d'expérience en exploitation (Run/Production) d'environnements Kubernetes à grande échelle.
Sur le plan technique, vous maîtrisez Kubernetes, Helm et Argo CD. Vous possédez des compétences solides en scripting et développement Python, incluant le débogage et le packaging (venv, poetry, uv). Vous avez une expérience confirmée en CI/CD (GitLab, Jenkins) et en Infrastructure as Code (Terraform, Ansible). Vous êtes familier avec les outils d'observabilité (Prometheus, Grafana, Loki). Le développement Go est un plus.
Vous connaissez les méthodologies ITSM et Agile, avec une expérience de la gestion de tickets JIRA et des pratiques Scrum/Kanban.
Sur le plan des compétences soft, vous disposez d'un esprit d'analyse et d'une capacité à résoudre les incidents. Vous maîtrisez la rédaction technique (runbooks, rapports d'incident). Vous avez un sens du service client interne, de la diplomatie et une capacité à gérer les priorités conflictuelles.
Working environment
Vous rejoindrez la Division IA & Data – IT du groupe [EMPLOYER], un environnement d'innovation où l'infrastructure supporte des initiatives majeures en intelligence artificielle et data science.
Apply to this job!
Find your next career move from +10,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
Ingénieur Infrastructure - Support LLM Gateway
VISIAN
