Jobs and contract opportunities Site Reliability Engineering (SRE)

Jobs

Forum

Forum index

Favourite topics

Topics I'm involved in

Job Vacancy
Architecte Cloud / SRE

Genwaves Group

Published on 28/06/2026

Cloud

Site Reliability Engineering (SRE)

24 months

60k-65k €

325-650 €

Paris, France

Votre mission: Concevoir, structurer et faire évoluer une plateforme Cloud pensée comme un produit ("Platform as a Product"), fondée sur des composants réutilisables, robustes et sécurisés. Vous garantissez un socle technique industrialisé, automatisé et accessible en self-service pour les équipes de développement. Vous intervenez au sein d'un environnement IBM Cloud et Red Hat OpenShift, en collaboration étroite avec les équipes SRE, produit et sécurité. Vos responsabilités principales Architecture de la plateforme : Concevoir une plateforme modulaire (building blocks : CI/CD, compute, réseau, sécurité…) Définir des patterns d'architecture standardisés et cohérents Assurer la scalabilité, la résilience et la sécurité des services Structurer la plateforme comme une offre de services modulaires, versionnées et gouvernées Piloter la roadmap technique et gérer la dette technique Promouvoir une expérience self-service simple et rapide pour les développeurs Garantir la reproductibilité via Infrastructure as Code (Terraform, Helm, Ansible…) Intégrer les exigences de résilience (DRP, multi-zone), performance, sécurité et observabilité Opérations & fiabilité : Assurer une transition fluide entre design, build et run Participer à l'amélioration continue et à la gestion des incidents critiques Automatisation & Orchestration : Maîtriser les outils d'IaC : Terraform, Helm, Ansible Déployer des solutions industrialisées pour les équipes SRE Documentation as Code : Produire une documentation technique automatisée, versionnée et intégrée aux pipelines CI Utiliser Markdown ou Asciidoc Documenter : architectures, blocks, patterns, runbooks et bonnes pratiques Collaboration & Leadership : Travailler en lien avec les équipes SRE, devs, sécurité et métier Vulgariser les concepts techniques et jouer un rôle de référent Mentorer les équipes sur la culture DevOps et la fiabilité

Permanent

Contractor

Job Vacancy
DEVOPS/ SRE

Genwaves Group

Published on 24/06/2026

DevOps

Site Reliability Engineering (SRE)

24 months

65k-70k €

350-700 €

Paris, France

Intégré à l'équipe SRE, vous pilotez la fiabilité, la performance et l'automatisation des plateformes cloud – avec un fort focus sur OpenShift en environnement critique. Missions principales Supervision et fiabilisation des clusters OpenShift Gestion des CI/CD (GitLab), Terraform, Helm, Argo CD Mise en œuvre de GitOps, monitoring Prometheus/Grafana Résolution des incidents, optimisation performance, résilience Collaboration transverse avec les équipes dev, infra, sécu 5+ ans d'expérience DevOps ou SRE Expertise OpenShift en production (must-have) Solides bases Kubernetes, Cloud, API, microservices Bonne maîtrise : GitLab CI/CD, Prometheus, Terraform, Helm Bonus : scripting (Python, Bash), sécurité Cloud, large scale clusters

Contractor

Permanent

Job Vacancy
Site Reliability Engineer (SRE) (H/F)

METSYS

Published on 02/07/2026

Azure

IAC

1 year

40k-51k €

500-580 €

Lyon, Auvergne-Rhône-Alpes

Intégré au sein d'une équipe à taille humaine et une entreprise en plein développement où tu peux rapidement évoluer, le poste est certainement fait pour toi, je t'invite à y jeter un coup d'oeil ! Pour l'un de nos clients lyonnais, nous recherchons un Consultant SRE H/F . Tu interviendras sur les missions suivantes : Industrialisation RUN Formaliser dossiers d'exploitation complets Standardiser runbooks Définir modèles reproductibles Définir les standards d'exploitatibilité Formaliser une definition of done pour l'exploitabilité Fiabilisation SLO / SLI / error budget Analyse incidents récurrents Plans de remédiation Définition des plans de sauvegarde de la solution en collaboration avec les équipes patrimoine Définition et organisation des test des plans de résilience de la solution Intégration dans l'écosystème des opérations existant Piloter dans la durée l'amélioration continue des applications critiques Animation des RCA avec les équipes concernées Prioriser les actions de fiabilisation en fonction de l'impact métier et opérationnel Observabilité Définir ce qui doit être supervisé Rendre les systèmes « visibles » Mise en place d'indicateurs orientés service (SLO) Relation MSP Rendre les applications opérables par le MSP S'assurer de la qualité du transfert Définir les critères d'acceptation du RUN MSP Mesurer la capacité réelle du MSP à opérer les applications Définir et valider les critères de transfert Accompagner les phases de transition

Contractor

Contractor job
Expert SRE Legacy / Bilingue Anglais H/F

Cheops Technology

Published on 16/06/2026

Site Reliability Engineering (SRE)

12 months

400-550 €

La Défense, Ile-de-France

Dans le cadre de la fiabilisation de son patrimoine applicatif critique, le client renforce sa squad SRE. Un premier profil SRE orienté Cloud a déjà intégré l'équipe ; le besoin prioritaire porte désormais sur une ressource SRE expérimentée sur les technologies legacy / on-premise, afin de couvrir l'exploitation des environnements historiques qui constituent le cœur du système d'information. L'objectif est d'éviter la redondance de compétences Cloud et de sécuriser une expertise rare sur les socles techniques existants, jugés aujourd'hui les plus critiques. Le profil recherché doit faire le pont entre les pratiques SRE modernes (observabilité, automatisation, post-mortem) et la réalité opérationnelle d'environnements legacy à forte volumétrie et forte criticité. Description Livrables Compétences Le SRE Legacy assure l'exploitation, la fiabilité et la résolution d'incidents sur les environnements on-premise du client. Ses principales responsabilités sont : Garantir la disponibilité et la performance des applications critiques s'appuyant sur les socles DB2, WebSphere, Apache et AIX. Assurer la résolution d'incidents complexes : diagnostic, analyse des causes racines (RCA), remédiation et capitalisation via post-mortems « blameless ». Mettre en place et améliorer l'observabilité des environnements historiques (monitoring, alerting, supervision applicative et système). Automatiser les tâches d'exploitation récurrentes et fiabiliser les opérations de run (scripts, ordonnancement, procédures). Contribuer à la stabilisation des chaînes critiques et à la réduction des incidents récurrents (MTTR, volumétrie d'incidents). Travailler en mode transverse avec les équipes de développement, l'infrastructure et les autres SRE (Cloud) dans une logique « You build it, you run it ». Documenter les architectures, runbooks et procédures d'exploitation.

Contractor

Permanent

Job Vacancy
Site Reliability Engineer (SRE) Golang Rust Linux

Digistrat consulting

Published on 01/07/2026

Go (language)

Linux

Rust

3 years

40k-60k €

400-600 €

Paris, France

🏭 Secteurs stratégiques : Banque d’investissement 🗓 Démarrage : ASAP PAS DE FULL REMOTE NI SOUS TRAITANCE MERCI 💡 Contexte /Objectifs : Mise en place des métriques pour assurer la fiabilité de l'écosystème Lire le code, le comprendre Suggérer les patchs pour les développeurs, pas d'un point de vue fonctionnel mais stabilité Suggérer des améliorations et les mettre en œuvre La personne déchargera entre autre les tâches d'administration et de production que le manager assume aujourd'hui Pas de connaissance obligée en finance (souhaitable qu'il n'en ait pas) Pas d'exigence sur l'environnement de départ

Contractor

Contractor job
Devops SRE (H/F) - 92

Mindquest

Published on 01/07/2026

Ansible

DevOps

Kubernetes

2 years

520-620 €

Châtillon, Ile-de-France

1. Contexte Au sein de la Direction Digital, vous rejoignez la DSI Alimentaire et plus particulièrement l’équipe OPS du Digital Conso Lab, en charge de la plateforme e-commerce du client. La plateforme évolue dans un environnement hybride (On Premise + Cloud) et s’appuie sur un écosystème riche de solutions internes et partenaires. L’objectif global du projet est d’améliorer la plateforme e-commerce en garantissant sa cohérence technique, sa fiabilité opérationnelle et sa disponibilité 24/7. Vous évoluerez dans une équipe OPS expérimentée, en interaction constante avec les équipes DEV, QA et Release Management, dans un contexte de modernisation continue et d’industrialisation des pratiques DevOps/SRE. 2. Mission En tant que DevOps / SRE Senior, vous êtes responsable du maintien en conditions opérationnelles et de l’évolution de la plateforme e-commerce. Vos principales missions sont : Assurer le MCO des infrastructures virtualisées (diagnostic, résolution d’incidents, fiabilité) Configurer, dimensionner et optimiser les plateformes selon les besoins de performance Industrialiser les architectures et automatiser la gestion des infrastructures (CI/CD, IaC) Mettre en place et maintenir les solutions de supervision, monitoring et logging Participer à la modernisation de la plateforme e-commerce et à son amélioration continue Garantir la sécurité, la sauvegarde et la robustesse des environnements Contribuer aux phases de mise en production et de validation technique des évolutions Maintenir et enrichir la documentation technique Participer aux astreintes techniques (plateforme 24/7)

Contractor

Contractor job
Reliability incident manager H/F

LeHibou

Published on 23/06/2026

Incident Management

Site Reliability Engineering (SRE)

1 year

400-650 €

Paris, France

Notre client dans le secteur Banque et finance recherche un Reliability Manager - incident manager H/F Descriptif de la mission: Appel d’offres – Chef de projet MOE (Reliability Manager) - Expérimenté à Sénior Contexte et objectif de la mission Dans le cadre du développement de ses systèmes de gestion, une entité technologique spécialisée dans les solutions pour l’épargne et la gestion d’actifs souhaite recourir à une prestation externe pour assister la gestion des incidents et des problèmes, afin de réduire les temps d’interruption de service et d’améliorer la fiabilité de la plateforme. La mission s’inscrit au sein de l’équipe Reliability Management (RMA), composée de 5 collaborateurs, qui coordonne la résolution des situations graves ou critiques afin de rétablir le service IT à un niveau de criticité acceptable dans les meilleurs délais. Périmètre et organisation L’équipe intervient sur 3 piliers : • Prévention : exercices de tests IPSI / ILSI (tests de résilience / tests de restauration), surveillance, checks et validation des opérations sur la production des changements d’infrastructure et des releases applicatives • Action de résolution : gestion de crise sur les incidents graves ou critiques avec coordination des équipes et reportings • Plans de fiabilisation : réalisation de post-mortems à la suite des incidents et suivi des plans de fiabilisation jusqu’à leur clôture Missions principales Le prestataire aura pour responsabilités : • Déclencher et animer les réunions de gestion d’incident en français ou en anglais • Rédiger et publier des communications d’incident claires et synthétiques en temps réel • Rédiger les post-mortems sur les incidents majeurs • Rédiger les comptes rendus de réunions • Contribuer à l’avancement des plans de fiabilisation issus des post-mortems • Contribuer à la production de tableaux de bord, reportings et statistiques • Représenter l’équipe RMA dans les réunions de suivi des revues d’incidents et des plans de fiabilisation • Participer ou apporter un support à la préparation des tests IPSI / ILSI • Participer ou animer les Change & Release Advisory Board • Participer à la coordination de certaines opérations en production (tests IPSI / ILSI, tests après opérations majeures, etc.) • Contribuer à l’amélioration continue du fonctionnement de l’équipe Environnement technique • PC • ITSM Atlassian : Jira, Confluence • Office • Teams • Contexte international francophone et anglophone

Contractor

Contractor job
Site Reliability Engineer (SRE) Azure (H/F) - Freelance

GROUPE ARTEMYS

Published on 30/06/2026

Azure

Monitoring

Site Reliability Engineering (SRE)

12 months

480-500 €

69005, Lyon, Auvergne-Rhône-Alpes

Qui sommes-nous ? Artemys, acteur de la transformation numérique est une entreprise à taille humaine, avec plus de 30 ans d’expérience composée de plusieurs entités, chacune spécialisée dans leur domaine (Système, data, réseaux/sécu…) Ce qui nous distingue vraiment ? Ce n’est pas de dire que nous valorisons nos collaborateurs, c’est de le montrer chaque jour. Chez Artemys, l’humain est au cœur de tout ce que nous faisons. Nos valeurs, concrètes et vécues au quotidien : Convivialité : travailler dans une bonne ambiance, ça change tout Proximité : chaque membre de l’équipe a sa place et sa voix Écoute : vos idées comptent autant que votre travail Artemys Paris , située dans le 10ᵉ arrondissement, est une entité spécialisée en infrastructures systèmes. Forte de 36 ans d’expertise , elle accompagne les entreprises, principalement implantées en Ile-de-France , dans leur transformation digitale. C’est au sein de cette entité, la plus ancienne du groupe, que l’aventure a débuté. Au fil des années, Artemys a su fidéliser une clientèle exigeante de Grands Comptes, certains clients accompagnant l’entreprise depuis sa création, dans des secteurs variés. Reconnue pour son exigence technique et ses valeurs humaines, elle est aujourd’hui un acteur clé des Infrastructures, Cloud et Modern Workplace. Votre mission (si vous l’acceptez) : Dans le cadre d'un programme d'industrialisation du RUN, vous interviendrez sur des applications critiques afin de les rendre plus fiables, observables et transférables vers un infogérant (MSP). Au quotidien, vous serez amené à : Reprendre des applications critiques en production. Analyser les incidents récurrents et piloter les RCA. Définir et améliorer les SLI, SLO et Error Budgets. Concevoir et standardiser les runbooks et dossiers d'exploitation. Définir les standards d'exploitabilité des applications. Mettre en place les plans de remédiation et d'amélioration continue. Développer l'observabilité des services et définir les indicateurs de supervision. Préparer et accompagner le transfert des applications vers le MSP. Collaborer avec les équipes Infrastructure, Patrimoine Applicatif, Architecture et Service Delivery. Participer activement à l'industrialisation des opérations et à la fiabilisation du SI. Le terrain de jeu ? Cloud & Infrastructure Azure Terraform (IaC) RUN & Production SRE Exploitation d'applications critiques RCA & gestion des incidents Observabilité Monitoring SLI / SLO / Error Budget Industrialisation Runbooks Standardisation du RUN Documentation d'exploitation Environnement MSP / Infogérance Amélioration continue Le profil que nous recherchons : Vous justifiez d'au moins 7 années d'expérience en exploitation, production ou Site Reliability Engineering. Vous possédez une solide expérience des environnements Azure. Vous êtes expert sur les problématiques de RUN, de production et de gestion d'incidents. Vous maîtrisez les démarches d'observabilité et de fiabilisation des applications. Vous savez rédiger des runbooks et structurer des processus d'exploitation. Vous avez déjà évolué dans des environnements complexes à fort enjeu métier. Une expérience avec un MSP ou un infogérant constitue un véritable atout. Vous disposez d'un anglais professionnel . Vous faites preuve d'un excellent esprit d'analyse, d'autonomie, de rigueur et appréciez les environnements nécessitant une forte collaboration transverse Le process pour nous rejoindre : simple et clair ! Échange RH : On discute de vos motivations et de l’adéquation avec nos valeurs (promis, pas de robotisation ici). Échange opérationnel : Je propose votre candidature au référent (Commercial, SDM, coordinateur…) du compte client, qui échange ensuite avec vous afin de valider votre adéquation avec le besoin. Proposition de mission : Si tout colle, on propose votre CV à notre client ! Conditions de rémunération : Statut : Indépendant / Freelance TJM : Entre 480 € et 500 € (Selon votre expertise) Localisation : Lyon Démarrage : Dès que possible (au plus tard le 1er septembre 2026) Bienvenue dans l’aventure ARTEMYS Chez nous, chaque talent compte. Peu importe votre âge, vos origines, votre identité, votre religion ou votre orientation : ce qui nous intéresse, c’est vous et ce que vous avez à apporter. On s’engage à répondre à toutes les candidatures sous 72 heures, parce qu’on sait combien l’attente peut être stressante. Et ici, l’inclusion n’est pas qu’un mot : tous nos postes sont ouverts aux personnes en situation de handicap, et on fait tout pour créer un environnement où chacun peut s’épanouir. Prêt, feu, candidatez !

Contractor

Contractor job
Manager de Transition – CPTO / CTO - Editeur de logiciel - Full remote

KatchMe Consulting

Published on 01/07/2026

PHP

Quality Assurance (QA)

React

6 months

France

Société Éditeur SaaS en forte croissance spécialisé dans la digitalisation des processus des entreprises. La société accompagne plusieurs milliers de professionnels. Organisation d'une centaine de collaborateurs, entièrement en remote, avec une équipe Tech d'environ 35 personnes. Mission & responsabilités Dans un contexte d'accélération et de structuration de l'organisation produit & engineering, vous intervenez en tant que CPTO / CTO de transition afin de redonner de la vitesse aux équipes et d'accompagner l'entreprise dans sa croissance. Vos principales responsabilités seront notamment de : Piloter l'organisation Product & Engineering en collaboration directe avec les fondateurs. Manager une équipe d'environ 35 collaborateurs au travers de 5 Team Leads, d'un Lead QA et d'un SRE. Exécuter la roadmap produit et technique tout en améliorant la capacité de livraison des équipes. Remettre en place des indicateurs de pilotage (KPIs, vélocité, delivery, ROI). Accompagner les managers dans leur montée en compétence et renforcer les pratiques de management à distance. Participer au recrutement des profils clés de l'équipe Tech. Structurer les processus d'exécution et de collaboration entre Product, Engineering et Business. Préparer la transition avec le futur CPTO qui sera recruté à l'issue de la mission.

Contractor

Contractor job
Responsable de Production SysOps

TEOLIA CONSULTING

Published on 17/06/2026

AWS Cloud

Site Reliability Engineering (SRE)

36 months

650-670 €

La Défense, Ile-de-France

Je cherche pour l'un de nos clients un reponsable de Production SysopS pour l'un de mes clients basé à la Défense: Missions: Animer et accompagner l'équipe SysOps (daily, 1:1, montée en compétence) Prioriser et organiser les activités de RUN et de BUILD Recueillir les besoins techniques des équipes produit en matière d'infrastructure et d'exploitation et préparer les cycles trimestriels Garantir la disponibilité et la qualité des services fournis aux métiers (SLO/SLA) Superviser incidents, alertes, météo applicative et batchs Communiquer avec les parties prenantes en cas d'incident majeur Standardiser les pipelines CI/CD sous GitLab et assurer la MCO de l'ensemble des outils et composants de la plateforme Accompagner les évolutions majeures : migrations cloud AWS, Kubernetes Renforcer l'observabilité : logs (OpenSearch), métriques (Prometheus, CloudWatch), dashboards (Grafana) Définir et maintenir les bonnes pratiques de déploiement, de sécurité et de monitoring Environnement Technique: • Cloud & Infra : AWS, Kubernetes (EKS), Linux RHEL • Automatisation : GitLab CI, Docker, Terraform, Helm, Ansible • Monitoring & Logs : Prometheus, CloudWatch, Grafana, Checkly, OpenSearch • Applicatif : Java/JS/Springboot, Tomcat/NGINX, Dollar Universe, PostgreSQL, Oracle, SolR, Elasticsearch • Expertise confirmée en exploitation, SRE ou DevOps ; maîtrise des environnements cloud, CI/CD, conteneurisation et observabilité ; expérience en industrialisation, automatisation et gestion d'infrastructures complexes. • Leadership et sens des responsabilités ; • Excellente communication et capacité à prioriser ; • Proactivité, rigueur et goût pour l'amélioration continue ; • Le management d'équipe

Permanent

Contractor

Job Vacancy
Site Reliability Engineering (SRE)

WHIZE

Published on 08/06/2026

DevOps

Dynatrace

Incident Management

12 months

40k-58k €

550-700 €

Ile-de-France, France

Le bénéficiaire souhaite une prestation de Site Reliability Engineering (SRE) afin de participer à la sécurisation des activités RUN sur le périmètre Finance et Actuariat. Les missions sont : Au sein d'un équipage applicatif en charge des domaines Finance et Actuariat, le SRE est un acteur clef dans le maintient en condition opérationnelle et la stabilité des environnements techniques (Production/ hors Production). Les principales missions seront les suivantes : - Maintien du coverage avec la DSI sur un périmètre applicatif RUN. - Mise en place des indicateurs / SLA, SLO avec la DSI. - Mise en place, suivi et analyse des métriques de performance et disponibilité de la Production (via Dynatrace). - Etre le référent Dynatrace pour l'équipage APS. - Définition et mise en place via Ansible et scripting les actions d'automatisation sur le périmètre (arrêts relances, déploiement automatisé, sanity check,...) - Participation aux rituels de l’équipe. - Consultation lors de l’instruction des projets sur l'exploitabilité des solutions. - Émission des avis de production pour les comités d’architecture. - Veille pour le respect des bonnes pratiques Groupes dans le cadre des déploiements et livraisons. - Contribution au maintien en conditions opérationnelles des applications. - Accompagnement et conseil auprès de la DSI , participation à leurs cérémonies. - Participation à la vie de l'application en étant force de proposition dans la résolution d'incidents ou de problèmes.

Contractor

Contractor job
DevOps / SRE Senior Freelance

SURICATE IT

Published on 25/06/2026

DevOps

Kubernetes

Monitoring

3 years

500-650 €

Châtillon, Ile-de-France

Mission DevOps / SRE Senior Freelance 📅 Démarrage : ASAP 📍 Lieu : Hauts-de-Seine (92) 🎯 Expérience : 10 ans minimum 🏠 Télétravail : 2 jours/ semaine (NON NEGOCIABLE) 🏦 Secteur : Grande distribution 💶 TJM : 650€ 🏢 Contexte de la mission Au sein de la Direction Digital d'un grand groupe de grande distribution, vous rejoindrez la DSI au sein de l'équipe OPS en charge de la plateforme e-commerce. Vous travaillerez en étroite collaboration avec les équipes OPS, DEV, QA et Release Management sur une plateforme hébergée en mode hybride (On Premise + Cloud), à haute disponibilité (24/7). ⚙️ Environnement technique Infrastructure : VMware vSphere, Windows, Linux Conteneurs : Docker, Kubernetes CI/CD : Azure DevOps IaC : Terraform, Terragrunt, Ansible Monitoring : OpenTelemetry, VictoriaMetrics, Grafana, Dynatrace Réseau : NLB F5, DNS, DHCP Web : Microsoft IIS, Nginx Messaging : RabbitMQ Sécurité : Vault, Active Directory Bases de données : PostgreSQL, Redis, SQL Server Qualité : SonarQube 🛠️ Missions principales Maintenir en condition opérationnelle les infrastructures virtualisées Configurer et dimensionner les plateformes selon les besoins de performance Industrialiser les architectures cibles et automatiser la configuration (CI/CD) Implémenter et administrer les outils de supervision (haute disponibilité) Participer à la modernisation et l'amélioration continue de la plateforme e-commerce Assurer la sauvegarde des données, la sécurité des accès et la fiabilité des solutions Contribuer aux phases de validation technique lors des mises en production Maintenir et enrichir la documentation technique

Permanent

Job Vacancy
Ingénieur SRE / Platform Engineer (H/F)

Link Consulting

Published on 16/06/2026

Docker

Kubernetes

Site Reliability Engineering (SRE)

45k-50k €

Toulouse, Occitania

Notre client, acteur reconnu dans le secteur bancaire, recherche son futur Ingénieur SRE / Platform Engineer (H/F) pour son site de Toulouse, dans le cadre du renforcement de sa plateforme technique et de ses pratiques d’industrialisation. Poste Intégré à une équipe transverse dédiée à la plateforme et à l’intégration, vous intervenez principalement sur des sujets Build avec pour objectif de structurer un environnement technique fiable, automatisé et orienté self-service. Votre rôle est de faciliter le travail des équipes de développement en mettant à disposition des outils et standards robustes, dans une logique de Platform Engineering, avec une forte culture Infrastructure as Code. Vous évoluerez dans un environnement hybride combinant GCP et Kubernetes On-Premise. Missions * Concevoir et maintenir des infrastructures automatisées (Terraform, Helm) * Développer des outils et templates en self-service pour les équipes applicatives * Construire et optimiser les pipelines CI/CD * Mettre en place des solutions d’observabilité (monitoring, alerting, logs) * Assurer un support avancé sur les incidents applicatifs critiques (N3) * Intégrer les exigences de sécurité dans les processus CI/CD * Collaborer étroitement avec les équipes de développement pour faciliter les déploiements * Participer à la structuration et à l’évolution de la plateforme technique Compétences techniques * Cloud : GCP (environnement principal) * Conteneurisation : Kubernetes, Docker * Infrastructure as Code : Terraform * CI/CD : GitLab CI, GitHub Actions ou Jenkins * Observabilité : Datadog, Prometheus * Environnements distribués : microservices, APIs Une expérience en développement (Node.js, Go ou Python) sera un réel atout.

Contractor

Permanent

Job Vacancy
SRE - Domain Manager

CAT-AMANIA

Published on 29/05/2026

Site Reliability Engineering (SRE)

6 months

40k-80k €

400-650 €

Paris, France

Responsable de Domaine (Domain Manager) Responsable de : Garantir la fiabilité des services, l’excellence opérationnelle et la conformité des performances sur l’ensemble des environnements, en intégrant les pratiques SRE (Site Reliability Engineering) au sein de l’Agile Release Train et du cycle de livraison produit. Conditions de télétravail Aucun télétravail pendant les 3 premiers mois de la mission Présence sur site requise 3 jours par semaine par la suite Mission Garantir la stabilité, la performance et la disponibilité des services dans les environnements de production et hors production, tout en favorisant une culture orientée fiabilité au sein des équipes de delivery. Pour assurer cette mission, ce rôle agit comme garant des évolutions produit avant leur mise en production, en veillant à ce que la qualité soit toujours conforme aux attentes des clients. Collaborer avec les équipes Produit, Tech et Plateforme afin de maintenir le bon équilibre entre innovation, rapidité d’exécution et robustesse opérationnelle. Principales activités Définir, suivre et communiquer les objectifs de niveau de service (SLO), les indicateurs de niveau de service (SLI) et les budgets d’erreur sur les différents environnements afin d’assurer une fiabilité mesurable par domaine applicatif. Garantir la mise en place et l’amélioration continue des dispositifs d’observabilité, de supervision et d’alerting. Superviser la préparation opérationnelle de chaque release afin d’assurer la stabilité en production grâce à une coordination transverse avec les équipes Produit et Tech. Possibilité de bloquer une mise en production lorsque la qualité mesurée ne correspond pas aux attentes des clients. Gérer la réponse aux incidents, les analyses des causes racines et les revues post-mortem afin d’assurer la responsabilité et l’amélioration continue par domaine applicatif. Collaborer avec les équipes Core Platform et Observability & FinOps afin de renforcer la résilience des systèmes, optimiser les coûts et maintenir les performances de la plateforme. Communiquer l’état de la fiabilité, les risques et les actions d’amélioration aux Agile Release Managers et aux responsables de domaine afin d’assurer l’alignement entre les ARTs (Agile Release Trains). Participer activement à l’Agile Release Train en représentant la voix de la fiabilité et des opérations, afin de soutenir le rythme de livraison et la qualité. Compétences Techniques Solide expertise en Site Reliability Engineering (SRE) dans des environnements SaaS ou cloud-native. Excellente compréhension de l’observabilité des systèmes, de l’automatisation et des frameworks de monitoring. Expérience dans la définition et la gestion des SLO, SLI et budgets d’erreur en collaboration avec les équipes d’ingénierie. Maîtrise des pratiques DevSecOps, des pipelines CI/CD et du monitoring continu. Fonctionnelles Expérience significative en gestion des incidents, analyses post-mortem et préparation opérationnelle. Capacité démontrée à coordonner des initiatives de fiabilité entre les équipes Produit, Tech et Plateforme. Forte orientation sur les indicateurs de performance, la prévention des causes racines et la gouvernance opérationnelle. Soft Skills Esprit analytique et approche orientée données pour le suivi de la fiabilité.

Contractor

Contractor job
Site Reliability Engineer (SRE) – Data Exchanges

HAYS France

Published on 08/06/2026

Ansible

Google Cloud Platform (GCP)

Monitoring

3 years

100-400 €

Lille, Hauts-de-France

Missions principalesSupport & Run Analyser et résoudre des incidents complexes Traiter les demandes de services et tickets (ServiceNow) Identifier et suivre les incidents récurrents Assurer un rôle de point d’entrée utilisateur Collaboration & amélioration continue Travailler avec les équipes produit pour : diagnostiquer les incidents définir des plans de remédiation prévenir les récurrences Contribuer à l' amélioration continue des plateformes Automatisation & optimisation Automatiser les demandes récurrentes Développer des scripts et outils internes Participer aux pratiques SRE / Perf4Ops Documentation & capitalisation Rédiger des procédures et documentations Capitaliser les solutions mises en place Partager les bonnes pratiques 📦 Livrables attendus Suivi des demandes via ServiceNow Documentation technique & procédures Scripts / automatisations des tâches récurrentes Contribution aux plans d’amélioration 🧠 Compétences techniques✅ Impératif – Confirmé Échanges : API, Kafka, ESB Observabilité & Monitoring : Datadog, Prometheus, Grafana PagerDuty (alerting) ✅ Important – Confirmé Cloud & développement : GCP Python, Go Automatisation & IaC : Terraform, Ansible Kubernetes (K8s), Helm 🌐 Langues Anglais professionnel : impératif

Contractor

Contractor job
Expert SI Cloud AWS (H/F)

Insitoo Freelances

Published on 25/06/2026

AWS Cloud

Change management

DevOps

2 years

500-600 €

Bordeaux, Nouvelle-Aquitaine

Nous recherchons un Expert afin d’accompagner les équipes produits sur les enjeux de delivery, d’exploitation, de qualité logicielle et d’industrialisation des pratiques DevSecOps. La mission s’inscrit dans un environnement agile, cloud-native et fortement orienté excellence opérationnelle. Localisation Mérignac Démarrage estimé : septembre 2026 2 jours de présentiel par semaine Descriptif de la mission : Missions Vous interviendrez notamment sur : Accompagnement des équipes produits sur les pratiques de delivery Mise en place et amélioration des standards de développement Animation d’ateliers techniques et méthodologiques Suivi des métriques DORA et amélioration continue Industrialisation des pratiques CI/CD Contribution à la capitalisation des bonnes pratiques Run / Excellence opérationnelle Mise en place des bonnes pratiques d’exploitation Observabilité, monitoring et alerting Diagnostics et audits techniques Accompagnement SRE / DevSecOps Gestion de la qualité de service et amélioration du RUN Qualité logicielle Clean Code, DDD, TDD Stratégies de tests (JUnit, Cypress, Playwright) Réduction de la dette technique Revue de code et sécurisation des développements Environnement technique Cloud & DevOps AWS Terraform GitLab / GitLab CI Docker Jenkins CloudWatch Grafana Backend Java / Spring Boot NodeJS / TypeScript Python Frontend Angular TypeScript Outils Jira Confluence Sonar VS Code

1 / 3

Submit your CV

Manage your visibility

Salary, remote work... Define all the criteria that are important to you.
Get discovered

Recruiters come directly to look for their future hires in our CV library.
Join a community

Connect with like-minded tech and IT professionals on a daily basis through our forum.

Latest forum topics

See all latest posts

Jobs by country

England Scotland Wales Northern Ireland Ireland

41 results

Contracts

Contractor

Permanent

Location

Remote type

Hybrid

Remote

On-site

Rate minimum.

£150 £1300 and more

Salary minimum

£20k £250k

Experience

0-2 years experience

3 to 5 years experience

6 to 10 years experience

+10 years experience

Date posted

Less than 24 hours

Less than 7 days

Less than 14 days

Less than 30 days

Find your next tech and IT Job or contract Site Reliability Engineering (SRE)

Submit your CV

Latest forum topics

Contracts

Location

Remote type

Rate minimum.

Salary minimum

Experience

Date posted