
SRE Openstack
- Montréal, QC
- Permanent
- Temps-plein
- Vous rejoindrez l'équipe Public Cloud SRE, spécialisée en OpenStack, pour assurer la fiabilité et la performance de notre infrastructure cloud.
- Vous maintiendrez une haute disponibilité des services et contribuerez à l'amélioration continue de notre environnement de production.
- Assurer la stabilité et la résilience de nos services basés sur OpenStack en appliquant les meilleures pratiques SRE.
- Mettre en place et améliorer les systèmes de surveillance, de journalisation et d'alerte pour détecter et résoudre rapidement les problèmes de production.
- Mener la gestion des incidents et les revues post-incidents pour éviter les récidives.
- Analyser les tendances du système pour optimiser les performances et garantir l'évolutivité de l'infrastructure.
- Identifier les opportunités d'automatisation des processus et de renforcement des systèmes.
- Maintenir une documentation détaillée de l'architecture et des procédures.
- Vous aurez une compréhension approfondie de notre environnement OpenStack et de nos flux de travail.
- Vous contribuerez à la définition et à l'affinement des métriques de fiabilité (SLI, SLO, budgets d'erreur).
- Vous prendrez en charge la gestion des incidents et participerez aux analyses de causes profondes.
- Vous jouerez un rôle déterminant dans la définition de la feuille de route de la fiabilité à long terme.
- Vous dirigerez des projets majeurs d'optimisation pour atteindre ou dépasser les objectifs de performance et de disponibilité.
- Vous maitrisez l'architecture OpenStack et ses composants (Neutron, Nova, Glance, Cinder, Keystone...).
- Vous êtes à l'aise avec la gestion d'infrastructures complexes et les méthodologies SRE.
- Vous avez de solides compétences en matière de monitoring, d'automatisation et d'optimisation des performances.
- Vous avez un excellent niveau d'anglais.
- Une expérience en gestion d'infrastructures IT.
- Un esprit collaboratif et de bonnes compétences en communication.
Intéressement
Plan d’Épargne de Groupe (PEG)
Plan d’Épargne pour la Retraite Collectif (PERCO)Carte Ticket Restaurant
RTT
Mutuelle et prévoyance d’entreprise*
Service d’accompagnement aux Risques-Psycho-Sociaux via une plateforme dédiée*
Subventions sport & vacances
- pour tous les membres d’un même foyer
Soyez libre d’être vous-même !LE DÉVELOPPEMENT DURABLE CHEZ OVHCLOUD, UN ENGAGEMENT PROFONDLa data a un impact fort dans tous les aspects de notre vie. Elle change aussi notre manière de concevoir le monde et son usage reflète le type de société dans laquelle nous voulons vivre.
En tant qu’acteur majeur de la tech, nous faisons tout ce qui est en notre pouvoir depuis plus de 20 ans pour réduire notre impact environnemental grâce à l’innovation industrielle et pour garantir un service infonuagique libre #DurableParConception🔗POUR ALLER PLUS LOINDécouvrez nos collaboratrices et collaborateurs passionné(e)s et explorez leurs métiers chez OVHcloud!Vous voulez contribuer à des projets uniques pour construire ensemble un service infonuagique libre ? Allons-y ! Chez OVHcloud, nous sommes animés par la même volonté, celle de construire l’avenir ensemble pour défendre la liberté d’innover.🔗VOTRE MISSIONSRE Openstack H/F/NAu sein de votre équipe #OneTeam
- Vous rejoindrez l'équipe Public Cloud SRE, spécialisée en OpenStack, pour assurer la fiabilité et la performance de notre infrastructure cloud.
- Vous maintiendrez une haute disponibilité des services et contribuerez à l'amélioration continue de notre environnement de production.
- Assurer la stabilité et la résilience de nos services basés sur OpenStack en appliquant les meilleures pratiques SRE.
- Mettre en place et améliorer les systèmes de surveillance, de journalisation et d'alerte pour détecter et résoudre rapidement les problèmes de production.
- Mener la gestion des incidents et les revues post-incidents pour éviter les récidives.
- Analyser les tendances du système pour optimiser les performances et garantir l'évolutivité de l'infrastructure.
- Identifier les opportunités d'automatisation des processus et de renforcement des systèmes.
- Maintenir une documentation détaillée de l'architecture et des procédures.
- Vous aurez une compréhension approfondie de notre environnement OpenStack et de nos flux de travail.
- Vous contribuerez à la définition et à l'affinement des métriques de fiabilité (SLI, SLO, budgets d'erreur).
- Vous prendrez en charge la gestion des incidents et participerez aux analyses de causes profondes.
- Vous jouerez un rôle déterminant dans la définition de la feuille de route de la fiabilité à long terme.
- Vous dirigerez des projets majeurs d'optimisation pour atteindre ou dépasser les objectifs de performance et de disponibilité.
- Vous maitrisez l'architecture OpenStack et ses composants (Neutron, Nova, Glance, Cinder, Keystone...).
- Vous êtes à l'aise avec la gestion d'infrastructures complexes et les méthodologies SRE.
- Vous avez de solides compétences en matière de monitoring, d'automatisation et d'optimisation des performances.
- Vous avez un excellent niveau d'anglais.
- Une expérience en gestion d'infrastructures IT.
- Un esprit collaboratif et de bonnes compétences en communication.