Sobre a vaga
Estamos em busca de um(a) Site Reliability Engineer (SRE) Sênior com experiência em Microsoft Azure para fortalecer nosso time de engenharia de confiabilidade. Você será responsável por garantir a disponibilidade, performance e resiliência dos sistemas dos nossos clientes.
Responsabilidades
- Definir e monitorar SLIs, SLOs e Error Budgets para serviços críticos
- Projetar e implementar soluções de alta disponibilidade e disaster recovery no Azure
- Automatizar operações de infraestrutura e reduzir toil
- Implementar e manter stack de observabilidade (Azure Monitor, Grafana, Prometheus, ELK)
- Conduzir análises post-mortem e implementar ações corretivas
- Gerenciar clusters Kubernetes (AKS) em produção
- Desenvolver runbooks e playbooks para resposta a incidentes
- Implementar práticas de Chaos Engineering para testar resiliência
- Otimizar custos de infraestrutura e performance de aplicações
- Colaborar com times de desenvolvimento na adoção de práticas SRE
Perfil comportamental
- Pensamento analítico e orientado a dados
- Capacidade de tomar decisões rápidas sob pressão
- Excelente comunicação para facilitar post-mortems e colaboração
- Mentalidade de automação — eliminar trabalho manual repetitivo
- Curiosidade técnica e vontade de aprender continuamente
Modelo de trabalho
- Regime: CLT
- Modalidade: 100% Remoto
- Horário: Segunda a sexta, horário comercial (flexível)