RemotoSRE

SRE Sênior - Azure

Brasil19 de março de 2026

Sobre a vaga

Estamos em busca de um(a) Site Reliability Engineer (SRE) Sênior com experiência em Microsoft Azure para fortalecer nosso time de engenharia de confiabilidade. Você será responsável por garantir a disponibilidade, performance e resiliência dos sistemas dos nossos clientes.

Responsabilidades

Definir e monitorar SLIs, SLOs e Error Budgets para serviços críticos
Projetar e implementar soluções de alta disponibilidade e disaster recovery no Azure
Automatizar operações de infraestrutura e reduzir toil
Implementar e manter stack de observabilidade (Azure Monitor, Grafana, Prometheus, ELK)
Conduzir análises post-mortem e implementar ações corretivas
Gerenciar clusters Kubernetes (AKS) em produção
Desenvolver runbooks e playbooks para resposta a incidentes
Implementar práticas de Chaos Engineering para testar resiliência
Otimizar custos de infraestrutura e performance de aplicações
Colaborar com times de desenvolvimento na adoção de práticas SRE

Perfil comportamental

Pensamento analítico e orientado a dados
Capacidade de tomar decisões rápidas sob pressão
Excelente comunicação para facilitar post-mortems e colaboração
Mentalidade de automação — eliminar trabalho manual repetitivo
Curiosidade técnica e vontade de aprender continuamente

Modelo de trabalho

Regime: CLT
Modalidade: 100% Remoto
Horário: Segunda a sexta, horário comercial (flexível)

Requisitos

5+ anos de experiência com SRE/DevOps/Infraestrutura
Experiência sólida com Microsoft Azure (AKS, Azure Monitor, Networking, Storage)
Domínio de Kubernetes em produção (AKS)
Experiência com observabilidade (Prometheus, Grafana, ELK, Azure Monitor)
Conhecimento avançado em Linux, networking e troubleshooting
Experiência com infraestrutura como código (Terraform, Bicep)
Conhecimento em SLI/SLO/Error Budget e práticas SRE
Experiência com automação (Python, Bash, Go)
Conhecimento em incident management e post-mortem
Inglês técnico para leitura e escrita

Diferenciais

Certificações Azure (AZ-104, AZ-400, AZ-305)
Experiência com Chaos Engineering (Chaos Monkey, Litmus)
Conhecimento em service mesh (Istio, Linkerd)
Experiência com FinOps e otimização de custos cloud

Benefícios

Vale Alimentação/Refeição (iFood)
Plano de Saúde Amil
Seguro de Vida
Auxílio Home Office
Wellhub (Gympass)
Starbem (saúde mental e bem-estar)
Avus (telemedicina e descontos em saúde)
Day off no aniversário
Cultura de aprendizado contínuo e certificações