Engenheiro(a) de Site Reliability (SRE)
A Ubots nasceu para transformar a forma como marcas e pessoas se conectam! 💛
Somos uma plataforma conversacional (SaaS) especializada em instituições financeiras, e há quase uma década unimos Inteligência Artificial, consultoria estratégica e uma metodologia comprovada para ajudar nossos parceiros a evoluir suas jornadas digitais e construir relacionamentos seguros, personalizados, escaláveis e mensuráveis.
Sobre a oportunidade
Estamos contratando para o nosso time de SRE — um grupo pequeno e próximo, onde todo mundo tem contexto do todo e autonomia real para tomar decisões técnicas. Nosso backend roda em Java e JavaScript sobre AWS (com presença em GCP).
A missão do time é manter esse ecossistema resiliente, seguro e financeiramente eficiente à medida que o negócio escala. Na prática, isso significa que o escopo é amplo e os desafios mudam — o trabalho aqui não se repete.
Buscamos alguém que goste de resolver problemas complexos e que sinta ainda mais orgulho em explicar ao time o que causou o problema e como a solução foi desenhada.
Suas responsabilidades serão:
- Segurança e Compliance: Implementar, automatizar e sustentar controles de segurança e governança na nossa infraestrutura AWS e GCP. Você terá ownership direto sobre essas entregas.
- FinOps: Analisar e reduzir custos de nuvem com visão de negócio — identificando desperdícios, rightsizing recursos e propondo mudanças arquiteturais quando necessário.
- Observabilidade: Refinar dashboards, métricas e alertas para que o time tenha visibilidade proativa: SLOs, latência, error budgets e saúde das aplicações.
- Código e Instrumentação: Atuar hands-on em Java e JavaScript junto aos times de desenvolvimento, instrumentando monitoramento e diagnosticando problemas de performance em produção.
- Colaboração: Trabalhar em projetos compartilhados, fazer e receber code reviews, e manter documentação viva e útil — não como burocracia, mas como ferramenta real do time.
O que esperamos de você:
- Cloud AWS em produção: Experiência sólida com EKS, RDS, IAM e arquitetura de redes em ambientes produtivos.
- Infraestrutura como código: Experiência avançada com Terraform e Ansible em repositórios compartilhados e pipelines de CI/CD.
- Observabilidade: Vivência prática com ferramentas como Grafana, Prometheus, ELK, Datadog ou CloudWatch.
- Leitura e escrita de código: Capacidade de navegar, entender e contribuir em codebases Java ou JavaScript com foco em diagnóstico e resiliência.
- Mentalidade de automação: Identificar trabalho repetitivo (toil) e eliminá-lo com engenharia, não com mais planilha.
- Comunicação técnica: Explicar decisões, documentar soluções e compartilhar contexto com clareza.
- Visão crítica: Iniciativa para propor melhorias em CI/CD, arquitetura e processos internos sem esperar que alguém peça.
✨ Será um diferencial se você tiver:
- Experiência com frameworks de segurança e compliance em ambientes cloud (auditorias, controles, políticas de acesso).
- Vivência com PostgreSQL em produção — manutenção, otimização e troubleshooting.
- Atuação em ambientes multi-cloud, especialmente AWS + GCP.