Engenheiro(a) de Site Reliability (SRE)

A Ubots nasceu para transformar a forma como marcas e pessoas se conectam! 💛

Somos uma plataforma conversacional (SaaS) especializada em instituições financeiras, e há quase uma década unimos Inteligência Artificial, consultoria estratégica e uma metodologia comprovada para ajudar nossos parceiros a evoluir suas jornadas digitais e construir relacionamentos seguros, personalizados, escaláveis e mensuráveis.


Sobre a oportunidade

Estamos contratando para o nosso time de SRE — um grupo pequeno e próximo, onde todo mundo tem contexto do todo e autonomia real para tomar decisões técnicas. Nosso backend roda em Java e JavaScript sobre AWS (com presença em GCP).

A missão do time é manter esse ecossistema resiliente, seguro e financeiramente eficiente à medida que o negócio escala. Na prática, isso significa que o escopo é amplo e os desafios mudam — o trabalho aqui não se repete.

Buscamos alguém que goste de resolver problemas complexos e que sinta ainda mais orgulho em explicar ao time o que causou o problema e como a solução foi desenhada.


Suas responsabilidades serão:

  • Segurança e Compliance: Implementar, automatizar e sustentar controles de segurança e governança na nossa infraestrutura AWS e GCP. Você terá ownership direto sobre essas entregas.
  • FinOps: Analisar e reduzir custos de nuvem com visão de negócio — identificando desperdícios, rightsizing recursos e propondo mudanças arquiteturais quando necessário.
  • Observabilidade: Refinar dashboards, métricas e alertas para que o time tenha visibilidade proativa: SLOs, latência, error budgets e saúde das aplicações.
  • Código e Instrumentação: Atuar hands-on em Java e JavaScript junto aos times de desenvolvimento, instrumentando monitoramento e diagnosticando problemas de performance em produção.
  • Colaboração: Trabalhar em projetos compartilhados, fazer e receber code reviews, e manter documentação viva e útil — não como burocracia, mas como ferramenta real do time.

O que esperamos de você:

  • Cloud AWS em produção: Experiência sólida com EKS, RDS, IAM e arquitetura de redes em ambientes produtivos.
  • Infraestrutura como código: Experiência avançada com Terraform e Ansible em repositórios compartilhados e pipelines de CI/CD.
  • Observabilidade: Vivência prática com ferramentas como Grafana, Prometheus, ELK, Datadog ou CloudWatch.
  • Leitura e escrita de código: Capacidade de navegar, entender e contribuir em codebases Java ou JavaScript com foco em diagnóstico e resiliência.
  • Mentalidade de automação: Identificar trabalho repetitivo (toil) e eliminá-lo com engenharia, não com mais planilha.
  • Comunicação técnica: Explicar decisões, documentar soluções e compartilhar contexto com clareza.
  • Visão crítica: Iniciativa para propor melhorias em CI/CD, arquitetura e processos internos sem esperar que alguém peça.

Será um diferencial se você tiver:

  • Experiência com frameworks de segurança e compliance em ambientes cloud (auditorias, controles, políticas de acesso).
  • Vivência com PostgreSQL em produção — manutenção, otimização e troubleshooting.
  • Atuação em ambientes multi-cloud, especialmente AWS + GCP.

Similar jobs