Engenheiro(a) de Site Reliability (SRE)

A Ubots nasceu para transformar a forma como marcas e pessoas se conectam! 💛

Somos uma plataforma conversacional (SaaS) especializada em instituições financeiras, e há quase uma década unimos Inteligência Artificial, consultoria estratégica e uma metodologia comprovada para ajudar nossos parceiros a evoluir suas jornadas digitais e construir relacionamentos seguros, personalizados, escaláveis e mensuráveis.

Sobre a oportunidade

Estamos contratando para o nosso time de SRE — um grupo pequeno e próximo, onde todo mundo tem contexto do todo e autonomia real para tomar decisões técnicas. Nosso backend roda em Java e JavaScript sobre AWS (com presença em GCP).

A missão do time é manter esse ecossistema resiliente, seguro e financeiramente eficiente à medida que o negócio escala. Na prática, isso significa que o escopo é amplo e os desafios mudam — o trabalho aqui não se repete.

Buscamos alguém que goste de resolver problemas complexos e que sinta ainda mais orgulho em explicar ao time o que causou o problema e como a solução foi desenhada.

Suas responsabilidades serão:

Segurança e Compliance: Implementar, automatizar e sustentar controles de segurança e governança na nossa infraestrutura AWS e GCP. Você terá ownership direto sobre essas entregas.
FinOps: Analisar e reduzir custos de nuvem com visão de negócio — identificando desperdícios, rightsizing recursos e propondo mudanças arquiteturais quando necessário.
Observabilidade: Refinar dashboards, métricas e alertas para que o time tenha visibilidade proativa: SLOs, latência, error budgets e saúde das aplicações.
Código e Instrumentação: Atuar hands-on em Java e JavaScript junto aos times de desenvolvimento, instrumentando monitoramento e diagnosticando problemas de performance em produção.
Colaboração: Trabalhar em projetos compartilhados, fazer e receber code reviews, e manter documentação viva e útil — não como burocracia, mas como ferramenta real do time.

O que esperamos de você:

Cloud AWS em produção: Experiência sólida com EKS, RDS, IAM e arquitetura de redes em ambientes produtivos.
Infraestrutura como código: Experiência avançada com Terraform e Ansible em repositórios compartilhados e pipelines de CI/CD.
Observabilidade: Vivência prática com ferramentas como Grafana, Prometheus, ELK, Datadog ou CloudWatch.
Leitura e escrita de código: Capacidade de navegar, entender e contribuir em codebases Java ou JavaScript com foco em diagnóstico e resiliência.
Mentalidade de automação: Identificar trabalho repetitivo (toil) e eliminá-lo com engenharia, não com mais planilha.
Comunicação técnica: Explicar decisões, documentar soluções e compartilhar contexto com clareza.
Visão crítica: Iniciativa para propor melhorias em CI/CD, arquitetura e processos internos sem esperar que alguém peça.

✨ Será um diferencial se você tiver:

Experiência com frameworks de segurança e compliance em ambientes cloud (auditorias, controles, políticas de acesso).
Vivência com PostgreSQL em produção — manutenção, otimização e troubleshooting.
Atuação em ambientes multi-cloud, especialmente AWS + GCP.

Engenheiro(a) de Site Reliability (SRE)

Sobre a oportunidade

Suas responsabilidades serão:

O que esperamos de você:

Similar jobs

Tech Lead | Fullstack

Banco de Talentos - CSM

Banco de Talentos - Account Manager

AI驅動的產品開發通才

AI驅動的產品開發通才

AI驅動的產品開發通才