Estamos em busca de um pessoa engenheira de Confiabilidade de Site (SRE) para se juntar à nossa equipe. A pessoa candidata deve ter forte sentimento de ownership da aplicação, sendo capaz de gerenciar seu backlog baseado em suas análises e monitoramentos da aplicação, além de possuir excelentes habilidades de comunicação para colaborar eficazmente com as diversas equipes responsáveis por cada jornada da aplicação.
Responsabilidades:
Análises de confiabilidade, desempenho e disponibilidade da aplicação.
Monitorar os problemas das implantações dos apps, abordando problemas de desempenho ou segurança que surjam. E tendo aprendizados para evitar futuras situações similares.
Gerenciar pro ativamente o backlog de tarefas, identificar oportunidades de melhoria e propor soluções eficazes colaborativas.
Manter comunicação eficiente com as equipes responsáveis por diferentes jornadas da aplicação, garantindo uma compreensão clara das necessidades e prioridades.
Manter-se atualizado com tendências do setor, melhores práticas e tecnologias emergentes relacionadas à computação em nuvem e DevOps/SRE.
Requisitos técnicos:
Experiência como Engenheiro de Confiabilidade de Site (SRE) e suas métricas.
Experiência em monitoramento de aplicações de backend Java
Experiência sólida em práticas de FinOps e gestão de custos em ambientes de nuvem.
Experiência em trabalhar com ferramentas de observabilidade como Datadog, Grafana, Prometheus, Thanos.
Experiência com plataformas baseadas na AWS (ECS, EKS) e/ou Kubernets e Docker.
Experiência em Linux
Conhecimento técnico GitHub, Jenkins e Splunk (desejável)
Experiência em pipelin CI/CD (GitHub Actions, Code Build, Code Pipeline).
Infra estrutura as a code (Terraform)
Habilidades analíticas e capacidade de resolução de problemas, com desejo de aprender e se adaptar em um ambiente dinâmico.
Teste de performance, stress test.
Entendimento da teoria do Caos (o que testar, o que validar, quais falhas tentar inserir na aplicação, tira um BD o que acontece com aplicação)
Capacidade de resolver problemas de forma eficiente (troubleshooting) e propor melhorias contínuas (splunk, dashs, tracers).
Diferencial:
-> Conhecimento em monitoramento de aplicações Mobile (Android e IOS)
-> Conhecimento de Google Analytics, Firebase Crashlytics, -> Conhecer algum das
-> Conhecimento de linguagens de programação como Java, Shell Script, Golang, Phyton
#LI-BA1