Performance Engineer
Наша команда занимается обеспечением надёжности, масштабируемости и предсказуемости релизов в условиях растущей нагрузки и увеличения числа критичных компонентов системы. Мы развиваем инфраструктуру нагрузочных тестов, автоматизируем процессы диагностики и оптимизируем производительность распределённых систем. Всё это позволяет нам эффективно управлять высоконагруженными сервисами и обеспечивать стабильность их работы.
Задачи
- Проводить низкоуровневую диагностику производительности систем
- Выполнять системную диагностику Linux на уровне kernel, memory, networking и system calls
- Анализировать деградации CPU, IO и latency с использованием инструментов perf, strace, tcpdump, iostat
- Выявлять и локализовывать узкие места на уровне application, database, storage и network
- Строить профили производительности по latency, throughput и saturation
- Проводить root cause analysis инцидентов и деградаций
- Работать с метриками, логами и трассировками распределённых систем
- Коррелировать события и выявлять деградации с использованием Prometheus, Grafana, OpenTelemetry, Jaeger
- Оптимизировать производительность и масштабируемость систем
- Настраивать параметры системы и проводить сравнительные тесты конфигураций
- Участвовать в настройке и развитии горизонтального масштабирования, балансировки нагрузки, кэширования и отказоустойчивости
- Реагировать на инциденты в продакшене и проводить анализ причин и последствий
- Подготавливать постмортемы и внедрять меры предотвращения повторов
Требования
- Глубокое понимание архитектуры Linux: kernel, scheduler, memory management, networking stack
- Практический опыт диагностики и оптимизации производительности систем под нагрузкой
- Уверенный опыт работы с инструментами низкоуровневой диагностики: perf, strace, tcpdump, vmstat
- Понимание методологий анализа производительности: USE, RED, Golden Signals, capacity planning
- Опыт работы с системами мониторинга и трассировки: Prometheus, Grafana, OpenTelemetry, ELK
- Навыки анализа метрик, логов и трассировок распределённых систем
- Понимание архитектуры и поведения систем под нагрузкой: horizontal scaling, load balancing, replication, fault tolerance
- Глубокое знание сетевых протоколов: TCP/IP, HTTP, DNS, load balancing
- Практический опыт диагностики сетевых задержек и проблем производительности
- Навыки автоматизации диагностики и управления инфраструктурой: Bash, Python, Ansible, CI/CD