Performance Engineer

Наша команда занимается обеспечением надёжности, масштабируемости и предсказуемости релизов в условиях растущей нагрузки и увеличения числа критичных компонентов системы. Мы развиваем инфраструктуру нагрузочных тестов, автоматизируем процессы диагностики и оптимизируем производительность распределённых систем. Всё это позволяет нам эффективно управлять высоконагруженными сервисами и обеспечивать стабильность их работы.

Задачи

Проводить низкоуровневую диагностику производительности систем
Выполнять системную диагностику Linux на уровне kernel, memory, networking и system calls
Анализировать деградации CPU, IO и latency с использованием инструментов perf, strace, tcpdump, iostat
Выявлять и локализовывать узкие места на уровне application, database, storage и network
Строить профили производительности по latency, throughput и saturation
Проводить root cause analysis инцидентов и деградаций
Работать с метриками, логами и трассировками распределённых систем
Коррелировать события и выявлять деградации с использованием Prometheus, Grafana, OpenTelemetry, Jaeger
Оптимизировать производительность и масштабируемость систем
Настраивать параметры системы и проводить сравнительные тесты конфигураций
Участвовать в настройке и развитии горизонтального масштабирования, балансировки нагрузки, кэширования и отказоустойчивости
Реагировать на инциденты в продакшене и проводить анализ причин и последствий
Подготавливать постмортемы и внедрять меры предотвращения повторов

Требования

Глубокое понимание архитектуры Linux: kernel, scheduler, memory management, networking stack
Практический опыт диагностики и оптимизации производительности систем под нагрузкой
Уверенный опыт работы с инструментами низкоуровневой диагностики: perf, strace, tcpdump, vmstat
Понимание методологий анализа производительности: USE, RED, Golden Signals, capacity planning
Опыт работы с системами мониторинга и трассировки: Prometheus, Grafana, OpenTelemetry, ELK
Навыки анализа метрик, логов и трассировок распределённых систем
Понимание архитектуры и поведения систем под нагрузкой: horizontal scaling, load balancing, replication, fault tolerance
Глубокое знание сетевых протоколов: TCP/IP, HTTP, DNS, load balancing
Практический опыт диагностики сетевых задержек и проблем производительности
Навыки автоматизации диагностики и управления инфраструктурой: Bash, Python, Ansible, CI/CD

Performance Engineer

Задачи

Требования

Similar jobs

Analista de Garantia da Qualidade II

Инженер технических систем безопасности

Инженер SRE

Reliability Engineer (m/w/d)

Technician 3, Lab

Senior Reliability Engineer