Performance Engineer

Наша команда занимается обеспечением надёжности, масштабируемости и предсказуемости релизов в условиях растущей нагрузки и увеличения числа критичных компонентов системы. Мы развиваем инфраструктуру нагрузочных тестов, автоматизируем процессы диагностики и оптимизируем производительность распределённых систем. Всё это позволяет нам эффективно управлять высоконагруженными сервисами и обеспечивать стабильность их работы.

Задачи

  • Проводить низкоуровневую диагностику производительности систем
  • Выполнять системную диагностику Linux на уровне kernel, memory, networking и system calls
  • Анализировать деградации CPU, IO и latency с использованием инструментов perf, strace, tcpdump, iostat
  • Выявлять и локализовывать узкие места на уровне application, database, storage и network
  • Строить профили производительности по latency, throughput и saturation
  • Проводить root cause analysis инцидентов и деградаций
  • Работать с метриками, логами и трассировками распределённых систем
  • Коррелировать события и выявлять деградации с использованием Prometheus, Grafana, OpenTelemetry, Jaeger
  • Оптимизировать производительность и масштабируемость систем
  • Настраивать параметры системы и проводить сравнительные тесты конфигураций
  • Участвовать в настройке и развитии горизонтального масштабирования, балансировки нагрузки, кэширования и отказоустойчивости
  • Реагировать на инциденты в продакшене и проводить анализ причин и последствий
  • Подготавливать постмортемы и внедрять меры предотвращения повторов

Требования

  • Глубокое понимание архитектуры Linux: kernel, scheduler, memory management, networking stack
  • Практический опыт диагностики и оптимизации производительности систем под нагрузкой
  • Уверенный опыт работы с инструментами низкоуровневой диагностики: perf, strace, tcpdump, vmstat
  • Понимание методологий анализа производительности: USE, RED, Golden Signals, capacity planning
  • Опыт работы с системами мониторинга и трассировки: Prometheus, Grafana, OpenTelemetry, ELK
  • Навыки анализа метрик, логов и трассировок распределённых систем
  • Понимание архитектуры и поведения систем под нагрузкой: horizontal scaling, load balancing, replication, fault tolerance
  • Глубокое знание сетевых протоколов: TCP/IP, HTTP, DNS, load balancing
  • Практический опыт диагностики сетевых задержек и проблем производительности
  • Навыки автоматизации диагностики и управления инфраструктурой: Bash, Python, Ansible, CI/CD

Similar jobs