Ключевые навыки
Описание вакансии
Мы ищем SRE/ Linux Engineer, который будет отвечать за стабильность, надежность и развитие инфраструктуры компании. В этой роли вам предстоит поддерживать production- и staging-среды, обеспечивать высокую доступность сервисов, участвовать в автоматизации процессов, мониторинге и улучшении производительности систем.
Мы ожидаем специалиста с хорошим пониманием Linux-инфраструктуры, сетевых технологий и современных DevOps/SRE-подходов, который умеет быстро реагировать на инциденты, находить причины проблем и предлагать эффективные решения.
Основные задачи:
- Поддержка и развитие Linux-инфраструктуры (production / staging environments)
- Обеспечение доступности и надежности сервисов в соответствии с SLA / SLO
- Мониторинг систем и сервисов (Prometheus, Grafana, Zabbix и др.)
- Реакция на инциденты и проведение Root Cause Analysis
- Автоматизация операционных задач (Bash / Python / Ansible)
- Участие в процессах CI/CD и deployment pipelines
- Работа с контейнерами и оркестрацией (Docker / Kubernetes)
- Настройка логирования и трассировки (ELK Stack / Sentry / OpenTelemetry)
- Оптимизация производительности инфраструктуры и устранение узких мест
- Troubleshooting сетевых и инфраструктурных проблем
Требования:
- Глубокие знания администрирования Linux (процессы, systemd, ядро, файловые системы).
- Управление физическими серверами (BIOS/UEFI, RAID, iDRAC/iLO/IPMI).
- Виртуализация на базе KVM (libvirt, QEMU, управление жизненным циклом виртуальных машин, оптимизация производительности).
- Продвинутые знания сетевых технологий (VLAN, bonding, маршрутизация, инструменты диагностики и устранения сетевых проблем).
- Работа с системами хранения данных (LVM, RAID, NFS/iSCSI, основы оптимизации производительности).
- Диагностика и анализ производительности (CPU, память, дисковая подсистема, анализ задержек).
- Автоматизация и написание скриптов (Bash, Python, Ansible).
- Мониторинг и логирование (Prometheus, Grafana, ELK Stack, системные журналы).
- Понимание принципов высокой доступности (failover, резервирование, базовые концепции кластеризации).
- Управление инцидентами (диагностика, анализ первопричин (RCA), устранение проблем в промышленной среде).
Что предлагаем:
- Стабильную заработную плату
- Удаленный формат работы
- Возможности для обучения и профессионального роста
- Корпоративные бонусы, подарки к важным событиям и приятные внутренние программы
- Всю необходимую технику и инструменты для работы
Объявление о вакансии размещено в преддверии её официального открытия. Мы будем рады рассмотреть заявки заранее, чтобы сформировать базу сильных кандидатов.