Ключевые навыки
GrafanaZabbixPrometheusSplunkAtlassian JiraAtlassian ConfluenceKibanaELKPostmortemIncident Management
Описание вакансии
Чем предстоит заниматься: Мониторингом работы критичных автоматизированных систем и качества предоставления сервисов; Оперативным определением влияния и периметра инцидента, корректной приоритизацией и эскалацией, подключением ответственных от команд; Координацией процесса устранения высокоприоритетных и резонансных инцидентов; Организацией своевременного информирования стейкхолдеров о возникающих событиях, ходе их устранения и причинах; Подготовкой предложений по оптимизации ИТ-процессов для минимизации влияния инцидентов на услуги и конечного пользователя и участием в развитии инцидент-менеджмента; Пониманием способов оптимального устранения инцидента и его последствий – принятием решением о применении обходного пути, организацией ручной обработки или установкой hot-fix; Ведением хронологии инцидента, участием в заполнении Postmortem. Что мы ожидаем: Опыт с инструментами Grafana, Zabbix, Prometheus, Splunk, ELK Stack, Kibana (Elasticsearch), Graylog, Splunk; Базовые знания настройки алертов (CPU, память, диски, сетевые задержки); Поиск ошибок (500 Internal Server Error, медленные SQL-запросы); Связка логов с трейсингом (Jaeger для распределенных систем); Знание процессов Incident, Problem Management; Опыт работы с service desk-системами (Jira); Навыки составления Postmortem; Опыт ведения документации (Confluence). Мы предлагаем: Работу в аккредитованной ИТ-компании; Шаг в космос - для тех, кто вдохновлен идеей покорения космоса и мечтает быть к этому причастным; Возможность выбора формата работы (офис/удаленка/гибрид); Комфортный современный лофт-офис в 5 минутах от метро "Улица 1905 года"; Сменный график работы 2/2 (есть ночные смены); Оформление в соответствии с ТК РФ; Конкурентный уровень заработной платы - на уровне лидеров ИТ/телеком-индустрии.