Описание вакансии
Обязанности: Развивать и поддерживать платформу для запуска ML workloads. Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы. Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform. Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов. Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira. Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix. Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации. Проводить плановые работы любого уровня сложности. Вести документацию в рамках зоны ответственности отдела. Вести аварии и составлять планы пост аварийных мер на ML платформе. Требования: Опыт администрирования Kubernetes кластеров от одного года. Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS. Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators. Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов. Опыт работы с системами автоматизации: Ansible и Terraform Уверенное знание Linux на уровне администратора Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium Опыт работы с CI/CD: желателен GitLab CI. Понимание Gitops подхода и цикла разработки приложение для k8s. Знание одного из языков программирования на среднем уровне: Python или Go. Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги. Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости. Будет плюсом Опыт эксплуатации GPU-инфраструктуры в Kubernetes. Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM. Опыт работы с KServe, Knative, Kubeflow. Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API. Опыт с storage в Kubernetes: Ceph/Rook Опыт работы с baremetal серверами и облаками. Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput. Условия: Стабильный и прозрачный «белый» доход и полноценный соц. пакет; График работы 5/2, гибкое начало дня, гибридный или удаленный формат работы + три дополнительных дня отпуска в год; Корпоративный университет, который организует внутреннее и внешнее профильное обучение; Перспективы горизонтального и вертикального карьерного роста: вы можете стать руководителем или экспертом в своей области; Программу ДМС с обслуживанием в лучших клиниках города+оплата мобильной связи; Возможность принять участие в амбициозных, крупных и стабильных проектах.