Описание вакансии

Обязанности: Развивать и поддерживать платформу для запуска ML workloads. Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы. Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform. Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов. Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira. Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix. Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации. Проводить плановые работы любого уровня сложности. Вести документацию в рамках зоны ответственности отдела. Вести аварии и составлять планы пост аварийных мер на ML платформе. Требования: Опыт администрирования Kubernetes кластеров от одного года. Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS. Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators. Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов. Опыт работы с системами автоматизации: Ansible и Terraform Уверенное знание Linux на уровне администратора Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium Опыт работы с CI/CD: желателен GitLab CI. Понимание Gitops подхода и цикла разработки приложение для k8s. Знание одного из языков программирования на среднем уровне: Python или Go. Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги. Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости. Будет плюсом Опыт эксплуатации GPU-инфраструктуры в Kubernetes. Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM. Опыт работы с KServe, Knative, Kubeflow. Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API. Опыт с storage в Kubernetes: Ceph/Rook Опыт работы с baremetal серверами и облаками. Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput. Условия: Стабильный и прозрачный «белый» доход и полноценный соц. пакет; График работы 5/2, гибкое начало дня, гибридный или удаленный формат работы + три дополнительных дня отпуска в год; Корпоративный университет, который организует внутреннее и внешнее профильное обучение; Перспективы горизонтального и вертикального карьерного роста: вы можете стать руководителем или экспертом в своей области; Программу ДМС с обслуживанием в лучших клиниках города+оплата мобильной связи; Возможность принять участие в амбициозных, крупных и стабильных проектах.

Главный инженер

Описание вакансии

Похожие вакансии

Устали искать работу?
Начните прямо сейчас.

Главный инженер

Описание вакансии

Похожие вакансии

Устали искать работу?Начните прямо сейчас.

Устали искать работу?
Начните прямо сейчас.