Описание вакансии
Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой. Вам предстоит: Проектировать и развивать Data Lakehouse платформу с нуля Строить надежную и масштабируемую архитектуру хранения и обработки данных Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake Развивать слой метаданных и каталогизации данных (Polaris как metastore) Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm) Оптимизировать производительность, стоимость вычислений и хранения Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт Вы нам подходите, если: Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений. Имеете опыт проектирования DLH с нуля будет большим преимуществом Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов Имеете опыт оптимизации Spark jobs и SQL-запросов Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий) Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов Опыт работы с Kubernetes и контейнеризированными платформами Опыт управления инфраструктурой через GitOps (ArgoCD, Helm) Инженерный подход, самостоятельность и способность принимать архитектурные решения Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт Будет плюсом, если вы: Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark) Имеете опыт построения self-service Data Platform Имеете опыт проектирования multi-tenant Data Lakehouse Имеете опыт настройки безопасности, governance и управления доступами Имеете опыт работы с Iceberg catalog / Polaris Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения Наш стек технологий: Аpache Spark DBT (Spark DBT, Trino DBT) Trino Apache Airflow S3-совместимое объектное хранилище Kubernetes Apache Polaris (metastore) GitOps (ArgoCD, Helm) Prometheus, VictoriaMetrics, Grafana