Описание вакансии

Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой. Вам предстоит: Проектировать и развивать Data Lakehouse платформу с нуля Строить надежную и масштабируемую архитектуру хранения и обработки данных Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake Развивать слой метаданных и каталогизации данных (Polaris как metastore) Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm) Оптимизировать производительность, стоимость вычислений и хранения Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт Вы нам подходите, если: Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений. Имеете опыт проектирования DLH с нуля будет большим преимуществом Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов Имеете опыт оптимизации Spark jobs и SQL-запросов Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий) Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов Опыт работы с Kubernetes и контейнеризированными платформами Опыт управления инфраструктурой через GitOps (ArgoCD, Helm) Инженерный подход, самостоятельность и способность принимать архитектурные решения Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт Будет плюсом, если вы: Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark) Имеете опыт построения self-service Data Platform Имеете опыт проектирования multi-tenant Data Lakehouse Имеете опыт настройки безопасности, governance и управления доступами Имеете опыт работы с Iceberg catalog / Polaris Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения Наш стек технологий: Аpache Spark DBT (Spark DBT, Trino DBT) Trino Apache Airflow S3-совместимое объектное хранилище Kubernetes Apache Polaris (metastore) GitOps (ArgoCD, Helm) Prometheus, VictoriaMetrics, Grafana

Data Lakehouse Engineer

Описание вакансии

Похожие вакансии

Устали искать работу?
Начните прямо сейчас.

Data Lakehouse Engineer

Описание вакансии

Похожие вакансии

Устали искать работу?Начните прямо сейчас.

Устали искать работу?
Начните прямо сейчас.