Пишем свой cluster manager для Apache Spark

Database Internals

Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность работать практически с любыми системами хранения распределенных данных, а также возможность запуска с использованием любой системы управления ресурсами вычислительного кластера.

В докладе расскажу, как Spark запускает распределенные процессы на физическом уровне. Обсудим существующие реализации кластер-менеджеров в Spark, таких как Standalone, YARN или Kubernetes.

В основной части выступления поговорим об абстракциях Spark, которые реализуют взаимодействие приложения с кластер-менеджером. Расскажу, как мы реализовали эти абстракции для интеграции с планировщиком ресурсов YTsaurus. Кроме того, разберем, что нужно сделать для поддержки расширенных возможностей запуска, таких как использование Dynamic Allocation или запуск с использованием GPU.

В заключение поделюсь, с какими подводными камнями пришлось столкнуться при реализации своего кластер-менеджера, а также дальнейшими планами по его развитию.