Доклад

Spark Connect: новый подход для работы с Apache Spark

На русском языке

Расскажу о Spark Connect — новом подходе для запуска расчетов с использованием Apache Spark. Этот подход позволяет разделить клиентскую и серверную части приложения через gRPC API, а также реализовать клиентскую часть практически на любом языке без необходимости использовать JVM.

Сначала поговорим об архитектуре Spark Connect и ее основных отличиях от классического Spark. Дам обзор основных методов gPRC API и покажу примеры реализации Spark-расчетов на разных языках, таких как Go, Rust и Swift. Затем сравню Spark Connect с альтернативами, такими как Spark Thrift Server, Apache Kyuubi и Apache Livy.

В следующей части доклада расскажу о внедрении Spark Connect в YTsaurus Query Tracker и реализации Spark Connect API на C++. Покажу, какие преимущества нам дало использование Spark Connect в сравнении с предыдущей реализацией с использованием Apache Livy.

В заключительной части приведу примеры, в каких случаях Spark Connect будет подходящим решением, а в каких можно остаться на Spark Classic.

Спикеры

Доклады