Доклад

Расширения Apache Spark как средство проведения интеграционного тестирования PySpark-приложений

Как мы решили проблему внесения hotfix-изменений в ETL-пайплайны на Apache Spark в сотни существующих процессов без изменений их кода. Для этого мы изменили настройки окружения, параметры Spark (в части spark.sql.extensions) и написали собственные расширения на Scala для автотестирования ETL-процессов без реальных данных, лишь на основе схем данных.

Расскажу, как LLM помогает определять, в чем именно ошибка в ходе такого автотестирования, и как исправить код ETL-пайплайна, чтобы такой тест был пройден.

Автотестирование — в основе CI GitLab, из которого происходит все создание окружения рядом с продовым для тестирования, и ETL-разработчику остается лишь нажать в CI на RUN pipeline и дождаться успешного статуса пайплайна либо сообщения об ошибке.

Спикеры

Доклады