Lightning Talks

Активность в офлайне, не транслируется и не записывается

Lightning talks — это отличный формат, чтобы динамично обсудить тему и найти единомышленников. Вас ждут 20-минутные доклады на профессиональные темы и живые обсуждения.

Переход от легаси к построению своего feature store — Алина Баймашева, Евгений Дащенко

Построение кастомного feature store — это не классическая задача по шаблону. Расскажем, почему решили идти в построение своего решения.

Текущий легаси-проект содержит большое количество пайплайнов обработки и подготовки данных для моделей; данные используются как для трейна, так и для инференса моделей. Разберем проблемы, которые вызывает это легаси-решение, обсудим попытки их устранения. Покажем новую архитектуру, которую мы выбрали, и детальные шаги ее внедрения.

Генератор синтетических данных для тестирования приложений — Александр Максимович

Тестирование скриптов и приложений, которые работают с данными, часто затруднено отсутствием этих данных на тестовых средах в нужном количестве и качестве. А перенос продуктивных данных на тестовое окружение несет риск нарушения конфиденциальности.

Расскажу, как мы в Газпромбанке решили проблему генерации тестовых данных, разработав библиотеку на основе pandas, NumPy, SciPy, SQLAlchemy. Сейчас в наше решение встроены десятки прикладных алгоритмов, таких как генерация СНИЛС, ИНН и паспортных данных, а также присутствуют универсальные алгоритмы для генерации данных из различных распределений, ретроспективных данных и данных на основе трендов.

Начну доклад с краткого обзора проблем, возникающих при отсутствии реальных данных для отладки приложений. Затем рассмотрим, как устроена библиотека, какие алгоритмы генерации в ней реализованы и какие практические задачи нам удалось решить с ее помощью.

Архитектура Cloud Native платформы данных — Сергей Емельянов

На примере Kafka и Airflow расскажу, как создать Cloud Native архитектуру платформы данных на базе Kubernetes, не зависящую от облака, на котором она базируется.

Доклад основан на опыте нашей команды, поэтому основной упор — на грабли, на которые мы наступили в процессе разработки, решения, к которым пришли в итоге, и бенчмарки сервисов на Kubernetes и сервисов на голых виртуальных машинах.

Будет полезно всем, кто рассматривает возможность переезда или создания платформы данных на основе Kubernetes.

Жизнь без ad-hoc запросов — правда или вымысел? — Елизавета Виксне

Проблема, которую решали: много времени аналитиков уходит на ad-hoc запросы, а с ростом продукта вопросов все больше и больше. Дам понятный алгоритм построения self-service инструмента для более быстрой работы с данными. Будет полезно командам, которые только начинают свой путь в data-driven подходе и хотят научиться отдавать данные быстрее.

Теперь и так можно шардировать ваш PostgreSQL-кластер — Денис Волков

PostgreSQL прекрасен, пока ваш кластер баз данных не достиг объема в несколько терабайт или более чем 10^5 запросов в секунду. Stateless Postgres Query Router — система шардирования PostgreSQL-кластера с открытым исходным кодом. Роутер, главный ее компонент, по запросу понимает, на каком конкретном PostgreSQL-кластере надо выполнить транзакцию или запрос. Существующие решения для шардинга ориентированы на аналитические и гибридные рабочие нагрузки (OLAP, HTTP), в то время как SPQR идеально подходит для OLTP-нагрузки.

Расскажу, как мы прошли через шардирование на основе FDW, CustomNode. Попытались добавить поддержку PostgreSQL в Vitess (систему шардирования MySQL), к легковесному роутингу запросов на C и, наконец, к архитектуре SPQR.

Будет полезно тем, кто стоит на пороге шардирования PostgreSQL-кластера, пишет свое решение или рассматривает готовые.

Почему Kafka тормозит в продакшене и как это исправить с помощью kTLS? — Антон Виноградов, Иван Дащинский

Как известно из любого видео по system design, Apache Kafka отдает данные напрямую из файла в сокет за один системный вызов, т.н. zero-copy. Однако, при включении SSL это преимущество теряется. Данные из файла необходимо дополнительно скопировать в буфер приложения, где он будет зашифрован в SSL/TLS Toolkit и потом обратно — в буфер ядра. Но безопасные подключения — это обязательная особенность любого продакшена, и получается, что эффективный подход есть, а применимость его ограничена тестовыми или альтернативно защищенными площадками. Мы, вероятно первыми в мире, реализовали zero-copy SSL в продукте на базе Apache Kafka, используя kTLS, получив в Platform V Corax удешевленную по затрачиваемым ресурсам безопасность соединений и не только. В докладе расскажем о пройденом нами пути, от идеи, серии разочарований и готовности бросить затею, до нахождения верного подхода и оценки полученного результата. Бонусом расскажем о преимуществах Linux-ноутбуков над Apple, С++ над Rust, принципах и нюансах работы Docker, кросс-компиляции под ARM и, конечно же, ценности open source решений.

Спикеры

Антон Виноградов
Apache Software Foundation
Александр Максимович
Газпромбанк
Сергей Емельянов
VK / VK Tech
Елизавета Виксне
VK / RuStore
Денис Волков
Yandex Cloud
Алина Баймашева
Домклик
Евгений Дащенко
Домклик
Иван Дащинский
SberTech

Ведущие

Максим Стаценко
Яндекс

Расписание