Антон Виноградов
Компания: Apache Software Foundation
Активность не записывалась
Lightning talks — это отличный формат, чтобы динамично обсудить тему и найти единомышленников. Вас ждут 20-минутные доклады на профессиональные темы и живые обсуждения.
Построение кастомного feature store — это не классическая задача по шаблону. Расскажем, почему решили идти в построение своего решения.
Текущий легаси-проект содержит большое количество пайплайнов обработки и подготовки данных для моделей; данные используются как для трейна, так и для инференса моделей. Разберем проблемы, которые вызывает это легаси-решение, обсудим попытки их устранения. Покажем новую архитектуру, которую мы выбрали, и детальные шаги ее внедрения.
Тестирование скриптов и приложений, которые работают с данными, часто затруднено отсутствием этих данных на тестовых средах в нужном количестве и качестве. А перенос продуктивных данных на тестовое окружение несет риск нарушения конфиденциальности.
Расскажу, как мы в Газпромбанке решили проблему генерации тестовых данных, разработав библиотеку на основе pandas, NumPy, SciPy, SQLAlchemy. Сейчас в наше решение встроены десятки прикладных алгоритмов, таких как генерация СНИЛС, ИНН и паспортных данных, а также присутствуют универсальные алгоритмы для генерации данных из различных распределений, ретроспективных данных и данных на основе трендов.
Начну доклад с краткого обзора проблем, возникающих при отсутствии реальных данных для отладки приложений. Затем рассмотрим, как устроена библиотека, какие алгоритмы генерации в ней реализованы и какие практические задачи нам удалось решить с ее помощью.
На примере Kafka и Airflow расскажу, как создать Cloud Native архитектуру платформы данных на базе Kubernetes, не зависящую от облака, на котором она базируется.
Доклад основан на опыте нашей команды, поэтому основной упор — на грабли, на которые мы наступили в процессе разработки, решения, к которым пришли в итоге, и бенчмарки сервисов на Kubernetes и сервисов на голых виртуальных машинах.
Будет полезно всем, кто рассматривает возможность переезда или создания платформы данных на основе Kubernetes.
Проблема, которую решали: много времени аналитиков уходит на ad-hoc запросы, а с ростом продукта вопросов все больше и больше. Дам понятный алгоритм построения self-service инструмента для более быстрой работы с данными. Будет полезно командам, которые только начинают свой путь в data-driven подходе и хотят научиться отдавать данные быстрее.
PostgreSQL прекрасен, пока ваш кластер баз данных не достиг объема в несколько терабайт или более чем 10^5 запросов в секунду. Stateless Postgres Query Router — система шардирования PostgreSQL-кластера с открытым исходным кодом. Роутер, главный ее компонент, по запросу понимает, на каком конкретном PostgreSQL-кластере надо выполнить транзакцию или запрос. Существующие решения для шардинга ориентированы на аналитические и гибридные рабочие нагрузки (OLAP, HTTP), в то время как SPQR идеально подходит для OLTP-нагрузки.
Расскажу, как мы прошли через шардирование на основе FDW, CustomNode. Попытались добавить поддержку PostgreSQL в Vitess (систему шардирования MySQL), к легковесному роутингу запросов на C и, наконец, к архитектуре SPQR.
Будет полезно тем, кто стоит на пороге шардирования PostgreSQL-кластера, пишет свое решение или рассматривает готовые.
Как известно из любого видео по system design, Apache Kafka отдает данные напрямую из файла в сокет за один системный вызов, т.н. zero-copy. Однако, при включении SSL это преимущество теряется. Данные из файла необходимо дополнительно скопировать в буфер приложения, где он будет зашифрован в SSL/TLS Toolkit и потом обратно — в буфер ядра. Но безопасные подключения — это обязательная особенность любого продакшена, и получается, что эффективный подход есть, а применимость его ограничена тестовыми или альтернативно защищенными площадками. Мы, вероятно первыми в мире, реализовали zero-copy SSL в продукте на базе Apache Kafka, используя kTLS, получив в Platform V Corax удешевленную по затрачиваемым ресурсам безопасность соединений и не только. В докладе расскажем о пройденом нами пути, от идеи, серии разочарований и готовности бросить затею, до нахождения верного подхода и оценки полученного результата. Бонусом расскажем о преимуществах Linux-ноутбуков над Apple, С++ над Rust, принципах и нюансах работы Docker, кросс-компиляции под ARM и, конечно же, ценности open source решений.
Компания: Apache Software Foundation
Компания: SberTech
Компания: Домклик
Компания: VK / RuStore
Компания: Yandex Cloud
Компания: Домклик
Компания: VK / VK Tech
Компания: Газпромбанк
Компания: Яндекс