Datapipe — трансформация данных при помощи K8s и S3
Как мы научились при помощи Python, K8s и S3 эффективно считать данные в облаках.

Сергей Захарченко
ЭПОХА ВОСЕМЬ
Новые доклады публикуем каждую неделю, не пропустите обновления.
Как мы научились при помощи Python, K8s и S3 эффективно считать данные в облаках.
ЭПОХА ВОСЕМЬ
Доклад о том, почему на масштабе большой Data Platform набор разрозненных инструментов перестает работать и почему платформу нужно рассматривать как единый ADLC, а не как набор отдельных сервисов. Покажу, как это влияет на ETL, ad hoc-разработку, Data Governance, Data Quality и метрики, и расскажу, почему AI и агентный подход становятся главным драйвером новых требований к платформе.
Т-Банк
Доклад посвящен практическому опыту построения Data Streaming Lakehouse для аналитики в near real-time с использованием стека MySQL, Flink, Paimon, HDFS и StarRocks.
Place.01
Как мы решили проблему внесения hotfix-изменений в ETL-пайплайны на Apache Spark в сотни существующих процессов без изменений их кода.
MTС Web Services (MWS)
Хранилище под Trino уперлось в потолок производительности одного кластера Ceph — и мы стали размазывать каждую таблицу сразу по нескольким кластерам, а всю логику шардирования спрятали в HAProxy-сайдкары на compute-нодах, не добавив в архитектуру ни одного нового звена. Чтение ускорилось с 20 до 60–80 ГБ/с, latency GET — с минут до 1–2 секунд.
Авито
В докладе я разберу кейс, возникший в процессе разработки ПО СХД TATLIN.UNIFIED: баг, который выглядел утечкой памяти, оказался неочевидной проблемой с фрагментацией.
Поговорим про тестирование, поиск и отладку проблем в высоконагруженном ПО, а также поддержку работы СХД с решениями сторонних вендоров.
YADRO
В докладе я разберу практический подход к измерению производительности self-hosted LLM.
Циан
Расскажу, как мы построили единый граф знаний поверх десятков разрозненных корпоративных датасетов — инфраструктуру, в которой AI-агент не угадывает ответ по похожим чанкам, а осознанно обходит структуру и связи данных.
Я разберу слагаемые успеха и провала и дам практический чек-лист, по которому вы можете быстро решить: «здесь нужен агент» или «здесь достаточно классического AutoML» для генерации baseline-модели.
Upgini
Разберем реальный опыт миграции витрин данных с монолитного решения на Greenplum 6 на стек Data Lakehouse, уделив внимание и тому, как сделать этот процесс наименее болезненным для пользователей. Вы узнаете, с какими неочевидными проблемами придется столкнуться и как выстроить процессы так, чтобы новая архитектура оказалась эффективнее legacy-решения, а не его менее производительной копией.
Лемана Тех
В докладе рассмотрю текущее состояние экосистемы трансформации данных, а также альтернативные инструменты и перспективные проекты, которые могут прийти на замену dbt.
Positive Technologies
Поговорим о том, какие важные функции необходимы для управления Iceberg таблиц и роли REST Catalog в этом.
Островок!
Доклад посвящен практическому опыту оптимизации инференса и ML-serving на базе GPUStack в production-среде корпоративного AI Portal.
Лемана Тех
Как устроен pgvector: хранение векторов, алгоритмы HNSW и IVFFlat, точки деградации производительности. Честный разбор, где решение справляется, а где уже нет.
Postgres Pro
Классическая MDM-система часто предполагает, что данные нужно собрать в одном месте: загрузить, нормализовать, сопоставить, назначить золотую запись и дальше управлять мастер-данными централизованно. Но что делать, если по требованиям безопасности или регуляторики система не имеет права хранить данные у себя?
Arenadata Catalog
Параллельное чтение из топиков Kafka, KRaft, серверная балансировка и tiered storage. Какие реальные проблемы разработчика это решает и почему в YDB мы сделали чуть по-другому.
Яндекс
Скетчи позволяют вести приближенные статистики о данных с большой точностью в маленькой памяти.
В докладе показываются подвохи, которые препятствуют широкому применению скетчей конечными аналитиками, и где их всё же можно применить для оптимизации работы структур данных и распределенных систем анализа данных.
Расскажу, как мы построили экосистему Magnit Data, где каталог, глоссарий, DQ-движок, дашборды и чат-бот работают как единый механизм.
Магнит