Datapipe — трансформация данных при помощи K8s и S3
Как мы научились при помощи Python, K8s и S3 эффективно считать данные в облаках.

Сергей Захарченко
ЭПОХА ВОСЕМЬ
Новые доклады публикуем каждую неделю, не пропустите обновления.
Как мы научились при помощи Python, K8s и S3 эффективно считать данные в облаках.
ЭПОХА ВОСЕМЬ
Как мы решили проблему внесения hotfix-изменений в ETL-пайплайны на Apache Spark в сотни существующих процессов без изменений их кода.
MTС Web Services (MWS)
Хранилище под Trino уперлось в потолок производительности одного кластера Ceph — и мы стали размазывать каждую таблицу сразу по нескольким кластерам, а всю логику шардирования спрятали в HAProxy-сайдкары на compute-нодах, не добавив в архитектуру ни одного нового звена. Чтение ускорилось с 20 до 60–80 ГБ/с, latency GET — с минут до 1–2 секунд.
Авито
В докладе я разберу кейс, возникший в процессе разработки ПО СХД TATLIN.UNIFIED: баг, который выглядел утечкой памяти, оказался неочевидной проблемой с фрагментацией.
Поговорим про тестирование, поиск и отладку проблем в высоконагруженном ПО, а также поддержку работы СХД с решениями сторонних вендоров.
YADRO
В докладе я разберу практический подход к измерению производительности self-hosted LLM.
Циан
Я разберу слагаемые успеха и провала и дам практический чек-лист, по которому вы можете быстро решить: «здесь нужен агент» или «здесь достаточно классического AutoML» для генерации baseline-модели.
Upgini
В докладе рассмотрю текущее состояние экосистемы трансформации данных, а также альтернативные инструменты и перспективные проекты, которые могут прийти на замену dbt.
Positive Technologies
Поговорим о том, какие важные функции необходимы для управления Iceberg таблиц и роли REST Catalog в этом.
Островок!
Доклад посвящен практическому опыту оптимизации инференса и ML-serving на базе GPUStack в production-среде корпоративного AI Portal.
Лемана Тех
Как устроен pgvector: хранение векторов, алгоритмы HNSW и IVFFlat, точки деградации производительности. Честный разбор, где решение справляется, а где уже нет.
Postgres Pro
Классическая MDM-система часто предполагает, что данные нужно собрать в одном месте: загрузить, нормализовать, сопоставить, назначить золотую запись и дальше управлять мастер-данными централизованно. Но что делать, если по требованиям безопасности или регуляторики система не имеет права хранить данные у себя?
Arenadata Catalog
Параллельное чтение из топиков Kafka, KRaft, серверная балансировка и tiered storage. Какие реальные проблемы разработчика это решает и почему в YDB мы сделали чуть по-другому.
Яндекс
Скетчи позволяют вести приближенные статистики о данных с большой точностью в маленькой памяти.
В докладе показываются подвохи, которые препятствуют широкому применению скетчей конечными аналитиками, и где их всё же можно применить для оптимизации работы структур данных и распределенных систем анализа данных.