Доклады

Программа пополняется

Новые доклады публикуем каждую неделю, не пропустите обновления.

Доклад
Datapipe — трансформация данных при помощи K8s и S3
Как мы научились при помощи Python, K8s и S3 эффективно считать данные в облаках.
- Сергей Захарченко
  ЭПОХА ВОСЕМЬ
Доклад
Расширения Apache Spark как средство проведения интеграционного тестирования PySpark-приложений
Как мы решили проблему внесения hotfix-изменений в ETL-пайплайны на Apache Spark в сотни существующих процессов без изменений их кода.
- Илья Кочагин
  MTС Web Services (MWS)
Доклад
Читать быстрее, чем отдает Ceph: как мы построили S3-шардирование без дополнительной инфраструктуры
Хранилище под Trino уперлось в потолок производительности одного кластера Ceph — и мы стали размазывать каждую таблицу сразу по нескольким кластерам, а всю логику шардирования спрятали в HAProxy-сайдкары на compute-нодах, не добавив в архитектуру ни одного нового звена. Чтение ускорилось с 20 до 60–80 ГБ/с, latency GET — с минут до 1–2 секунд.
- Дмитрий Листвин
  Авито
Доклад
Как месяц искать утечку памяти в СХД и выяснить, что ее на самом деле нет
В докладе я разберу кейс, возникший в процессе разработки ПО СХД TATLIN.UNIFIED: баг, который выглядел утечкой памяти, оказался неочевидной проблемой с фрагментацией.

Поговорим про тестирование, поиск и отладку проблем в высоконагруженном ПО, а также поддержку работы СХД с решениями сторонних вендоров.
- Михаил Мотыленок
  YADRO
Доклад
LLM под нагрузкой: как измерять производительность self-hosted моделей
В докладе я разберу практический подход к измерению производительности self-hosted LLM.
- Роман Песков
  Циан
Доклад
Постмортем-сравнения Agentic и классического AutoML: типичные ловушки agentic-подхода
Я разберу слагаемые успеха и провала и дам практический чек-лист, по которому вы можете быстро решить: «здесь нужен агент» или «здесь достаточно классического AutoML» для генерации baseline-модели.
- Валерия Дымбицкая
  Upgini
Доклад
Есть ли жизнь после dbt?
В докладе рассмотрю текущее состояние экосистемы трансформации данных, а также альтернативные инструменты и перспективные проекты, которые могут прийти на замену dbt.
- Александра Попова
  Positive Technologies
Доклад
State of Iceberg REST Catalogs: чего нам не хватает и как собрать Control Plane своими руками
Поговорим о том, какие важные функции необходимы для управления Iceberg таблиц и роли REST Catalog в этом.
- Виталий Моисеев
  Островок!
Доклад
LLM Ops: оптимизация инференса и ML-serving в реальном production-кластере
Доклад посвящен практическому опыту оптимизации инференса и ML-serving на базе GPUStack в production-среде корпоративного AI Portal.
- Дмитрий Ибрагимов
  Лемана Тех
Доклад
Векторный поиск в PostgreSQL: pgvector изнутри
Как устроен pgvector: хранение векторов, алгоритмы HNSW и IVFFlat, точки деградации производительности. Честный разбор, где решение справляется, а где уже нет.
- Дарья Барсукова
  Postgres Pro
Доклад
MDM, который ничего не хранит: как сопоставлять данные, не забирая их к себе
Классическая MDM-система часто предполагает, что данные нужно собрать в одном месте: загрузить, нормализовать, сопоставить, назначить золотую запись и дальше управлять мастер-данными централизованно. Но что делать, если по требованиям безопасности или регуляторики система не имеет права хранить данные у себя?
- Юрий Горынцев
  Arenadata Catalog
Доклад
Новости Kafka: KRaft, Queus, tiered storage (и немного про YDB)
Параллельное чтение из топиков Kafka, KRaft, серверная балансировка и tiered storage. Какие реальные проблемы разработчика это решает и почему в YDB мы сделали чуть по-другому.
- Андрей Серебрянский
  Яндекс
Доклад
Скетчи: полезны на практике или всего лишь удивительная математика?
Скетчи позволяют вести приближенные статистики о данных с большой точностью в маленькой памяти.

В докладе показываются подвохи, которые препятствуют широкому применению скетчей конечными аналитиками, и где их всё же можно применить для оптимизации работы структур данных и распределенных систем анализа данных.
- Рене ван Беверн