Доклады конференции SmartData

Анна Вероника Дорогуш Яндекс
Анна Вероника Дорогуш
Яндекс
День 1 / 11:40  / Зал 3 / / Для практикующих инженеров

CatBoost — обучение градиентного бустинга на больших данных

В докладе мы кратко расскажем про то, что такое градиентный бустинг и зачем он нужен, осветим главные особенности библиотеки и подробно остановимся на обучении бустинга на больших данных.

Подробнее
Александр Тоболь Одноклассники
Александр Тоболь
Одноклассники
День 1 / 11:40  / Зал 1 / / Для практикующих инженеров

Щи, или Распознавание 330 млн лиц на скорости 1500 фото/сек

Рассмотрим пайплайн для построения векторов пользователей и поиска пользователя на загруженном фото; обучение нейросети; детектор лиц на каскаде нейросетей и его оптимизацию; построение нормализованного вектора пользователя на GPU; железо и оптимизации, запуск в облаке, отказоустойчивость.

Подробнее
Иван Ямщиков ABBYY
Иван Ямщиков
ABBYY
День 1 / 11:40  / Зал 2 / / Введение в технологию

Машинное обучение и два титановых шарика

Мы поговорим о том, чем отличается использование машинного обучения в суровом мире энтерпрайз от B2C, разберёмся, можно ли строить AI-решения в условиях дефицита данных, и обсудим лучшие практики использования машинного обучения в «боевых» условиях на примерах продуктов ABBYY.

Подробнее
Jerome Bellegarda Apple
Jerome Bellegarda
Apple
День 1 / 10:30  / Зал 1 / / Введение в технологию

The deep learning revolution

Jerome will illustrate how the present deep learning revolution is changing the way we interact with technology in our daily lives, address the central question of privacy breach, and finally discuss how to alleviate the inherent tension between leveraging users' data and maintaining data privacy.

Подробнее
Роман Ноздрин MariaDB Corporation
Роман Ноздрин
MariaDB Corporation
День 1 / 12:50  / Зал 2 / / Для практикующих инженеров

Грузите апельсины бочками, или Change data capture из MariaDB и PostgreSQL в аналитический движок MariaDB Columnstore

Материалы доклада описывают и демонстрируют методы CDC из основных open source-СУБД — MariaDB и PostgreSQL. Для MariaDB используется native-решение MaxScale, а для PostgreSQL — решения на базе стека: Kafka, Debezeum и ColumnStore write API.

Подробнее
Виктор Гамов  Confluent
Виктор Гамов
Confluent
День 1 / 14:40  / Зал 3 / /

Crossing the streams: rethinking stream processing with KStreams and KSQL

Viktor Gamov will introduce Kafka Streams and KSQL — an important recent addition to the Confluent open source platform that lets us build sophisticated stream processing systems with little to no code at all!

Подробнее
Илья Ларченко DOC+
Илья Ларченко
DOC+
День 1 / 14:40  / Зал 1 / / Для практикующих инженеров

Оптимизация работы врачей с помощью ML

Применение DS в медицине первичного звена: чат-бот, собирающий жалобы, и система, оценивающая качество оказанной медицинской помощи.

Подробнее
Алексей Миловидов Яндекс
Алексей Миловидов
Яндекс
День 1 / 15:50  / Зал 3 / / Для практикующих инженеров

Обфускация баз данных

Изменённые или искусственные датасеты, максимально похожихе на настоящие данные, могут быть использованы для тестирования производительности, отладки алгоритмов и машинного обучения. Для разработки ClickHouse нужны датасеты, приближающие данные Яндекс.Метрики. Алексей расскажет о четырех разных подходах к решению задачи, которые они попробовали, о том, какой подход в итоге победил и как вы можете им воспользоваться.

Подробнее
Антон Слесарев Яндекс
Антон Слесарев
Яндекс
День 1 / 14:40  / Зал 2 / /

Название уточняется

Описание уточняется

Подробнее
Дмитрий Соломенцев Яндекс
Дмитрий Соломенцев
Яндекс
День 1 / 12:50  / Зал 3 / /

Название уточняется

Описание уточняется

Подробнее
Dmitry Goryunov Zalando SE
Dmitry Goryunov
Zalando SE
День 1 / 17:00  / Зал 3 / /

Organizing access to Zalando's Data Lake

Dmitry'd like to make a retrospective on development of a data lake in one of the Europe's biggest ecommerce companies. The topics covered are revolving around organizing access to unorganized data. The talk recaps Dmitry and his team's experience with access management, metadata management, execution engines, visualization tools, data governance, machine learning enablement.

Подробнее