Кино

Платформа для машинного обучения: как упростить и ускорить работу ML-инженеров

Краткое резюме

Компания «Авито» создала ML-платформу для оптимизации разработки решений в области машинного обучения. Платформа объединяет инструменты для обработки данных, обучения и тестирования моделей, делая их доступными для сотрудников разных отделов.

Здравствуйте! Меня зовут Олег Бугримов, я возглавляю команду разработчиков ML-платформы в компании Авито. В этой статье я поделюсь причинами, по которым мы приняли решение о создании ML-платформы, и расскажу о доступных у нас инструментах. Эта информация будет полезна ML-инженерам и техническим лидерам, стремящимся оптимизировать рабочие процессы, предоставить своей команде унифицированный набор инструментов и улучшить качество и скорость разработки ML-решений. **Причины создания ML-платформы** Мы используем технологии машинного обучения для решения различных задач, таких как улучшение ранжирования объявлений, автоматическое создание описаний и многое другое. Однако разработкой этих решений занимаются разные команды, и большинство сотрудников не имеют доступа к инструментам друг друга. Чтобы устранить этот недостаток, мы решили создать единую платформу. ML-платформа представляет собой централизованное хранилище инструментов для обработки данных, обучения и тестирования моделей. Это решение позволяет достичь нескольких целей: * **Оптимизация ресурсов.** Разработка ML-решений требует значительного времени на создание и обучение моделей. Остальное время уходит на сопутствующие задачи, такие как работа с инфраструктурой, CI/CD, мониторинг и развёртывание моделей. Мы стремимся сократить время, затрачиваемое на эти процессы. * **Предоставление готовых инструментов.** Многие команды разрабатывали собственные инструменты, что приводило к дублированию решений. Создание единой платформы позволяет избежать повторений и сэкономить время и усилия сотрудников. * **Доступность ML-инструментов для всех.** ML-инструменты используются дата-сайентистами, ML-инженерами и аналитиками, каждая из которых имеет свои требования к моделям. Наша платформа делает эти инструменты доступными для сотрудников любого отдела, снижая порог входа. Мы разделили инструменты на три категории, и далее я расскажу о каждой из них. **Инструменты для работы с данными** Feature store — это хранилище, которое позволяет создавать, хранить, находить и использовать фичи. Оно способствует переиспользованию фичей, что экономит время на разработке. Хранилище обеспечивает консистентность данных и поддерживает онлайн- и офлайн-сёрвинг. Feature store состоит из двух компонентов — горячего и холодного. Горячая часть использует Redis для обеспечения быстрого времени ответов, что делает её подходящей для срочных задач, требующих высокой скорости. Однако Redis сложно масштабировать по объёму.

Фильтры и сортировка