Слежка без камер: Apple создала ИИ, который вычисляет действия пользователя по звуку и движениям
Краткое резюме
Apple разработала ИИ, который анализирует действия пользователя по звуку и движениям с помощью больших языковых моделей. Точность определения повышается при наличии обучающих данных.
Компания Apple представила отчёт о научном исследовании, в котором рассматриваются возможности больших языковых моделей (LLM) для анализа аудиоданных и данных о движении с целью определения действий пользователя.
В своей научной работе под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности» Apple демонстрирует потенциал интеграции данных, полученных с помощью ИИ-моделей, с традиционными данными от датчиков. Это может значительно повысить точность анализа активности пользователя, даже в ситуациях, когда данных от датчиков недостаточно.
Согласно отчёту, большие языковые модели могут быть использованы для объединения данных при классификации активности на основе временных рядов, аудио и данных о движении. Исследователи подчёркивают, что интеграция дополнительной информации может быть сложной задачей, но LLM способны справиться с ней.
Для проведения исследования учёные использовали подмножество данных из набора Ego4D, который содержит тысячи часов записей из реального мира. Эти записи охватывают различные ситуации, включая домашние дела и занятия спортом. Было установлено, что большие языковые модели эффективно справляются с задачами по определению действий пользователя на основе анализа звуковых и двигательных сигналов, даже без специального обучения. Точность определения значительно повышается, если моделям предоставить хотя бы один пример для обучения.
Важно отметить, что в исследовании LLM обрабатывала не саму аудиозапись, а текстовое описание, сгенерированное аудиомоделями и моделью движения, которая получает данные от акселерометра и гироскопа.
Исследователи отобрали 20-секундные выборки из 12 видов активностей, включая уборку пылесосом, готовку, стирку, приём пищи, игры в баскетбол и футбол, игру с домашними питомцами, чтение книги, работу за компьютером, мытьё посуды, просмотр ТВ и силовые тренировки. Эти активности были выбраны для охвата спектра домашних и спортивных задач.
Звуковые данные и данные о движении были обработаны с помощью небольших ИИ-моделей, которые генерировали текстовые описания и прогнозы касательно категории активности.