Американские ученые совместно с инженерами Meta разработали алгоритм, который позволяет смарт-очкам работать на опережение. Новая технология способна прогнозировать траекторию человеческого внимания в 3D-среде на несколько секунд вперед.
Об этом информирует РБК-Украина со ссылкой на материалы научного доклада с конференции CVPR в Денвере.
Новая технология базируется на переходе от анализа двумерных статических изображений к полноценному моделированию поведения человека в реальной среде.
Автором исследования стала Фиона Райан, аспирантка Школы интерактивных вычислений Georgia Tech. Она разработала первую 3D-платформу для прогнозирования так называемых "сканпатов" (траекторий движения глаз) на основе видео от первого лица.
"Поскольку человек живет в трехмерном мире и постоянно находится в движении, стандартные 2D-метрики анализа картинок не способны эффективно работать в переносном устройстве типа смарт-очков", - объясняет ученая.
Новый алгоритм просчитывает вектор внимания как последовательность фиксаций взгляда, напрямую зависящих от актуальной цели человека. Например, если система фиксирует движение руки к чашке с кофе, она автоматически просчитывает следующий шаг оператора - поиск места, куда эта чашка будет поставлена.
Основную часть практической работы исследовательница выполнила во время стажировки в компании Meta.
Для обучения ИИ использовался специализированный набор данных Aria Digital Twin. Этот датасет содержит тысячи часов видеозаписей от первого лица, на которых зафиксировано бытовое взаимодействие людей с предметами в пределах квартиры, совмещенное с высокоточной 3D-реконструкцией всего помещения.
Благодаря этому разработчикам удалось получить идеальные координаты реального направления взгляда и сопоставить их с геометрией пространства.
Сейчас ПО способно стабильно прогнозировать направление взгляда в среднем на 3 секунды вперед, а в отдельных простых сценариях этот показатель достигает 10 секунд.
Этого времени вполне достаточно, чтобы графический процессор AR-очков заранее проактивно сгенерировал (отрендерил) необходимые виртуальные подсказки или элементы интерфейса в той зоне, куда человек только собирается посмотреть.
"Это полностью убирает эффект задержки картинки", - отмечает Фиона Райан.
В будущем разработчики планируют интегрировать в модель контекстные сценарии (понимание того, чем именно занят человек в данный момент). Это позволит сузить варианты прогнозирования при длительной концентрации на одном предмете.
Кроме потребительской электроники и смарт-очков, технология имеет высокий потенциал в робототехнике: ее используют для обучения алгоритмов роботов, чтобы те могли копировать естественное человеческое восприятие при выполнении бытовых или производственных задач.