ua en ru

ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очков

18:16 03.06.2026 Ср
3 мин
Технология дополненной реальности позволит смарт-очкам заранее подгружать нужные интерфейсы
ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очков Ученые представили первую трехмерную модель взгляда (фото: Magnific)

Американские ученые совместно с инженерами Meta разработали алгоритм, который позволяет смарт-очкам работать на опережение. Новая технология способна прогнозировать траекторию человеческого внимания в 3D-среде на несколько секунд вперед.

Об этом информирует РБК-Украина со ссылкой на материалы научного доклада с конференции CVPR в Денвере.

Новая технология базируется на переходе от анализа двумерных статических изображений к полноценному моделированию поведения человека в реальной среде.

Как это работает?

Автором исследования стала Фиона Райан, аспирантка Школы интерактивных вычислений Georgia Tech. Она разработала первую 3D-платформу для прогнозирования так называемых "сканпатов" (траекторий движения глаз) на основе видео от первого лица.

"Поскольку человек живет в трехмерном мире и постоянно находится в движении, стандартные 2D-метрики анализа картинок не способны эффективно работать в переносном устройстве типа смарт-очков", - объясняет ученая.

Новый алгоритм просчитывает вектор внимания как последовательность фиксаций взгляда, напрямую зависящих от актуальной цели человека. Например, если система фиксирует движение руки к чашке с кофе, она автоматически просчитывает следующий шаг оператора - поиск места, куда эта чашка будет поставлена.

ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очковВизуализация работы алгоритма (скриншот: Techxsplore)

Тестирование на базе данных Meta

Основную часть практической работы исследовательница выполнила во время стажировки в компании Meta.

Для обучения ИИ использовался специализированный набор данных Aria Digital Twin. Этот датасет содержит тысячи часов видеозаписей от первого лица, на которых зафиксировано бытовое взаимодействие людей с предметами в пределах квартиры, совмещенное с высокоточной 3D-реконструкцией всего помещения.

Благодаря этому разработчикам удалось получить идеальные координаты реального направления взгляда и сопоставить их с геометрией пространства.

Практическая польза

Сейчас ПО способно стабильно прогнозировать направление взгляда в среднем на 3 секунды вперед, а в отдельных простых сценариях этот показатель достигает 10 секунд.

Этого времени вполне достаточно, чтобы графический процессор AR-очков заранее проактивно сгенерировал (отрендерил) необходимые виртуальные подсказки или элементы интерфейса в той зоне, куда человек только собирается посмотреть.

"Это полностью убирает эффект задержки картинки", - отмечает Фиона Райан.

В будущем разработчики планируют интегрировать в модель контекстные сценарии (понимание того, чем именно занят человек в данный момент). Это позволит сузить варианты прогнозирования при длительной концентрации на одном предмете.

Кроме потребительской электроники и смарт-очков, технология имеет высокий потенциал в робототехнике: ее используют для обучения алгоритмов роботов, чтобы те могли копировать естественное человеческое восприятие при выполнении бытовых или производственных задач.

Или читайте нас там, где вам удобно!
Больше по теме: