Новая модель искусственного интеллекта Apple создает 3D-карты глубины из 2D-изображений менее чем за секунду
Команда Apple по исследованию машинного обучения создала новую модель искусственного интеллекта, которая обещает значительные улучшения в отношении моделей компьютерного зрения и того, как они анализируют трехмерное внутри двухмерного изображения.
Новая модель ИИ, как сообщает VentureBeat, называется Depth Pro и подробно описана в новом документе "Depth Pro: Sharp Monocular Metric Depth in Less Than's Second". Depth Pro обещает быстро создавать сложные 3D-карты глубины из отдельных 2D-изображений. В аннотации к статье говорится, что модель может создать 2,25-мегапиксельную карту глубины из изображения за 0,3 секунды с помощью графического процессора потребительского класса.
Хотя такие устройства, как последние модели iPhone от Apple, могут создавать карты глубины с помощью встроенных в устройство датчиков, большинство неподвижных изображений не имеют сопутствующих данных о глубине реального мира. Однако карты глубины для таких изображений могут быть очень полезны для множества приложений, в том числе при обычном редактировании изображений. Например, если нужно отредактировать только объект или придать сцене искусственное "оптическое" размытие, карта глубины поможет программному обеспечению создать точные маски. Модель карты глубины также может помочь в создании изображений с помощью искусственного интеллекта, поскольку глубокое понимание карт глубины может помочь модели синтеза получить более реалистичные результаты.
Модель Depth Pro от Apple в сравнении с конкурирующими моделями карт глубины. | Credit: Apple Machine Learning Research
Как объясняют исследователи Apple - Алексей Бочковский, Амаэль Делоной, Хьюго Жермен, Марсель Сантос, Ичао Чжоу, Стефан Р. Рихтер и Владлен Колтун, - эффективная модель метрической монокулярной оценки глубины с нулевого выстрела должна быстро выдавать точные результаты высокого разрешения, чтобы быть полезной. Небрежная карта глубины не представляет особой ценности.
"Depth Pro создает метрические карты глубины высокого разрешения с высокочастотной детализацией при субсекундном времени работы. Наша модель достигает самой современной точности оценки метрической глубины с нулевого снимка, не требуя метаданных, таких как внутренняя характеристика камеры, и прослеживает границы окклюзии с беспрецедентной детализацией, что облегчает такие приложения, как синтез новых видов из отдельных изображений "на природе" - объясняют исследователи Apple. Однако команда признает некоторые ограничения, в том числе проблемы с полупрозрачными поверхностями и объемным рассеянием.
Фотография предоставлена для примера: Джереми Грей
Фотография предоставлена для примера: Джереми Грей
Как пишет VentureBeat, помимо редактирования фотографий, модель карты глубины может оказаться полезной и для приложений дополненной реальности (AR), где виртуальные объекты должны быть точно размещены в физическом пространстве.
Модель Depth Pro умеет работать как с относительной, так и с абсолютной глубиной, что очень важно для многих приложений. Люди могут сами протестировать Depth Pro на сайте Hugging Face.