Аннотация

Проект из Stanford University («переехавший» в начале 2010 года в Cornell University) «Make3D», примечателен тем, что поставил перед собой пока еще не ставшую типичной задачу восстановления трехмерной модели сцены всего из одного фотоснимка. До сих пор, чтобы добиться подобного результата, разработчики восстанавливали трехмерную информацию, комбинируя несколько (два и более) снимков одного и того же объекта с разных ракурсов. В данном же проекте уже продемонстрировано, что значительный объем информации содержится в монокулярных признаках (monocular cues) самого изображения, которые до этого зачастую игнорировались.

В качестве особенностей метода можно выделить то, что он не опирается ни на какие базовые предположения о структуре сцены и объектов находящихся на ней. Модификация алгоритма с учетом подобных условий, для заранее известного класса сцен, может только улучшить результат.

Для создания системы авторы воспользовались алгоритмами машинного обучения – случайными полями Марковского типа (MRF: MarkovRandomField), в которых учитываются не только локальные особенности участков фотографии («суперпикселей»), а также окружающий их контекст, и всевозможное варианты взаимного расположения участков фотографии («суперпикселей»):

Соединения: скорей всего два «суперпикселя» будут вплотную соединены (угол дома), нежели далеко разнесены в пространстве (забор и дом за ним);
Копланарность: если два «суперпикселя» имеют схожую структуру и граница между ними не очень четкая, то очень вероятно, что они принадлежат одному объекту и лежат в одной плоскости (продолжение стены);
Коллинеарность: длинные прямые на двумерной фотографии скорей всего будут так же длинными прямыми и в трехмерной модели сцены.

Данный доклад – о том, как устроена эта система, каким образом учтены все эти многочисленные параметры и что в итоге из этого получается.

В практической реализации авторам уже удалось добиться удовлетворительных результатов более чем на 60% произвольных фотоснимков, предоставленных и оцененных сторонними пользователями системы при проведении ее испытаний.

В перспективе подобный проект, на мой взгляд, может найти применение в самых различных областях. Например, для улучшения способности роботов ориентироваться в пространстве, добавления трехмерных сцен в компьютерных и видеоиграх, расширения возможностей автоматизированных систем видеонаблюдения, системах складского учета и т.д.

В качестве одного из самых наглядных примеров, достаточно рассмотреть распространенные сервисы, наподобие Google Street View или Bing Maps 3D, в которых доступны объемные трехмерные изображения зданий, но в основном - только для центральных улиц, остальная же часть местности, как правило, остается без внимания, не говоря уже о внутренних помещениях больших супермаркетов и складов.

В современном Интернете содержание для многих сервисов добавляют сами пользователи. Google и Microsoft уже разрабатывают продукты «SketchUp» и «3DVIA Shape» соответственно, чтобы люди могли самостоятельно строить трехмерные модели зданий, которые их окружают. Подобный проект мог бы гармонично вписаться в эти сервисы, для осуществления первичной обработки одной или нескольких фотографий объекта с обычного телефона, помогая выстроить предварительную трехмерную модель, и тем самым упростить пользовательский ввод и сделать сервисы более доступными и популярными.

Примечания и отзывы

Те модели, что были сделаны в ходе выступления: http://dl.dropbox.com/u/3497245/AddConfMake3D.rar

Дмитрий Вихарев расширял сознание и рисовал не хуже, чем Пикассо. Круто :). ©

⚓

Студент ГУ ВШЭ делал обзорный доклад про американскую университетскую разработку. Собственно, на хабре у него есть серия из 2 статей, содержание которых полностью соответствует докладу.

ADD 2011: Отчет Василия Маслова/Построение 3D модели сцены по одному фотоснимку

⚓

Построение 3D модели сцены по одному фотоснимку. Чувак из ГУ ВШЭ рассказывал то ли свою курсовую, то ли диплом, где он обозревал технологию построения 3D-модели по одной фотографии. Технология интересная, но для этого достаточно просто 10 секунд показать как это работает.

ADD 2011: Отчет Глеба Тарасова/Построение 3D модели сцены по одному фотоснимку

Любые правки этой статьи будут перезаписаны при следующем сеансе репликации. Если у вас есть серьезное замечание по тексту статьи, запишите его в раздел «discussion».

Репликация: База Знаний «Заказных Информ Систем» → «Построение 3D модели сцены по одному фотоснимку (Дмитрий Вихарев, ADD-2011)»

Содержание

Аннотация

Видео

Презентация

Примечания и отзывы