Персональные инструменты
 

Построение 3D модели сцены по одному фотоснимку (Дмитрий Вихарев, ADD-2011)

Материал из CustisWiki

Версия от 17:31, 23 мая 2011; StasFomin (обсуждение | вклад) (Примечания и отзывы)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Это снимок страницы. Он включает старые, но не удалённые версии шаблонов и изображений.
Перейти к: навигация, поиск

Аннотация

Докладчик
Дмитрий Вихарев

Проект из Stanford University («переехавший» в начале 2010 года в Cornell University) «Make3D», примечателен тем, что поставил перед собой пока еще не ставшую типичной задачу восстановления трехмерной модели сцены всего из одного фотоснимка. До сих пор, чтобы добиться подобного результата, разработчики восстанавливали трехмерную информацию, комбинируя несколько (два и более) снимков одного и того же объекта с разных ракурсов. В данном же проекте уже продемонстрировано, что значительный объем информации содержится в монокулярных признаках (monocular cues) самого изображения, которые до этого зачастую игнорировались.

В качестве особенностей метода можно выделить то, что он не опирается ни на какие базовые предположения о структуре сцены и объектов находящихся на ней. Модификация алгоритма с учетом подобных условий, для заранее известного класса сцен, может только улучшить результат.

Для создания системы авторы воспользовались алгоритмами машинного обучения – случайными полями Марковского типа (MRF: MarkovRandomField), в которых учитываются не только локальные особенности участков фотографии («суперпикселей»), а также окружающий их контекст, и всевозможное варианты взаимного расположения участков фотографии («суперпикселей»):

Соединения
скорей всего два «суперпикселя» будут вплотную соединены (угол дома), нежели далеко разнесены в пространстве (забор и дом за ним);
Копланарность
если два «суперпикселя» имеют схожую структуру и граница между ними не очень четкая, то очень вероятно, что они принадлежат одному объекту и лежат в одной плоскости (продолжение стены);
Коллинеарность
длинные прямые на двумерной фотографии скорей всего будут так же длинными прямыми и в трехмерной модели сцены.

Данный доклад – о том, как устроена эта система, каким образом учтены все эти многочисленные параметры и что в итоге из этого получается.

В практической реализации авторам уже удалось добиться удовлетворительных результатов более чем на 60% произвольных фотоснимков, предоставленных и оцененных сторонними пользователями системы при проведении ее испытаний.

В перспективе подобный проект, на мой взгляд, может найти применение в самых различных областях. Например, для улучшения способности роботов ориентироваться в пространстве, добавления трехмерных сцен в компьютерных и видеоиграх, расширения возможностей автоматизированных систем видеонаблюдения, системах складского учета и т.д.

В качестве одного из самых наглядных примеров, достаточно рассмотреть распространенные сервисы, наподобие Google Street View или Bing Maps 3D, в которых доступны объемные трехмерные изображения зданий, но в основном - только для центральных улиц, остальная же часть местности, как правило, остается без внимания, не говоря уже о внутренних помещениях больших супермаркетов и складов.

В современном Интернете содержание для многих сервисов добавляют сами пользователи. Google и Microsoft уже разрабатывают продукты «SketchUp» и «3DVIA Shape» соответственно, чтобы люди могли самостоятельно строить трехмерные модели зданий, которые их окружают. Подобный проект мог бы гармонично вписаться в эти сервисы, для осуществления первичной обработки одной или нескольких фотографий объекта с обычного телефона, помогая выстроить предварительную трехмерную модель, и тем самым упростить пользовательский ввод и сделать сервисы более доступными и популярными.

Видео

Видео в HD-качестве, смотрите в полноэкранном режиме.

HTML-код включения <iframe src="http://player.vimeo.com/video/24105536?byline=0&portrait=0" width="720" height="405" frameborder="0"></iframe>

Скачать
http://ftp.linux.kiev.ua/pub/conference/peers/addconf/2011/2b9-building-3d-model-by-one-photo-vikharev.avs.avi


Для этого доклада нужен подкаст (аудиозапись)?

  •  Да, многое понятно и без видео части, есть смысл его прослушать.
  •  Нет, аудиозапись бесполезна (не понять без видео или вообще мало смысла в докладе).


Примечания и отзывы


Дмитрий Вихарев расширял сознание и рисовал не хуже, чем Пикассо. Круто :). ©

Студент ГУ ВШЭ делал обзорный доклад про американскую университетскую разработку. Собственно, на хабре у него есть серия из 2 статей, содержание которых полностью соответствует докладу.

Построение 3D модели сцены по одному фотоснимку. Чувак из ГУ ВШЭ рассказывал то ли свою курсовую, то ли диплом, где он обозревал технологию построения 3D-модели по одной фотографии. Технология интересная, но для этого достаточно просто 10 секунд показать как это работает.


Призыв к зрителям!

Мы призываем всех зрителей видеозаписей докладов давать хоть какой-нибудь, желательно конструктивный feedback.

Где? — неважно. В блогах, в форумах, в комментах — пофиг, лишь бы можно было найти, например, поиском по блогам, по ключевому слову «ADD-2011» (ну и/или по названию доклада).

Что-то побольше твиттер-вскрика, хотя бы пару абзацев. Да, иногда краткая характеристика бывает достаточной («маркетинговый булшит», «унылый самопиар» — обычно в адрес «спонсорских докладов»), но это очень, очень редко, а так хочется прочитать что-то большее, чем «сижу на XXX, говорят о YYY».

Что писать? Что хорошо, что плохо («плохо» неудачное слово, скажем, «неправильно на ваш взгляд»), как вы поняли то, что рассказано, как это спроецировалось конкретно на вас — все это фантастически важно и полезно:

  • Другим потенциальным зрителям (смотреть/не смотреть, «правильно ли я понял»).
  • И докладчикам:
    • «Правильно ли меня поняли»,
    • «Что я делал правильно, а что улучшить»
    • Даже критический отзыв лучше, чем никакого!
    • Плюс — это мотивация, это награда за немалый труд многие готовятся долго, раскрывают свой опыт, старательно делают слайды, репетируют выступление — и ради чего? двадцать минут театра перед парой десятков зритетелей и все?
  • Организаторам конференций (этой и других) — они внимательно следят за отзывами, и пытаются понять, кого имеет смысл звать («рубит фишку и жжет!»), а к кому отнестись скептически, и если брать, то, например, «прокачать в части выступлений» — мы, например, старались это делать, итеративно рецензировали слайды, рассылали подборку литературы о правильных слайдах и искусстве выступлений.
  • Безотносительно лично докладчиков — важно понять, исчерпала себя тема или для народа еще остаются откровениями то, что для более пресыщенных инфопотоками людей (а организаторы обычно такие) уже выглядит как «аццкий боян». Ну и вообще — что еще интересно, и что было бы интересно услышать-увидеть-пообщаться на тему о…
  • Ну и кстати, мне тоже важно — вообще имел ли смысл весь этот сыр-бор с сьемкой, видеомонтажем и обработкой и публикацией (это, вообще-то дорогая работа, расценки профессионалов в этой области весьма недетские, при том, что до этого уровня монтажа им, как правило очень далеко), или кроме участников конференции эти темы никому не интересны. Может есть какие-то косяки в видео? или предложения как сделать лучше? — связывайтесь со мной, возможно это можно будет исправить (или хотя бы вырезать). Это кстати относится и к докладчикам — если есть какие-то позорные неудачные моменты, или что-то не нравится — это можно убрать.


Любые правки этой статьи будут перезаписаны при следующем сеансе репликации. Если у вас есть серьезное замечание по тексту статьи, запишите его в раздел «discussion».


Репликация: База Знаний «Заказных Информ Систем» → «Построение 3D модели сцены по одному фотоснимку (Дмитрий Вихарев, ADD-2011)»