Нейросеть научили ставить геотег на снимки еды и котиков
Разбиение поверхности Земли по числу фотографий в каждом квадрате.
Изображение: Tobias Weyand et al./ arXiv.org
Коллектив ученых из Google и Рейнско-Вестфальского технического
университета Ахена создал программу PlaNet, которая по фотоснимку
(любому, даже изображению еды или домашнего животного) определяет, в
какой точке Земли он был сделан. Новый алгоритм основан на обучении
искусственной нейронной сети и отличается от предшественников тем, что
опирается не только на какие-либо хорошо известные
достопримечательности, а использует весь доступный комплекс деталей,
например, пейзаж, цвета, особенности архитектуры, присутствие
характерных животных и растений. Препринт работывыложен на arXiv.org.
Авторы собрали базу из 126 миллионов фотографий с доступными тегами геолокации, а затем разбили поверхность
земли на квадраты так, чтобы на каждый из них приходилось не более
10000 снимков. Таким образом, сетка разбиения была реже в малонаселенных
регионах и гуще, например, в крупных городах. Квадраты, на которые
приходилось меньше 50 фотографий (океаны, крайний север), в работу
вообще не включали.
Используя три четверти отобранных фотографий, исследователи обучали сверточную нейронную сеть,
которая на выходе выдавала распределение вероятностей по квадратам: чем
больше значение, тем больше вероятность, что снимок был сделан в этом
регионе. Параметры подбирались так, чтобы для фото с известным геотегом
вероятность в «нужном» квадрате стремилась к 100 процентам, а во всех
остальных — к нулю.
Примеры фотографий, которые наиболее точно опознала PlaNet.
Изображение: Tobias Weyand et al./ arXiv.org
Поделиться
Оставшуюся четверть снимков использовали для проверки
работоспособности сети. Оказалось, что 3,6 процента все фотографий
программа может опознать с точностью до улицы, 10,1 процента — в
пределах города, 28,4 процента — с точностью до страны и 48 процентов —
до континента. При этом, если среди ответов смотреть не на одного, а на
пять лучших претендентов, эта точность повышалась почти в два раза.
Авторы также устроили соревнование между PlaNet и людьми. Для этого использовались данные игры Geoguessr,
в которой пользователям предлагают определить местоположение на карте,
пользуясь панорамами улиц. При этом не разрешалось «осматриваться»
вокруг или переходить к соседним панорамам. По итогам 50 раундов PlaNet
выиграл 28 раз, при этом его средняя ошибка составила 1131,7 километров.
Люди ошибались в среднем на 2320,75 километров.
Среди преимуществ PlaNet ученые отмечают независимость от крупных
достопримечательностей, а также то, что снимок не обязательно должен
быть сделан в черте города. Кроме того, в аналогичных программах чаще
всего выбирается единственный вариант местоположения, тогда как PlaNet
выдает распределение вероятностей по нескольким регионам, что позволяет
оценить характерную погрешность.
Из предшественников PlaNet можно назвать Im2GPS.
В рамках этого проекта местоположение определяется при помощи сравнения
заданного снимка с базой Flickr. Кроме того, ранее для решения этой
задачи использовались комбинации снимков с земли и с воздуха, а также анализ локальных объектов, присутствующих на фотографии (PDF). Особенно необычным было решение проекта Skyline2GPS: авторы сравнивали линию горизонта на фотографии с трехмерной моделью города.
Тарас Молотилин Источник: cont.ws.
Рейтинг публикации:
|