Российские математики и программисты создали универсальную нейросеть, способную улучшить работу систем компьютерного зрения на беспилотниках, разрабатывая приложение для распознавания документов с помощью смартфонов, сообщила пресс-служба компании Smart Engines.
«Если говорить простым языком, в новую архитектуру в виде математических ограничений заложены законы перспективы. Этот новый подход ведет к интуитивному пониманию нейросетью геометрических законов физического трехмерного мира, законов перспективы и динамики изменения изображения сцены при движении», – передает ТАСС сообщение компании.
За последние годы ученые разработали десятки нейросетей, способных распознавать препятствия и вычислять оптимальную траекторию движения для автономных автомобилей и беспилотников.
Как правило, каждая подобная система приспособлена для решения конкретной задачи, из-за чего они достаточно плохо справляются с другими проблемами, отличными от исходной.
Коллектив российских ученых под руководством Дмитрия Николаева и Владимира Арлазарова, заведующих лабораториями в Институте проблем передачи информации РАН и Федеральном исследовательском центре «Информатика и управление» РАН, случайным образом создали универсальную нейросеть, способную одинаково хорошо решать все эти задачи. Исследователи разрабатывали приложение для распознавания документов.
Как отмечают исследователи, главная сложность при создании подобной программы заключается в том, что ее пользователи фотографируют документы не идеально ровно, а под некоторым углом. В результате этого алгоритм или человек видит не плоскую картинку, а трехмерное изображение с некоторой перспективой.
Для последних это обычно не составляет проблемы, однако создание систем искусственного интеллекта, способных решать эту обыденную задачу, обычно требует включения нескольких десятков или даже сотен дополнительных слоев нейронов.
Арлазаров, Николаев и их коллеги решили эту проблему, используя несколько новых математических принципов.
По словам исследователей, этот алгоритм можно применять не только для распознавания документов или улучшения работы автопилотов дронов и автомобилей, но и для анализа медицинских фотографий, получаемых при помощи томографов, а также в других областях науки и техники, где компьютерное зрение пока не применяется.