Компьютеры пока еще являются инструментами, не наилучшим образом подходящими для реализации технологий распознавания визуальных образов различных объектов. Наилучшим "распознавальщиком" является наш мозг, способный моментально сопоставить видимый образ с имеющимся в его памяти образом-шаблоном, задействовав при этом абстрактное представление и интуицию. Но такое положение дел не помешало ученым-нейробиологам и программистам за последние 40 лет производить попытки создания компьютерных нейронных сетей, работа которых подражает работе нашего мозга. А последние достижения в области создания высокопроизводительных вычислительных систем, алгоритмов построения самообучающихся нейронных сетей ускорили этот процесс до того момента, когда группе исследователей из Массачусетского технологического института удалось создать компьютерную нейронную сеть, возможности которой в области распознавания визуальных образов практически сравнялись с возможностями мозга некоторых видов животных-приматов.
Данное достижение имеет огромное значение не только для технологий цифровой обработки изображений, используемых в многочисленных программах, сервисах типа Google Images и Яндекс.Картинки. Компьютерные нейронные сети, работающие подобно человеческому мозгу, могут стать одним из тех мостов, которые будут связывать системы искусственного интеллекта с реальным окружающим миром. Кроме этого, разработка подобной нейронной сети является доказательством того, что ученые-нейробиологи знают достаточно много о работе функции распознавания объектов в мозге живых существ.
Свою работу исследователи из Массачусетского технологического института начали с тщательного изучения работы мозга приматов. Они внедрили множество электродов в области мозга подопытного животного-примата, которые отвечают за обработку визуальной информации. Это позволило ученым снимать картину деятельности мозга с высокой разрешающей способностью, вплоть до уровня отдельных нейронов. Перед глазами подопытных животных был прокручен видеоролик, состоящий из 1960 чередующихся изображений, при этом, время между сменой изображения составляло 100 миллисекунд. Такого времени мозгу животного достаточно для выполнения распознавания объектов, но недостаточно для осмысления увиденной картины.
Полученные результаты были сравнены с результатами подобной деятельности компьютерной нейронной сети, на вход которой подавалась та же самая последовательность изображений, а на выходе появлялись числовые последовательности, соответствующие объектам на входных изображениях. Последовательность чисел, представленная в виде матрицы, описывает группировку подобных объектов, и нейронная сеть справилась с этой задачей весьма точно.
"Посредством каждого из вычислительных преобразований, выполненных каждым слоем нейронной сети, определенные объекты сближаются друг с другом, формируя обособленные скопления подобных объектов" - рассказывает Шарль Кадие (Charles Cadieu), ведущий ученый данного проекта, - "Созданная нами вместе со специалистами Нью-Йоркского университета нейронная сеть классифицировала визуальные объекты на уровне, сопоставимом с мозгом макаки-резуса".
Единственным темным пятном во всем этом является то, что ученые не имеют ни малейшего понятия о том, что происходит в недрах созданной ими нейронной сети. Эта нейронная сеть прошла процесс обучения на миллионах и миллиардах изображений, пропуская визуальную информацию сквозь "жернова" процессоров обработки графических данных, подобных тем, которые используются в современных видеокартах. И никому не известно, какие связи образовались между нейронами сети и как они работают из-за того, что эти сети сами совершенствуют собственные алгоритмы.
Теперь, когда известно, что нейронные сети могут сравниться с животными-приматами, а это, согласитесь, достаточно хороший уровень, ученые могут пытаться использовать такие же подходы и технологии и в несколько других областях, также связанных с процессами самообучения. А ученые из Массачусетского технологического института планируют создание новых нейронных сетей, которые будут заниматься обработкой визуальной информации, выполняя функции распознавания жестов, движений и определения форм различных трехмерных объектов.