ОКО ПЛАНЕТЫ > Новости науки и техники > ИИ как главный помощник человека: от распознавания объектов до компьютерных игр

ИИ как главный помощник человека: от распознавания объектов до компьютерных игр


12-02-2020, 14:14. Разместил: Редакция ОКО ПЛАНЕТЫ

На современном рынке онлайн-сервисов все чаще звучат слова о высоких технологиях. Они предугадывают желания пользователя и делают всё, чтобы максимально упростить его жизнь. Сегодня ИИ проник уже во все сервисы — от почты до распознавания объектов на изображении, став одной из главных технологий, автоматизирующих рутинные действия, помогающих человеку в бытовой жизни и работе. Ведущий программист-исследователь Mail.ru Group Андрей Бояров объясняет, какие именно технологии сегодня используют ИТ-компании, при чем здесь машинное обучение и чего нам ждать от искусственного интеллекта через пять лет.

В большинстве случаев искусственный интеллект воспринимается как некий сверхразум, который в ближайшее время будет встроен в роботов, заменит человеческий труд, а то и вовсе поработит мир. Обычных людей путают маркетологи, авторы фантастики и режиссеры фильмов, хотя на самом деле у ИИ совсем другое определение.

В наши дни искусственным интеллектом считают скорее философское понятие, уходящее корнями в 40–50-е годы XX века. Непосредственно в индустрии сейчас занимаются машинным обучением. В него входит ряд классических прикладных дисциплин — статистика, теория оптимизации, теория игр и прочие. Когда есть задача, которую нельзя решить алгоритмом «если происходит A, следует сделать B», на помощь приходит машинное обучение.

ИИ принято разделять на два направления: слабый и сильный. Слабый ИИ выполняет любую конкретную задачу, которую ему поставит человек — определить, что изображено на фотографии, перевести слово с одного языка на другой или сообщить о преграде во время поездки на автопилоте. Основные разработки ведутся именно в этом направлении, и, надо добавить, не без впечатляющих результатов. Сильный ИИ — интеллект, превышающий человеческий на большом спектре когнитивных (мыслительных) задач. Чаще всего его показывают в кино — это тот самый «Скайнет» из «Терминатора», HAL 9000 из «Космической Одиссеи», сверхразум, который способен самостоятельно анализировать знания и опыт и принимать решения в незнакомых и непредсказуемых ситуациях без помощи человека.

Разработки и использование технологий машинного обучения ведутся с конца 80-х — начала 90-х годов XX века. Но семь лет назад случился настоящий бум в использовании нейронных сетей. В 2012 году группа ученых из Университета Торонто под руководством Джеффри Хинтона обучила глубокую нейронную сеть на большом объеме данных. Новый подход стал прорывом в индустрии — deep learning (или глубокое обучение) позволило обучать нейронные сети на прежде невозможных массивах информации и получать отличные результаты.

Как распознаются объекты на снимках. Опыт Облака Mail.ru

В Облаке Mail.ru доступны такие функции, как распознавание лиц, объектов, сцен и достопримечательностей на изображениях. За распознавание отвечают глубокие сверточные нейронные сети — сети, особенно качественно анализирующие изображение. Прежде, чем запускать в работу, сеть необходимо обучить. Она состоит из миллионов параметров, с помощью которых совершается множество преобразований со входным изображением. Во время обучения эти параметры автоматически настраиваются. За сам процесс отвечают люди. Специалисты готовят базу данных с тысячами фотографий, размечают их, а затем начинают обучать сеть. Так называемое обучение с учителем — на данный момент главный качественно работающий метод обучения нейронной сети к выполнению задачи распознавания. В Mail.ru Group над машинным обучением работают сразу несколько команд — почты, поиска и машинного зрения.

Сверточная нейронная сеть — специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения. Использует некоторые особенности зрительной коры, в которой были открыты так называемые простые клетки, реагирующие на прямые линии под разными углами, и сложные клетки, реакция которых связана с активацией определенного набора простых клеток. Идея сверточных нейронных сетей заключается в чередовании сверточных и субдискретизирующих слоев.

Если смотреть глубже, процесс распознавания объектов выглядит так. Пользователь делает снимок и загружает его в облако. Попадая в сервис, картинка сжимается до специальных входных размеров — стандартных 256х256. Сеть может работать с любым размером изображений, но сжатые до таких параметров снимки позволяют экономить время на обработку и более эффективно использовать данные. Кроме того, такого размера хватает для распознавания почти любого объекта. Итак, картинка сжалась, прошла первичную техническую обработку и начала проходить через уже обученную нейронную сеть. После анализа изображения сеть дает процент совпадения предполагаемого объекта на фото с классами, на которых она обучалась. Где вероятность самая высокая, тот объект и выбирается, а изображение добавляется в соответствующий альбом на устройстве пользователя.

Похожие алгоритмы лежат в основе определения лиц, объектов, сцен, однако у достопримечательностей есть некоторое отличие. Обучение нейронной сети происходит на размеченных изображениях разнообразных известных и не очень мест в мире. Сложность возникает в ракурсах съемки, когда один и тот же памятник или собор может быть снят с разных точек. В этом случае используется результат работы нейронной сети — числовой вектор. Он обладает свойством, «описывающим» входное изображение — чем лучше была обучена сеть, тем лучше это описание. В него могут входить ключевые характеристики зданий, ландшафта, окружающих объектов и прочее. Для каждой достопримечательности из базы обучения посчитаны такие векторы (иногда даже несколько на достопримечательность), которые сравниваются в рамках оценки входного изображения. Векторы можно сравнить и получить ответ, ближе ли то, что изображено на входном изображении, к Эйфелевой башне или фонтану Треви.

Как ИИ работает со звуком

Обработка звуков — еще одно возможное применение искусственного интеллекта. Например, в работе голосовых ассистентов — Siri, Google Assistant, Alexa и прочих. Ведущие технологические компании ведут разработки в этой области. Исключением не стала и Mail.ru Group. В июне 2019 года корпорация представила «Марусю».

Все умения цифровых помощников можно условно разделить на три группы. Каждая из групп подключается по мере развития диалога с пользователем и отвечает за определенный набор скиллов: первый блок обрабатывает запрос, второй отвечает за поиск решения, а третий демонстрирует результат.

На старте живого общения с пользователем для голосового помощника самая сложная и важная задача — правильно интерпретировать запрос. Человеческая речь состоит из миллионов сочетаний звуков, нельзя забывать и про индивидуальные особенности произношения и интонации. В связи с этим помощники должны учится, бесконечно анализируя человеческую речь. Например, для «Маруси» обучение с учителем состоит из непрерывного общения с пользователями и редакторами, прослушивания голосовых и музыкальных записей. Чем больше разных звуковых данных она обрабатывает, тем проще с ней общаться, в том числе и маленьким детям, которые плохо выговаривают часть звуков. Согласно общепринятой системе оценки распознавания речи Word Error Rate, у «Маруси» процент удачного распознавания приближается к человеческому, хотя для ИИ это не предел.

Получив звуковой запрос, голосовой ассистент переводит его в текст и начинает готовить ответ. На этом этапе подключаются диалоговые системы, которые помогают поддерживать иллюзию разговора с живым человеком. Вопросы к ассистенту отличаются от запросов в браузере — люди привыкли задавать их как человеку, на естественном языке. Помогает в этом как раз машинное обучение с учителем.

После того, как диалоговая система классифицирует запрос, подключаются поисковые механизмы. Чаще всего, когда помощники не понимают, что от них хотят, они просто перекидывают пользователя в браузер. «Маруся» поступает иначе, она показывает первые результаты выдачи поисковика в своем интерфейсе, чтобы не прерывать беседу.

Финальная часть работы голосового ассистента — синтез, то есть вывод и озвучивание результата. Это не менее сложный, математически выверенный процесс, чем распознавание речи. Говорить по-человечески, с интонациями, близкими к естественным, «Марусе» помогают машинное обучение и нейронные сети.

Как ИИ работает в почтовых сервисах

В сервисах, которые давно знакомы пользователям, тоже есть искусственный интеллект — например, в почте. Привычный аккаунт, куда приходят квитанции ЖКХ, чеки за онлайн-покупки, документы, письма от коллег и друзей, весь пронизан технологиями машинного обучения. Современные сервисы используют для упрощения жизни пользователя и повышения безопасности его данных.

В Почте Mail.ru реализовано несколько таких решений. Одна из них — умная группировка писем. Благодаря машинному обучению сервис понимает смысл сообщения и отправляет его в нужную папку — «Социальные сети» и «Другие рассылки» (магазины, ЖКХ). Владельцу аккаунта не надо тратить время и скроллить ленту входящих, чтобы найти необходимое письмо.

Экономить время пользователя помогает и другой инструмент — технология быстрых ответов Smart Reply. Машина анализирует смысл сообщения и предлагает на выбор несколько вариантов ответа, подходящих под содержание конкретного письма. Кроме того, в почте реализованы возможности компьютерного зрения. Специальные алгоритмы самостоятельно распознают документы по соответствующим признакам: цветовое исполнение, знаки, узоры или линии, наличие лица, номера. При поиске система покажет необходимый файл, даже если в его названии или в связанном сообщении отсутствуют слова-маркеры.

Особое место в работе сервиса занимает безопасность данных пользователей. Весь процессинг почты непрерывно мониторят несколько мощных систем. Они работают на основе машинного обучения и моментально реагируют на любую попытку взлома. К примеру, нейронная сеть Marshal запоминает характерное поведение владельца почты на основе 100 параметров — когда он открывает аккаунт, откуда заходит. Если злоумышленник получит доступ к почтовому ящику, система определит, что пользователь действует не по своему привычному алгоритму, и ящик тут же заблокируется. Кроме того, у злоумышленников не получится подделать письмо якобы от имени известной компании — сервис выучил, как выглядят логотипы популярных магазинов, банков, так что преступники не узнают ни данные банковской карты, ни пароль от почты.

Где еще применяется искусственный интеллект

Сейчас активно применяется подход обучения ИИ с учителем. Однако цель многих компаний сегодня — научить машину наблюдать, делать выводы и развивать свои навыки без прямого сигнала от человека. Частично это уже реализовано. Так называемое обучение с подкреплением — например, нейронная сеть проходит уровни в компьютерной игре, совершает ошибки, получает какой-либо ответ от среды, а затем снова и снова пытается дойти до конца, и так миллионы раз. Недавний пример — разработка команды DeepMind: одно из подразделений Google представило миру искусственный интеллект AlphaStar (наследницу AlphaGo), способный играть в StarCraft II на уровне лучших мировых игроков. Некоторые специалисты уверены, что такие успехи в работе с ИИ в будущем помогут обучать роботов и управлять ими — например, Boston Dynamics, Amazon, китайская Meituan строят прототипы дронов для доставки товаров в труднодоступные места.

Еще одно важнейшее направление применения ИИ, которое, скорее всего, в ближайшее время появится в нашей жизни, — биометрия по лицу. Сейчас большое количество компаний по всему миру, включая Россию, активно работает над подобными технологиями. В скором времени они могут найти свое применение в аэропортах, банковских приложениях или на проходных бизнес-центров.

Несмотря на такие довольно очевидные предположения, важно отметить, что направление ИИ очень быстро развивается, так что прогноз по его развитию постоянно корректируется. Впрочем, одно сказать можно точно: пока такие технологии, в том числе компьютерное зрение, будут использоваться в дополнение к полезным сервисам: умные колонки, доставка с помощью дронов, магазины без касс, восстановление архивных снимков, автопилоты и биометрические приложения.

https://hightech.fm/2020/02/11...


Вернуться назад