Москва, 7 декабря - "Вести.Экономика"
Разработчики революционной самообучающейся системы искусственного интеллекта AlphaGo объявили о создании новой версии, нейросети AlphaZero, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Система искусственного интеллекта AlphaGo появилась в 2014 г. С тех пор ИИ победил лучших игроков в го и одержал 60 побед на двух китайских онлайн-платформах с настольными играми FoxGo и Tygem. Алгоритм состоит из двух нейросетей, которые имитируют работу нейронов в мозге.
Победы AlphaGo ознаменовали собой важный прорыв в области искусственного интеллекта, так как большинство специалистов по искусственному интеллекту считали, что подобная программа не будет создана ранее 2020—2025 гг. В марте 2016 г. программа выиграла со счетом 4:1 у Ли Седоля, профессионала 9-го дана (высшего ранга), во время исторического матча, широко освещавшегося в прессе.
Победу AlphaGo над Ли Седолем часто сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 г., где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчета новой эпохи, когда компьютеры превзошли людей в шахматах.
Теперь подразделение Alphabet по исследованию искусственного интеллекта DeepMind подробно рассказало об успехах нейросети AlphaZero, которая стала наследницей и продолжением нейросети AlphaGo, сообщается в статье журнала Science.
В отличие от предшественников, AlphaZero не сосредоточена на освоении какой-то конкретной игры, но может в кратчайшие сроки без посторонней помощи научиться играть в любую настольную игру и обыгрывать человека. На данный момент система уже умеет играть в сложнейшую го, шахматы и сёги.
Разработчики DeepMind добавили самообучение в программу для игры в го еще в 2017 г., когда выпустили предыдущее поколение алгоритма. Смысл этого обучения в том, что нейронная сеть программы не следит за поведением человека (как в первой версии AlphaGo), а играет сама с собой. Тогда AlphaGo Zero, зная лишь правила игры, за три дня "наиграла" столько удачных ходов, что со счетом по партиям 100:0 победила AlphaGo.
Нейросети были известны лишь правила игры в го, начальные условия и условия победы. Затем компьютер самостоятельно учился играть. Система обучения ИИ строилась на анализе ходов. Нейросеть запоминала те, которые приближали ее к победе, и заносила в "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолем.
Ученые встроили в AlphaGo Zero эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок новая версия нейросети непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница. После полного цикла обучения (который для го занял 13 дней) AlphaZero на испытаниях показала 16% побед (против 0,6% поражения) в шахматах, 61% — в го и 91% — в сёги.
По мнению Мюррея Кэмпбелла, который участвовал в создании компьютера Deep Blue, победившего Каспарова, следующим логичным шагом для развития искусственных интеллектов должны стать многопользовательские игры вроде Starcraft II и Dota 2. Пока команды "умных" ботов терпят там поражение. Слабой стороной искусственного интеллекта оказалась стратегия: боты реагировали на события, происходящие прямо сейчас, а не занимались долгосрочным планированием. Боты просчитывают последствия своих действий только на 14 минут вперед — у них просто нет механизма, позволяющего "заглянуть" дальше и оценить игру в целом.
Но, разумеется, на играх системы искусственного интеллекта лишь тестируют. DeepMind намерена использовать мощь системы AlphaGo и ее последовательниц для поиска лекарств от тяжелых болезней, сокращения потребления электроэнергии и разработки новых революционных материалов.
"Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства", — заявил Дэвид Сильвер, главный разработчик компании DeepMind.
Статус: |
Группа: Эксперт
публикаций 0
комментариев 1836
Рейтинг поста:
В случае с игрой вроде Старкрафта на вход в общем случае попадает картинка игрового мира. Это уже большой объём данных. Из неё надо выделить (распознать) объекты. Человек это делает с лёгкостью, для программы это нетривиальная задача. И тут уже идёт отличие - если в программу для игры в го были заложены только правила игры, остальное она сделала сама, то и тут будет неправильно программировать распознавание объектов - программа сама должна научиться это делать, по картинкам. Но для этого потребуются какие-то новые принципы хранения результата обучения. Потому что такую вариантивность может обеспечить только очень большая нейронная сеть, возможно, сравнимая по сложности с человеческим мозгом. Время обучения тоже будет огромным. Но в будущем это реально, думаю. Только нужны новые архитектурные решения специально под нейронные сети.