Программа, разработанная «гугловским» подразделением DeepMind, умеет с нуля проходить видеоигры и во многих случаях превосходит лучших геймеров. Как пишет Xrust, разработанный искусственный интеллект следует отличать от программы Deep Blue. Если в ИИ «шахматиста» правила игры были заложены изначально, то детище подразделения Google обучается побеждать самостоятельно.
Система компьютерного самообучения получила название Deep-Q-Network (DQN). В ней были объединены два типа машинного обучения. Первый из них использует архитектуру мозга, в которой связи между слоями искусственных нейронов укрепляются по мере приобретения опыта. Этот тип, называемый глубинным обучением (deep-learning systems), — система восприятия, принцип работы которой напоминает зрение животных: программа проводит глубокий анализ пикселей на экране после совершенных ею действий. Нечто похожее сейчас используется в Google Translator и в алгоритме поиска по картинкам. Второй тип машинного обучения называется обучением с закреплением (reinforcement learning). Это математический аналог обучения с подкреплением (или поощрением), вдохновленный биологической системой дофаминового вознаграждения, благодаря которой люди и животные осваивают новые навыки: каждое новое эффективное действие получает поощрение. В случае DQN наградой являются очки в игре: пробуя различные действия, система запоминает те комбинации, которые приносят максимум очков.
На понимание особенностей новой игры у искусственного интеллекта уходит порядка 600 попыток или около двух недель. По результатам эксперимента ИИ успешно освоил набор из 49 игр, состоящий из шутеров, гонок и сайд-скроллеров. Во многих случаях программа придумала такие стратегии прохождения, которые исследователи даже не могли себе представить! Если раньше искусственный интеллект всегда проигрывал человеку в играх наподобие Breakout или Space Invaders, где для получения рекордного счета необходимо искать сложные стратегии, то DQN сумела обыграть живых экспертов в 60% игр: она набрала на треть больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — больше вo впечатляющие 200 раз!
Процесс обучения лучше всего продемонстрирован на примере вышеупомянутой Breakout. Поначалу ИИ часто пропускает мяч, но по мере накопления опыта понимает, что наиболее выгодная стратегия — это пробивание структуры по бокам и запуск мяча в нишу за ней, чтобы он там постоянно отбивался и крушил блоки, набирая максимум очков.
Однако игры 80-х — это всего лишь «полигон». Разработчики не собираются останавливаться на достигнутом и намерены обучить DQN играть в более сложные игры, например, WarСraft и StarCraft. В отдаленной же перспективе исследователи планируют создать искусственный интеллект, который бы совершал действия в новой игре, исходя из опыта уже пройденных игр. Так поступают дети: научившись играть в Pong, легче освоить Breakout.