Исследователи компании Meta представили алгоритм искусственного интеллекта Cicero, который играет в настольную стратегию «Дипломатия» на уровне с людьми. Об этом пишет The Register.
«Дипломатию» разработали в 1953 году. Игра фокусируется на общении и переговорах между участниками. Каждый из них выполняет роль одного из семи европейских государств начала XX века.
По сути, Cicero — это чат-бот, который ведет переговоры с другими участниками для совершения эффективных ходов. Алгоритм основан на языковой модели, подобной BART, с 2,7 млрд параметров.
Его предварительно обучили на текстах из интернета, а также набора данных из более чем 40 000 партий в «Дипломатию», сыгранных онлайн. Датасет содержал более 12 млн сообщений, которыми обменивались люди в процессе игры.
Скриншот игрового процесса «Дипломатии», в котором участвовал ИИ-агент Cicero. Данные: Meta.
Вывод диалога ИИ-агента привязан к его модулю стратегического мышления. С его помощью Cicero создает «намерения», представляющие возможный набор ходов различных игроков.
«Модуль стратегического мышления предсказывает политику других игроков [вероятные действия] для текущего хода на основе состояния доски и общего диалога, а затем выбирает для себя политику на текущий ход», — рассказали исследователи.
В отличие от ИИ-агентов для шахмат, исследователи применили контролируемое обучение, используя данные прошлых партий. Однако сам по себе подход создавал доверчивую модель, которой легко могли манипулировать недобросовестные игроки, заявили исследователи.
Для предотвращения подобных ситуаций разработчики подключили к Cicero алгоритм итеративного планирования piKL. С его помощью ИИ-агент уточняет первоначальный прогноз политики другого игрока и запланированных ходов на основе диалога между ботом и людьми. Алгоритм пытается улучшить ожидаемые наборы действий участников, оценивая различные варианты, которые дадут лучшие результаты.
В течение двух месяцев исследователи протестировали Cicero в 40 анонимных партиях в «Дипломатию». По результатам испытаний ИИ-агент вошел в 10% лучших участников, сыгравших более одного раза. В рейтинге пользователей, сыгравших пять и более партий, алгоритм занял второе место.
Во всех 40 играх средний результат Cicero составил 25,8%, что более чем в два раза превышает средний показатель (12,4%) среди 82 его противников.
Чемпион мира по «Дипломатии» Эндрю Грофф высоко оценил бесстрастный подход алгоритма к игре.
«Многие люди смягчат свой подход или начнут мстить, но Cicero никогда этого не делает. Он просто проигрывает ситуацию так, как он ее видит. Поэтому он безжалостен в реализации своей стратегии, но не безжалостен в том смысле, который раздражает других игроков», — сказал он.
По словам разработчиков, Cicero все еще допускает некоторые ошибки. Однако они ожидают, что их исследования окажутся полезными для других приложений вроде чат-ботов для длительных бесед или создания реалистичных персонажей видеоигр.
Также Meta выпустила исходный код Cicero для того, чтобы любой желающий мог внести вклад в его развитие.
Напомним, в ноябре техгигант отключил «ИИ для науки» спустя три дня после запуска. Алгоритм обвинили в генерировании фейков и дезинформации.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!