CCFADLOnline5——Suphx-Superhuman-Mahjong-AI

Pushing the Frontier of Game AI

主讲老师:刘铁岩博士,微软亚洲研究院副院长

DeepBlue

mimax, $\alpha \beta$ Search 算法

本质上是一种搜索,主要由硬件实现了剪纸。

AlphaGO

先用专家标识的有监督学习。

蒙特卡洛书搜索,

Notes

AlphaGo Zero: Removing Human Knowledge

Libratus: Superhuman Poker Player

德州扑克,相较于前两者,最主要的是信息的不完整性。而且由于这样信息的不完整性,还会有一些技巧,比如“诈胡”。

Challenge

  • Imperfect information

Key Technologyies

  • 游戏的抽象简化,求纳什均衡解
  • 子博弈(Subgame solving)

Game Abstraction and Blueprint Strategy

由于原有

纳什均衡概念:形象理解,博弈中的任何一方,如果不采取这个策略(另一者采取了),则会吃亏。

前面两轮用粗略的 Blueprint Strategy(纳什均衡)处理,然后转向状态空间细化的搜索。

Pluribus: Playing Multiplayer Poker

多人,从博弈策略转向一种学习的

启发

从完美信息博弈(Perfect-information),和非完美信息博弈(Imperfect-information)。

选择 Mahjong 的原因(Why Mahjong as the Next Big Thing?):

  • 历史长,玩家基数大
  • 非完美信息博弈,有相当大的不可见信息量(看不到 3 个人每个人 13 张手牌)

Why Mahjong So Challenging?

策略,局次间的结构,不同局次的策略选择等等。

Suphiex

Mahjong 101

日麻规则介绍

Suphx(Super Phoenix):

决策流图

麻将状态

Mahjong State

  • Tile set
    • Private tiles
    • Open hand
    • Doras
  • Sequence of discarded tiles
  • Integer information
    • Accmulated round score
    • Number of tiles left
  • Categorical information
    • Round id
    • Dealer
    • Counter of..

Channel-based Feature Representation

Look-ahead Features

做一些向前看的工作,

Model Architecture

网络架构

和 AlphaGo 类似,使用了专家经验(天凤平台提供的 log)

Distributed RL system in Suphx

Use Perfect Information to Accelerate Training

使用完美信息来加速训练,先知信息。。

完美信息与局部信息的引申,对于同声传译来说,没有看到完整句型就进行翻译,实际上也是一种利用局部信息推测的行为,如果我们训练这样的同声传译 AI,就要考虑这一层。

Policy Adaptation

参数化的方式,做有限次的 Sampling 和模型的更新。

追求的是 LongTerm Rewared

游戏 AI 的前瞻

非完美信息博弈。桥牌相关(但是目前没有个很好的平台)

Q&A

  1. Q1: 如果训练过程中没有 Perfect Information 可以利用,对 Oracle Guiding 的影响是什么样的?

    如果没有 Perfect Information 的话就没有 Oracle Guiding 一说了,会减慢收敛的过程。我们的研究中做了对比,没有 Perfect Information 是可以进行的(一般强化学习),只是需要进行更多的轮数。

  2. Q2: 牌谱链接,更多相关消息?

    天凤平台上,可以查到过去的棋局。

  3. Q3: AI 会不会考虑对手模型,是否研究对手风格?

    在工作中没有对对手进行建模,比如对手的牌序,但是整体 State 的描述中涉及了很多对手出牌的 Feature,所以理论上是对对手风格有考量。但是没有直接向对手(人)进行建模,这是一个值得讨论的问题。建模,难,但是不是不可能。