首页科技快讯升级版的AlphaGo，玩起了量子计算

升级版的AlphaGo，玩起了量子计算

来源：晰数塔互联网快讯时间：2020年04月13日 15:44

AlphaZero是DeepMind围棋软件AlphaGo的升级版。虽然AlphaZero在围棋项目上战胜了人类选手，但所需的大量算力使其很难走进寻常人的生活。最近，丹麦和德国的研究人员使用Deepmind的AlphaZero开发了一种混合算法，将AlphaZero强大的搜索能力与量子计算有机结合起来，参数搜索速度大幅提升。

本文来自微信公众号：新智元（ID：AI_era），原标题：《下围棋so easy ，AlphaZero开始玩量子计算！》

在过去几十年量子物理技术的探索中，最引人注目的就是量子计算机。

量子计算机的能力，所有现有的计算机组合加起来都无法匹敌。但到目前为止还没有人能够制造出一台功能齐全的量子计算机。这就需要我们在控制量子系统的能力上向前跨一步。

为什么 AlphaZero 能快人一步“预知未来”？

AlphaZero一开始是专门用来下围棋的。围棋的落子位置太多了大约有10^170种。相比之下，国际象棋只有10^43种可能的走位。

所以AlphaZero使用了一个深层的神经网络，它学会了从一个特定的位置开始评估它获胜的可能性。为了获胜，AlphaZero使用蒙特卡洛树搜索，这种方法能够帮助它在游戏中“预知未来”。

由于在所有可能策略中抽样的可能性比较小，而且神经网络只能近似估计，所以特别是在其训练阶段，蒙特卡洛树搜索能够极大地提高游戏的准确性以及训练效率。

这类似于职业棋手在下棋时能够提前想几步棋。训练结果是相当惊人的，AlphaZero 很快就摧毁了专业游戏软件和人类玩家。例如，经过仅仅四个小时的自我对弈练习，AlphaZero 就在国际象棋中击败了领先的棋类软件 Stockfish。而且这完全都是从零开始，一开始AlphaZero根本不知道游戏规则。丹麦国际象棋大师Peter Heine Nielsen将其比作一个访问过地球的高级外星物种。

目前AlphaZero 已经有效地在围棋，国际象棋和星际争霸中战胜对手。AlphaZero成功的关键是将蒙特卡罗树搜索和具有前瞻性的深度神经网络结合起来。结果表明，从树下方延展出来的预测信息极大地提高了深度神经网络的精度，使预测结果更加准确集中，而非试探性的探索。

AlphaZero后发制人：30小时性能提高一个数量级

与普通计算机类似，量子计算机使用门操作（gate operations）来操纵其量子位。我们试图通过构建分段恒定的脉冲序列来实现特定的门操作，即AlphaZero必须为每个时间步长（time-step）选择一个脉冲幅度。物理系统在每个时间步长tj上都由一个4x4复杂的矩阵U(tj)进行数学描述，我们将其折叠成一个长度为32的向量。这是神经网络的输入，如图1所示。脉冲序列完成后，就可以将复数矩阵U(T)映射为一个实数，称为仿真逼真度（fidelity）F，该实数的取值在0到1之间。从本质上讲，仿真逼真度是一种概率度量，其中1表示100％成功。

图1.AlphaZero使用的MCTS（左）和深度神经网络（右）的图示

左图和右图分别演示了 AlphaZero 的树搜索和神经网络。利用树搜索中统一的搜索结果作为神经网络的输入项。神经网络的上限输出接近给定输入状态的现行策略。同时，下限输出提供了一个能够预估期望最终报酬的值函数。在我们的工作中，我们发现以一致的形式向 AlphaZero 提供物理系统的完整信息，有利于提升它的性能，尽管这种方式可能比较难以调整以适应具有较大希尔伯特空间的系统。

简言之：蒙特卡洛树搜索允许AlphaZero向前看几步，从而可以在解决方案空间中进行更全面的搜索。这使得AlphaZero在长期策略至关重要的复杂任务中比大多数其他强化学习方法更具优势。

混合了AlphaZero的量子计算，搜索速度提升500倍

AlphaZero会输给物理学家在过去15年不断完善的高度量子化的优化算法并不奇怪。但是，如果AlphaZero死在这里，会留下很多遗憾。

由于梯度优化算法没有学习功能，意味着训练过程中其性能没有逐步提高，并且所有生成的数据都将被丢弃，而不是用于后续学习。

奥胡斯大学的团队开始寻求一种混合算法：AlphaZero通过广泛的探索生成了高可用的种子对象，随后通过基于梯度的方法对它们进行优化，这种方法使解决方案的数量和质量都得到了极大的提高。

实际上，AlphaZero和梯度优化解决了不同的问题：AlphaZero能学习到解决方案的基础结构，梯度优化在种子解决方案周围的局部空间中进行优化。如果仅使用梯度优化，经过50小时的模拟，我们可能有两个或三个有前途的解决方案，但通过混合算法，可以获得一千个。

将功能强大的通用领域机器学习方法与人类专业知识、特定领域的蛮力计算相结合的结果令人振奋。国际象棋已经迈出了第一步，混合型人机团队将专家知识和Stockfish引擎结合起来，可以同时胜过人类和算法。

最近Gary Marcus和Ernest David在他们的新书《重新启动AI：构建我们可以信赖的人工智能》中提出，将领域特定方法和领域通用方法与分层的受人类启发的决策过程相结合，是未来构建强大的AI方法的核心元素之一。这可能会解决AlphaZero方法最直接的弊端之一：超参数很多，但仅在有限的范围内有用。

在一些案例中，相同的超参数集在三种量子情况下均能很好地工作，当改变问题的设定，AlphaZero将无法解决。

量子计算机利用量子并行性大幅提高了计速度，但是问题再次出现：搜索空间的控制参数成指数级增长。AlphaZero实验证明，神经网络提供的近似和不完善的解决方案可以充当本地蛮力启发式算法的强大种子生成器。

除了算法方面的优化设计，量子计算本身的性能也在飞速提升。

金子表面发现马约拉纳费米子，量子计算机时代要来了？

最近量子计算捷报频传。

丹麦、德国科学家奇思妙想用AlphaZero解决量子计算问题，MIT等科学家则在金子的表面，观测到了马约拉纳费米子，从而在将粒子分离为稳定的、防错的量子比特进行量子计算领域迈出了重要的一步，该结果发表在《美国国家科学院院刊》上。

在粒子物理学中，马约拉纳费米子是一类基本粒子，包括电子，质子，中子和夸克，它的反粒子就是它本身。由意大利理论物理学家Ettore Majorana在1937年首次提出。