AI 周报：快手开源斗地主 AI；人工智能之后，“智能物质” 计算崛起；GPT-3 问世这一年

2021-06-25 学术头条

近日，快手 AI 平台部的研究者用非常简单的方法在斗地主游戏中取得了突破，几天内就战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。而且，复现这个研究只需要一个普通的四卡 GPU 服务器。

一、技术理论前沿

1. 人人皆可二次元！小姐姐生成不同风格动漫形象，肤色、发型皆可变

在 GAN 迁移领域，研究人员可以构建一个以人脸图像为输入并输出人脸动漫形象的映射。相关的研究方法已经出现了很多，如腾讯微视此前推出的迪士尼童话脸特效等等。

近日，来自伊利诺伊大学香槟分校的研究者提出了一种新的 GAN 迁移方法 GANs N’ Roses（简写为 GNR），这一多模态框架使用风格和内容对映射进行直接的形式化（formalization）。简单来讲，研究者展示了一种以人脸图像的内容代码为输入并输出具有多种随机选择风格代码的动漫形象。

从技术上来讲，研究者基于对内容与风格的简单和有效定义中得出了对抗性损失，它保证了映射的多样性，即可以从单一内容代码中生成多样化风格的动漫形象。在合理的假设下，这种映射不仅多样化，还能以输入人脸为条件正确地表示动漫形象的概率。相比之下，当前的多模态生成方法无法捕捉动漫中的风格。大量的定量实验表明，与 SOTA 方法相比，GNR 方法可以生成更多样风格的动漫形象。

内容来源：

https://mp.weixin.qq.com/s/9dUlJEFwjCrxaTXoSClJ4A

2. 快手开源斗地主 AI，入选 ICML，能否干得过「冠军」柯洁？

近日，快手 AI 平台部的研究者用非常简单的方法在斗地主游戏中取得了突破，几天内就战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。而且，复现这个研究只需要一个普通的四卡 GPU 服务器。随着斗地主 AI 的不断进化，人（Ke）类（Jie）的斗地主冠军宝座不知还能否保住。

比较有趣的是，该系统所使用的算法极其简单却非常有效。团队创新性地将传统的蒙特卡罗方法（即我们初高中课本中常说的「用频率估计概率」）与深度学习相结合，并提出了动作编码机制来应付斗地主复杂的牌型组合。该算法在不借助任何人类知识的情况下，通过自我博弈学习，在几天内战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。相关论文已被国际机器学习顶级会议 ICML 2021 接收，论文代码也已开源。同时，论文作者开放了在线演示平台供研究者和斗地主爱好者体验。

在线演示支持中文和英文。使用者可以选择明牌 / 暗牌，并可以调节 AI 出牌速度。在明牌模式下，用户可以看到 AI 预测出的最好的三个牌型和预计胜率。

内容来源：

https://mp.weixin.qq.com/s/Q_Dd4JKRg0JNy9fqOZZPtQ

3. Transformer 杀疯了！竟在图神经网络的 ImageNet 大赛中夺冠，力压 DeepMind、百度......

在 6 月 17 日刚结束的 KDD Cup 2021 和 OGB 官方联合举办的第一届图神经网络竞赛 OGB Large-Scale Challenge 中，来自微软亚洲研究院 (MSRA) 和大连理工的团队力压 DeepMind、百度等队伍，夺得图预测任务赛道第一名。在这场号称 “地表最强图神经网络” 之争的国际权威竞赛中，获得第一名的模型不是图神经网络模型，反而是 Transformer 模型。

在比赛的三个赛道中，图预测任务最受人瞩目（另外两个赛道为节点预测和关系预测）：本次图预测任务发布了有史以来最大的有标注图数据集 PCQM4M-LSC, 其中包含超过 3,800,000 个有标注分子图 (作为对比，ImageNet 挑战赛包含 1,000,000 张标注图片，而在此之前最大的有标注图数据集大小不过约 450,000 个有标注分子图)。

本次图预测竞赛的任务是对给定的 2D 结构分子图，预测由 DFT 计算的分子性质，如 HOMO-LUMO 能带隙。DFT （density functional theory, 密度泛函理论）基于量子物理力场，可以精确地预测多种分子性质。在此次比赛中，与其他队伍基于图神经网络的解决方案不同，来自 MSRA 机器学习组的研究员和实习生们直接使用 Transformer 模型对分子图数据进行处理，并力压 DeepMind、百度、阿里巴巴蚂蚁金服等强劲对手，取得第一名的佳绩。

内容来源：

https://mp.weixin.qq.com/s/3EYhJ2ZTrZLF9yVEecF5WA

4. CVPR 2021 | CoCosNet v2 解锁 “高配版” 图像翻译

近年来，图像翻译技术百花齐放，但仍有两个关键问题有待解决：1）生成的图风格不可预知，用户无法指定具体实例的样式（如红色的法拉利、橘红的天空）；2）图片往往有较明显的瑕疵，影响用户体验。针对上述问题，微软亚洲研究院的研究员们在 CVPR 2020 上提出了基于样例的 CoCosNet 算法，算法按照用户给定样例生成多模态结果，解决了图像生成过程中风格精细控制的难题，在一系列图片翻译任务中取得大幅领先的生成质量。但是由于较大的计算内存开销，这个方法并不能很好地拓展到高清图生成领域。

而为了解决图片清晰度的问题，研究员们进一步提出了 CoCosNet v2。借鉴了 PatchMatch 的思想，CoCosNet v2 充分利用了自然图片特征空间局部连续的特点，用迭代的方法换取内存开销，实现了在原高清分辨率下高效近似注意力（attention）机制，在高清大图的生成上取得了惊艳的效果。该方法的相关工作已被收录为 CVPR 2021 oral 论文 “Full-resolution Correspondence Learning for Image Translation”。

针对上述注意力矩阵显存占用率问题，CoCosNet v2 用两个技术对此进行了处理。首先，利用 coarse-to-fine 的思想，构建多层级特征空间金字塔，在高层次低分辨率空间构建的对应关系中，指导下一层在更高分辨率下进行更精细的搜索。

内容来源：

https://mp.weixin.qq.com/s/VUQiOmryQU1nT9sUdVqnQg

https://arxiv.org/abs/2012.02047

5. 脑洞大开！科学家 Nature 发文：人工智能之后，“智能物质” 计算崛起？

关于 AI，一个长期的发展目标是去中心化的神经形态计算，即依靠分布式的核心网络来模拟大脑的大规模并行运算，从而实现一种受自然启发的超强信息处理方法。6 月 17 日，来自德国明斯特大学和荷兰特文特大学的科学家团队在《Nature》杂志上发文对 “智能物质” 进行了概述，他们回顾分析了当前业界利用分子系统、软材料或固态材料等实现的智能物质的进展，以及在软机器人、自适应人工皮肤和分布式神经形态计算方面的实际应用。

尽管论文中的智能物质并没有表现出大众所熟知的那种智力水平（例如识别能力或语言能力），但它们的功能已远远超出静态物质的特性，潜在应用鼓舞人心。

研究人员认为，可以通过用分层的方式定义人工物质的智能。比如，通过结合四个关键功能元件来实现智能物质：（1）传感器与环境交互并接收输入和反馈；(2）执行器对输入信号做出响应并调整材料的性能；(3）用于长期存储信息的存储器；（4）用于处理反馈的通信网络。理想情况下，这些元素可形成功能性的处理连续体，它不需要集中的处理单元，而是提供本地和分布式的信息处理能力。

内容来源：

https://mp.weixin.qq.com/s/FZdNaX_439wlm_QOHc-77w

https://www.nature.com/articles/s41586-021-03453-y

6. DeepMind 最新论文：强化学习 “足以” 达到通用人工智能

尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到 2040 年左右才能拥有它。

近日，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

内容来源：

https://mp.weixin.qq.com/s/5M1kuNp9z83yJkjKTE9m3g

https://www.sciencedirect.com/science/article/pii/S0004370221000862

https://venturebeat.com/2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/

https://www.jonkrohn.com/posts/2021/1/22/google-deepminds-quest-for-artificial-general-intelligence

二、观点评论解读

1. 马尔奖得主 Alan Yuille | AI 视觉的未来：像人一样看世界

人类的视觉系统经过百万年的进化已具有非常强大的功能，甚至是一种未受到充分赏识的超能力。人类之所以在视觉上表现如此优异，一方面归功于人类的进化史，另一方面是因为我们的大脑投入了很大一部分来实现视觉。目前 AI 领域已取得了一些令人振奋的重大进展，一些国家和地区已开启了长达 20 年的 AI 研究计划来实现和提升 AI 技术。

乍一看，AI 视觉似乎的确具有超越人类的识别能力。但事实上并非如此，比如，深度网络在预期外的非常规场景就很容易犯错误。这些错误是由于深度神经网络无法有效的处理对抗攻击造成的。AI 视觉的另一个大问题是如何解决跨域识别（Transfer Across Domains）问题。相较而言，如果更换了图片的场景，或者增加对抗样本，深度神经网络会在这类情况下犯一些非常低级的错误。

首先，人类视觉是优于 AI 视觉的。AI 视觉在比赛中开起来更优秀的表现，是由计算机视觉和机器学习领域当前普遍使用的研究范式造成的。事实上，没有哪个 AI 视觉算法能超越人类视觉的表现。就 “理想观察者” 的模型而言，它似乎能在任何视觉任务上都胜过人类，但这是因为这些模型知道数据的统计特性，而人类并没有这些先验知识。深度网络还不具备思维，而是擅长利用数据集中存在的偏向。

鉴于以上的分析，未来我们应该挑战 AI 视觉算法去实现人类视觉在开放复杂环境下的认知表现，我们要去探索人类视觉可以做的是什么，并挑战算法发挥相应的潜力，而不是仅仅是简单地基于平衡注释数据集、采用标准化的性能指标去评估 AI 算法。

内容来源：

https://mp.weixin.qq.com/s/eacAnjS8b3UPxBB2ChNCwQ

2. 计算机可直接从大脑读取偏好，“神经权利” 被提上议程

算法能直接从我们大脑获取反应而非仅仅根据人的行为进行猜测，这听起来有点像科幻小说，但一项结合计算机科学和认知神经科学的研究显示，基于大脑的协同过滤确实可以使其变为可能。哥本哈根大学和赫尔辛基大学的一个联合研究小组证明，可以根据某人的大脑反应匹配情况来预测其个人偏好。这一发现可能会被用来提供个性化的媒体内容 —— 甚至可能让我们更了解自己。

论文题为 Collaborative Filtering with Preferences Inferred from Brain Signals，已经被 WWW 2021 收录。

协同过滤，即利用大量用户的互动数据向个人推荐 ta 可能喜欢但却没有互动的项目。理论上，使用脑机接口可以直接从人脑推断出偏好。这次的研究则首次证明，在现实的推荐场景中，脑机接口可以为偏好推测将是一个可行的选择。这种利用大脑推断偏好的方法结合算法，可设计出一个神经协作过滤框架。另外值得称道的是，这项研究还专门讨论了该发现对个性化系统和用户隐私的更广泛影响。实验中，研究人员将脑电图电极放置于研究参与者的头部，并向他们展示各种面孔的图像，以期证明机器学习可以利用大脑的电活动来检测受试者认为哪些面孔最有吸引力。

内容来源：

https://mp.weixin.qq.com/s/WRqHbPAvTHMz9LBRnEtsYg

https://techxplore.com/news/2021-06-brain.html/

https://dl.acm.org/doi/10.1145/3442381.3450031

https://www.reuters.com/article/us-global-tech-rights-idUSKBN28D3HK

3. GPT-3 问世这一年，给世界带来的困扰与希望

GPT-3 使用了几乎所有来自互联网的可用数据进行训练，并在各种 NLP 任务中表现出惊人的性能，甚至超过了最先进的模型。近日，工程师、神经科学家 Alberto Romero 撰写了一篇长篇文章，从 GPT-3 的论文发表谈起，对于这一里程碑式的产物进行了全面梳理。

围绕 GPT-3 的疯狂炒作。在取得如此多惊人的成绩之后，人们开始大力宣传 GPT-3 的潜力。一些人在 Twitter 上声称 GPT-3 具有 “明显的自我意识”，还有一些人将其与搜索引擎的 “一般智能” 相比较。但事实上它并不想人们想象的那样神奇。OpenAI 的首席执行官 Sam Altman 试图调低语气：“GPT-3 令人印象深刻... 但它仍然存在严重的弱点，有时会犯非常愚蠢的错误。AI 将改变世界，但 GPT-3 只是早期的一瞥。”

并非 GPT-3 的所有结果都值得庆祝。GPT-3 发布后不久，用户开始提高对一些潜在有害输出的认识。GPT-3 并没有避免正在进行的消除人工智能系统偏见的道德斗争。如果有的话，它已经成为为什么我们应该慷慨地教导这些系统不要从人类道德不完美中学习的最前沿例子。人工智能系统中一些最常见的偏见（特别是 GPT-3）是性别、种族和宗教偏见。语言模型可以从它们提供的数据中吸收和放大这些偏差（OpenAI 在他们的论文中承认了这一事实）。

GPT-3 的另一个问题是它编写新闻或评论文章的能力类似于人类，这增加了人们对假新闻的担忧。OpenAI 甚至在他们的论文中评论了 GPT-3 在新闻文章方面的惊人表现。公正的评委在人工撰写的文章中正确识别 GPT-3 的文章的概率仅为 52%，略高于随机。

此外作者还从很多方面对 GPT-3 从正面和反面都进行了深入的剖析（详细见原文）。GPT-3 产生了惊人的结果，受到了疯狂的炒作，引起了越来越多的担忧，并受到了批评和反批评的浪潮。最后作者表达了自己的观点：“我不知道未来会从这类模型中我们将得到什么，但可以肯定的是，GPT-3 目前仍然是无与伦比的。它是迄今为止最强大的神经网络，因此，它在各种可能的意义上都受到了最强烈的关注。每个人都把目光投向 GPT-3；有人称赞它是朝着类人人工智能迈出的伟大一步，而另一些人认为这些仅仅是炒作。双方都有有趣的争论。”

内容来源：

https://mp.weixin.qq.com/s/r0isF95D4nAxzMC0Fr8V5Q

https://towardsdatascience.com/gpt-3-a-complete-overview-190232eb25fd

三、产业动态聚焦

1. 跳舞手脚不协调？没关系，微视用 AI 打造你我的舞林大会，一张照片就可以

近日，腾讯微视 APP 上线的「照片会跳舞」新特效玩法实现了人体姿态迁移技术的真正落地，让不会跳舞的你也能在手机上舞动起来。玩法非常简单，用户只需下载微视 APP，上传单人 / 多人全身正面照，系统即自动对照片进行 3D 建模，生成以假乱真的虚拟形象；接着选择舞种，通过技术能力使虚拟形象按照选定的舞蹈模板「舞动」起来，模拟效果十分逼真，动作也流畅自然。

目前，用户可以在「照片会跳舞」中选择 10 种舞蹈模板，涵盖了广场舞（筷子兄弟小苹果、八神摇）、宅舞、炫舞（迈克尔杰克逊 Beat It）、全国中小学生广播体操（2002 年第二套《时代在召唤》）和儿歌（鲨鱼宝宝）等多种类型，更有网络上传播甚广的魔性蹦迪「接着奏乐接着舞」。

据了解，这是腾讯微视在前段时间火遍全网的「蚂蚁牙黑」表情迁移玩法的基础上推出的 APP 端单人或多人跳舞动作迁移玩法，也是腾讯光影研究室针对人体姿态迁移技术研究的突破性落地。QQ 影像中心技术团队经过对人体 3D 重建技术、GAN 网络的不断挖掘与优化，最后实现了使用单张用户图，就能达到业界需要复杂技术方可实现的人体姿态迁移效果。同时还支持更高分辨率的输出，解决了动作僵硬等问题，既保证了舞蹈素材的动作准确性，也使动作更加连贯自然。

内容来源：

https://mp.weixin.qq.com/s/Xw83qSLH89UkwOy1XKHEIQ

2. 谷歌也扛不住了！医疗 AI 探索再遇重挫，科技公司们节节败退

又一科技巨擘，在医疗 AI 行业面前铩羽而归。一度被视作里程碑式项目、准备借助 AI 在医疗领域 “火力全开” 的谷歌健康，被美国媒体 BI 曝光正陷入重重危机之中，不得不大规模裁员重组。

此时，距离谷歌当初合并 DeepMind 健康业务、成立健康部门，并挖来 * 盖辛格 * 医疗中心 CEO 领军仅仅过去了三年时间。当初 IBM 的沃森医疗陷入困境被群嘲，没想到谷歌也逃不过类似的命运。实际上，国内诸多的明星 AI 独角兽，也相继陷入了裁员、倒闭、资金链断裂…… 等等窘境之中。医疗 AI 赛道全球范围内的大溃败还在继续。

内容来源：

https://mp.weixin.qq.com/s/DHT90HdYWMbJwYr56YJS5Q

3. 吴文俊人工智能科学技术奖权威解读，2021 年评选正式启动

6 月 5 日至 6 日，2021 全球人工智能技术大会在杭州成功举办。大会主论坛上，吴文俊人工智能科学技术奖奖励委员会秘书长、清华大学计算机系史元春教授代表奖励委员会作了 “吴文俊人工智能科学技术奖励” 的解读，从奖项的设立背景、奖励范围、评选流程等维度做了综合梳理，阐释了奖项的内涵和外衍。同时宣布 2021 年吴文俊人工智能科学技术奖评选活动正式启动。

目前，“吴文俊人工智能科学技术奖” 共有八大奖项，其中个人和项目奖各四个。今年，以发掘和表彰年轻人才为目标的优秀博士学位论文评选也纳入到评选范畴，进一步增强了奖项的人才覆盖面和内容的丰富度。

内容来源：

https://mp.weixin.qq.com/s/z2pm5wCGZaYJTsvRNr_ltA