百里挑一:ICLR 2021杰出论文奖出炉!

2021
04/07

+
分享
评论
学术头条
A-
A+

本次杰出论文的评选过程极为严苛。

北京时间 2021年4月1日,ICLR 2021 杰出论文新鲜出炉了!在本届 ICLR 上被接收的 860 篇高质量论文中,有 8 篇论文脱颖而出,被授予 ICLR 2021 杰出论文奖。

本次杰出论文的评选过程极为严苛。首先,杰出论文讲评审委员会会根据论文被接收时的评审意见给出一个候选论文的清单;接着,杰出论文评审委员会会进一步对清单中的论文进行评审,专家们不仅需要评估论文的技术质量,还要评估论文可能产生的影响,这种影响包括引入新的研究视角、开启了令人激动的新研究方向,以及为解决重要的问题作出强有力的贡献。在经过了上述严格的评审过程后,最终确定了 8 篇排名最高的论文获得 ICLR 2021 杰出论文奖。

1.Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with  1/n Parameters

【论文作者】Aston Zhang、Yi Tay、Shuai Zhang、Alvin Chan、Anh Tuan Luu、Siu Hui、Jie Fu

【机构】亚马逊 AWS、谷歌研究院、苏黎世联邦理工学院、南洋理工大学、Mila 实验室

【论文链接】https://www.aminer.cn/pub/6008327b9e795ed227f5310e/?conf=iclr2021

【论文摘要】近年来,一些研究说明了超复数空间中表征学习的成功。具体而言,带有四元数的全连接层(四元数即四维超复数)用四元数的汉密尔顿积替换了全连接层中的实值矩阵乘法,这种方法在仅仅使用 1/4 的可学习参数的情况下,在各种应用中实现了可与之前的方法相当的性能。

然而,超复数空间只在少数预定义的维度上(四维、八维、十六维)存在,这限制了利用超复数乘法的模型的灵活性。为此,本文作者提出了一种对超复数乘法进行参数化的方法,使模型能够根据数据学习乘法规则,而无需考虑此类规则是否被预先定义。这样以来,本文提出的方法不仅引入了汉密尔顿积,而且还学会了在任意的 n 维超复数空间上运行。与对应的全连接层相比,本文提出的 PHM 层使用任意 1/n 的可学习参数,是实现了更大的架构灵活性。在实验中,本文作者在自然语言推理、机器翻译、文本风格迁移和主谓一致任务上将本文提出的 PHM 层用于 LSTM 和 Transformer 模型,验证了该方法的架构灵活性和有效性。

图 1:PHM 层示意图。

2.Complex Query Answering with Neural Link Predictors 

【论文作者】Erik Arakelyan、 Daniel Daza、Pasquale Minervini、 Michael Cochez

【机构】伦敦大学学院、阿姆斯特丹自由大学、阿姆斯特丹大学、爱思唯尔 Discovery 实验室

【论文链接】https://www.aminer.cn/pub/5fa9175f91e011e83f7407f4/?conf=iclr2021

【代码链接】https://github.com/uclnlp/cqd

【论文摘要】神经链接预测器对于识别大规模知识图谱中的缺失边非常有用。然而,目前人们尚不清楚如何使用这些模型回答涉及多个域的更复杂的查询(例如,在考虑缺失边的情况下,处理使用逻辑合取 (∧)、析取 (∨) 、存在量词(∃) 的查询)。

在本文中,作者提出了一种可以高效地回答不完整的知识图谱上的复杂查询的框架。本文作者将每个查询转换为端到端可微的目标,并使用预训练的神经链接预测器计算每个原子的真值。本文作者进一步分析了两种优化改变目标的解决方案(包括基于梯度的搜索和组合搜索。

实验结果表明,本文提出的方法在无需使用大规模、多样的查询集训练的情况下,取得了比目前最优的方法(使用数以百万计的生成的查询训练的「黑盒」神经模型)更高的准确率。在使用少了几个数量级的训练数据的情况下,本文提出的模型在包含事实信息的各种知识图谱上,获得了从 8% 到 40% 不等的 Hits@3 的相对性能提升。最后,本文作者指出,根据每个复杂查询原子的中间解,该模型的输出结果是可解释的。

图 2:通过 CQD-Beam 得到的两个查询的中间变量赋值和排序结果。

3.EigenGame: PCA as a Nash Equilibrium

【论文作者】Ian Gemp、 Brian McWilliams、Claire Vernade、Thore Graepel

【机构】DeepMind

【论文链接】https://www.aminer.cn/pub/5f77013191e011f31b980711/?conf=iclr2021

【代码链接】https://github.com/uclnlp/cqd

【论文摘要】在本文中,作者提出了一种新颖的视角,将主成分分析(PCA)视为一种竞争博弈,其中每个近似特征向量由一个博弈参与者(player)控制,参与者的目标是最大化它们的效用函数。

本文作者分析了 PCA 博弈的特性以及基于梯度的更新行为的效果。最终,作者提出了一种算法,它将 Oja 学习规则中的元素与广义「克莱姆施密特」正交化结合起来,通过消息传递自然而然地实现了去中心化与并行化计算。通过在大规模图像数据集和神经网络激活上的实验,作者说明了该算法的可扩展性。作者指出,这种将 PCA 看做可微博弈的新视角将引发进一步的算法发展,并带来更深的理解。

图 3:EigenGame 同时在单位球面上引导各向量。

4.Learning Mesh-Based Simulation with Graph Networks

【论文作者】Tobias Pfaff、Meire Fortunato、Alvaro Sanchez-Gonzalez、Peter W. Battaglia

【机构】DeepMind

【论文链接】https://www.aminer.cn/pub/5f7ee8c991e011a5faf0ffad/?conf=iclr2021

【代码链接】https://sites.google.com/view/meshgraphnets

【论文摘要】在许多科学和工程学科中,基于网格的仿真是对复杂物理系统建模的核心。网格表征可以支持强大的数值积分方法,其分辨率可以在准确率和效率之间取得良好的平衡。然而,高维科学仿真的开销极为高昂,往往需要为每个待研究的系统单独调整求解器和参数。

在本文中,作者提出了「MeshGraphNets」,这是一种用于使用图神经网络学习基于网格的仿真的框架。通过训练本文提出的模型,我们可以使其在网格图上传递消息,并在前馈仿真过程中适应网格的离散化。实验结果表明,本文提出的模型可以准确地预测很多物理系统的动力学(包括空气动力学、结构力学和布料)。该模型的自适应性使我们可以学习分辨率无关的动力学,并可以在测试时扩展到更复杂的状态空间。本文提出的方法也非常高效,在测试时的运行速度比训练仿真时快 1-2 个数量级。本文提出的方法扩大了神经网络仿真器可以操作的问题范围,并且可以切实提高复杂的、科学的建模任务的效率。

图 4:在 SphereDynamic 域 中的 MeshGraphNets 操作。

5.Neural Synthesis of Binaural Speech From Mono Audio

【论文作者】Alexander Richard、Dejan Markovic、Israel D. Gebru、 Steven Krenn、 Gladstone Alexander Butler、 Fernando Torre、 Yaser Sheikh

【机构】Facebook Reality 实验室

【论文链接】https://www.aminer.cn/pub/600830f39e795ed227f53086/?conf=iclr2021

【代码链接】https://github.com/facebookresearch/BinauralSpeechSynthesis

【论文摘要】本文提出了一种用于双声道声音合成的神经渲染方法,它可以实时地生成逼真且在空间上精确的双声道声音。该网络以单通道声源作为输入,根据听者相对于声源的相对位置和方向,合成双声道的声音,并将其输出。本文作者在理论分析中研究了原始波形的 L2 损失的不足,并引入了解决上述不足的改进版的损失函数。通过实证研究,作者确定本文提出的方法首次生成了空间上精确的波形输出(通过真实记录测量),并且在定量和基于知觉的研究中都大大优于现有的方法。

图 5:系统示意图。

6.Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

【论文作者】Alexander Richard、Dejan Markovic、Israel D. Gebru、 Steven Krenn、 Gladstone Alexander Butler、 Fernando Torre、 Yaser Sheikh

【机构】东京大学、RIKEN 高级智能项目中心、日本科技厅

【论文链接】https://www.aminer.cn/pub/5ef3247a91e0110c353da898/?conf=iclr2021

【论文摘要】在本文中,作者针对回归问题,分析了过参数化的两层神经网络的平均随机梯度下降的收敛性。近年来,有些研究工作指出神经正切核(NTK)有着重要的作用。这些工作研究了 NTK 的机制下的基于梯度的方法的全局收敛性,其中我们几乎可以通过相关的再生希尔伯特空间(RKHS)刻画过参数化的神经网络的学习机制。然而,NTK 机制下的收敛率分析仍然很有前景。在本文中,作者通过利用目标函数和与 NTK 相关的 RKHS 的复杂度,说明了平均梯度下降可以达到 minimax 最优收敛率,并且可以全局收敛。此外,作者还指出,在一定的条件下,通过对 ReLU 网络的平滑近似,可以以最优的收敛率学习通过 ReLU 网络的 NTK 指定的目标函数。

7.Rethinking Architecture Selection in Differentiable NAS

【论文作者】Ruochen Wang、 Minhao Cheng、 Xiangning Chen、 Xiaocheng Tang、Cho-Jui Hsieh

【机构】加州大学洛杉矶分校、滴滴人工智能实验室

【论文链接】https://www.aminer.cn/pub/600834609e795ed227f53207/?conf=iclr2021

【论文摘要】由于其搜索效率和简洁性,可微神经架构搜索(NAS)是目前最流行的神经架构搜索方法之一。我们通过基于梯度的算法在权值共享的 supernet 中同时优化模型权重和架构参数来实现可微神经架构搜索。在搜索阶段结束时,我们会选用具有最大架构参数的操作,从而得到最终的架构。其中,隐含的假设是架构参数的值反映了操作的强度。虽然有很多研究工作讨论了关于 supernet 的优化,但却很少有研究关注架构的选择过程。本文作者通过实验和理论分析说明:架构参数的多少并不一定能够说明操作对 supernet 性能的贡献有多大。

在本文中,作者提出了一种基于扰动的架构选择的替代方案,它可以直接衡量每个操作对 supernet 的影响。作者通过本文提出的架构选择策略重新评估了几种可微 NAS 方法,发现该策略始终能够从底层 supernet 中提取出得到了显著提升的架构。此外,作者发现,本文提出的架构选择策略可以大大改进 DARTS 的几种失败模式,这表明 DARTS 中观察到的泛化能力的不足是由于没有能很好地进行基于规模的架构选择,而不完全是由于 supernet 的优化问题。

图 6:基于扰动的架构选择

8.SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS

【论文作者】Yang Song

【机构】斯坦福大学、谷歌大脑

【论文链接】https://www.aminer.cn/pub/5fc4cfdf91e011abfa2faf94/?conf=iclr2021

【论文摘要】根据数据生成噪音是很容易的,而根据噪声生成数据的过程被称作成式建模。本文作者提出了一种随机微分方程(SDE),它通过缓慢地注入噪声,平稳地将复杂的数据分布转换为已知的先验分布;此外,作者还提出了一种相应的反向时间 SDE,它通过缓慢去除掉噪声,从而将先验分布转换回数据分布。至关重要的是,反向时间 SDE 仅依赖于扰动数据分布的时域梯度场(即分数)。通过利用基于得分的生成式建模的优势,我们可以用神经网络精确地估计这些分数,并使用数值化的 SDE 求解器来生成样本。在本文中,作者说明该框架对以前基于得分的生成式建模和扩散概率建模的方法进行了封装,从而得到了新的采样过程和建模能力。

具体而言,作者引入了一种「预测器-校正器」框架来校正离散化的反向时间 SDE 演化中发生的错误。接着,作者还推导出了一个等价的神经常微分方程,它从与 SDE 相同的分布中采样,并且支持精确的似然计算,提升了采样效率。此外,作者提出了一种新的方法来解决基于得分的模型的逆问题,并在类条件生成、图像补绘和着色任务上进行了实验。

图 7:通过随机微分方程构建基于得分的生成模型。


本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
ICLR,论文,架构,模型,方法,神经,参数

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!