P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美

2022
04/12

+
分享
评论
学术头条
A-
A+

P-Tuning v2 在 3 亿到 100 亿参数的广阔参数规模上,均能仅以 0.1%~3% 的微调参数量,取得和精调方法媲美的迁移效果,并大大超越前代 P-Tuning 算法;在文本分类和问答到序列标注的广泛任务类型上,P-Tuning v2 也总能取得和精调方法接近的表现水平。

作者:

刘潇,纪开轩,伏奕澄,谭咏霖,杜政晓,杨植麟,唐杰

Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, and Jie Tang. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks. In Proceedings of the 60th Annual Meeting of the Association of Computational Linguistics (ACL'22).

Code & Data: 

https://github.com/THUDM/P-tuning-v2

89181649674889784

提示微调(Prompt Tuning),指只用一个冻结的语言模型来微调连续提示向量的方法,大大减少了训练时每个任务的存储和内存使用。然而,在自然语言理解(Natural Language Understanding, NLU)的背景下,先前的工作表明,以 P-Tuning 为代表的提示微调算法,在不使用精调的情况下,具有独特的规模效应:当预训练模型规模增长至 100 亿时,提示微调算法仅以 0.01% 的微调参数量,便可取得和精调一样好的迁移效果;小于 100 亿时则不然。然而,考虑到实际应用中,小于 100 亿的模型的精调成本也十分高昂,如何将 P-Tuning 算法应用到这类中小规模的模型上成为大家关注的话题。

64781649674890122

为了应对这一挑战,我们提出了基于深度提示微调思想的 P-Tuning v2 算法,将 P-Tuning 中原本只加在输入层的可学习微调向量,以前缀的形式添加至预训练 Transformer 的每一层的输入中,层与层间相互独立;同时,我们证明了在该情况下,我们可以将原本 P-Tuning 中的语义标签(只能用于文本分类任务和问答任务)替换为传统精调方法使用的下游分类器,以应用于机器阅读理解、命名实体识别和语义角色标注等更具有挑战性的序列标注任务上。实验结果表明,P-Tuning v2 在 3 亿到 100 亿参数的广阔参数规模上,均能仅以 0.1%~3% 的微调参数量,取得和精调方法媲美的迁移效果,并大大超越前代 P-Tuning 算法;在文本分类和问答到序列标注的广泛任务类型上,P-Tuning v2 也总能取得和精调方法接近的表现水平。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
参数量,精调,方法,微调,算法

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交