谷歌让NLP模型也能debug,只要给一张 草稿纸 就可以
发布时间:2021-12-09 22:53:39 所属栏目:传媒 来源:互联网
导读:现在的大型语言模型,能力个个都挺强。 但,它们的计算能力都不太行: 比如GPT-3,没法做超过三位数的加法。 再比如它们当中的大多数都可以写代码,但是理解代码却很费劲稍微遇到点带循环的程序就gg。 不过,来自MIT和谷歌的研究人员发现: 不用修改模型的底
|
现在的大型语言模型,能力个个都挺强。 但,它们的计算能力都不太行: 比如GPT-3,没法做超过三位数的加法。 再比如它们当中的大多数都可以写代码,但是理解代码却很费劲——稍微遇到点带循环的程序就gg。 不过,来自MIT和谷歌的研究人员发现: 不用修改模型的底层架构,只需训练它们学会像程序员debug时那样“打断点”,读代码的能力就唰唰唰地涨上去了。 将同样的思路用于大数加法、多项式计算,那就更不在话下了。 所以,语言模型的数学能力终于也要跟上了?! 教语言模型用“打断点”的方法做加法、读程序 前面说的“打断点”,其实指的是在计算步骤较多的程序中,让模型把每一步都编码为文本,并将它们记录到一个称为“便签”的暂存器中,或者叫“草稿纸”。 听起来是个“笨”方法,但正是这样才使得模型的计算过程变得清晰有条理,性能也就比以往直接计算的方式提升了很多。 具体操作也很简单。 就比如在简单的加法计算中,计算“29+57”的方式就是像这样的: 谷歌让NLP模型也能debug,只要给一张「草稿纸」就行 其中C表示进位,#表注释。 先计算9+7,进位1;再计算2+5+进位1,最后得出86。 从上可以看出,这个训练示例由“输入”和“目标”组成。 训练时将两者都喂给模型;测试时,模型就能根据“输入”预测出正确的“目标”。 而“目标”就是要发送到临时暂存器上的内容,通过关注其上下文就可以引用;实际操作中,还可以对“草稿”内容进行检查纠错。 显著提高语言模型的计算能力 研究人员选用了仅含解码器结构的Transformer语言模型来实验,其参数规模介于200万到1370亿之间。 原则上,任何序列模型都可以使用这个方法,包括编-解码器模型或循环网络等。 首先,他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法。 训练包含10万个示例,并进行了5000步的微调,batch size为32。 然后分别用1万个数据来测试训练分布内的加法;1千个数据来测试训练分布之外,也就是9位和10位数的加法。 将结果分别与直接运算的语言模型进行比较,发现: 即使超出临界模型大小,用了“打断点”法的模型也能够进行加法运算,而直接运算的基线模型就没法做到这一点。 而在分布外的任务中,直接运算的基线模型完全挂掉——“没练过就不会做”,而用了“断点”法的模型随着规模的增大hold住了9-10位数的加法。 好,大数加法搞定。 接下来上多项式。 他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。 其中项数一般不超过3项,系数范围在-10到+10之间,结果在-1000到+10000之间。 多项式的训练示例如下: 结果发现:无论是微调还是少样本训练之后,“断点”法的性能都优于直接预测。 最后就是读Python代码了。 代码的训练示例中,记录了正在执行的是哪行代码,以及此时各变量的值,用json格式表示。 (编辑:邯郸站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 小米电视为何降价销售?智能电视降价潮来袭?
- 新基建 新机遇 | 2020可信区块链峰会即将召开
- Check Point 软件公司推出了 CloudGuard 云原生安全方案,可
- 小鱼易连又上新闻联播 云视频连接前线与后方为患者定制诊疗
- ZoneAlarm 推出新的 Web Secure Free 高级 Chrome 扩展程序
- Phasor使用分比式电源架构增强移动卫星的连通性
- BOE供货荣耀60Pro流光四曲屏在行业首次实现屏幕四角曲面可显
- IDC:2019年第三季度全球融合系统市场同比增长3.5%
- 华为北京城市峰会2020成功举办,助力北京打造世界一流和谐宜
- 汇顶科技为OPPO Find X2提供超薄屏下光学指纹识别等创新产品
站长推荐
热点阅读

