(本文来自www.77y77.com)
【CSDN 编者按】四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动 (原文来自www.77y77.com)
模型原理
关于 MOE
权重分配与近水楼台
跑个分~
当场答疑
纯粹的参数技术会让 Switch Transformer 更好吗?
是的,看怎么设计!参数和总的 FLOPs 是独立衡量神经语言模型的标准。大型模型已经被证实具有良好的表现,不过基于相同计算资源的情况下,我们的模型具有更加简洁、有效且快速的特点。
我没有超算——模型对我来说依然有用吗?
虽然这项工作集中在大型模型上,我们发现只要有两个专家模型就能实现,模型需要的最低限制在附录当中有讲,所以这项技术在小规模环境当中也非常有用。
在速度-精度曲线上,稀疏模型相比稠密模型有优势吗?
当然,在各种不同规模的模型当中,稀疏模型的速度和每一步的表现均优于稠密模型。
我无法部署一个万亿参数的模型-我们可以缩小这些模型吗?
这个我们无法完全保证,但是通过 10 倍或者 100 倍蒸馏,可以使模型变成稠密模型,同时实现专家模型 30%的增益效果。
为什么使用 Switch Transformer 而不是模型并行密集模型?
从时间角度看,稀疏模型效果要优越很多,不过这里并不是非黑即白,我们可以在 Switch Transformer 使用模型并行,增加每个 token 的 FLOPs,但是这可能导致并行变慢。
为什么稀疏模型尚未广泛使用?
扩展密集模型的巨大成功减弱了人们使用稀疏模型的动力。此外,稀疏模型还面临一些问题,例如模型复杂性、训练难度和通信成本。不过,这些问题在 Switch Transformer 上也已经得到了有效的缓解。
参考资料:https://arxiv.org/pdf/2101.03961.pdf 项目代码地址:https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py
end
更多精彩推荐 ☞突发!Intel CEO 换帅,VMware CEO 将走马上任
☞微信封杀 QQ 音乐、拼多多等 App 外链;蠕虫病毒在国内肆虐;Dropbox 宣布裁员 |极客头条
☞除了 Docker,我们还有哪些选择?
点分享 点收藏 点点赞 点在看
重磅来袭:皇马大战巴萨!关注“皇马体育”,发送”直播“免费看国家德比!Hala Madrid!????????????
就目前的国际形势来看,燃油车将被取代变得越来越明显,这一点从各大车企近年来的研究方向中就能很容易做出判断。
城头变幻大王旗,新能源时代谁将是主宰?
从细节审视微软的新年变化。
陈安之老师主讲:女性的成功与魅力 大家好,我是陈安之老师,由于我长期忙于演讲,大家给我的留言不能一一回复
哈哈哈哈
与人为善,有时候就是扯淡。01害怕得罪人。有个朋友说:“我遇到了一个难题,平时在单位里,因为太好说话了,都快
编者按:产业政策走向对产业升级和城市化发展有着直接影响,徐林主任曾多年在国家产业政策制定和研究一线工作,最近
Copyright2018.琴琴自媒体资讯站,让大家及时掌握各行各业第一手资讯新闻!