热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
持续学习中最困难的开放性问题是找出适合上下文蒸馏的正确基准和产品体验
你会想要考虑的方法列表相当有限,这些方法在不同的环境下会有权衡。目前,如何相互评估这些方法,或者你最初会为哪个具体问题部署解决方案,这一点并不是很明显。
一个极端:在6个月的离散区块上进行“持续”学习,以获得全面的直观世界知识
我们真的期望有比持续的全互联网预训练/中期训练加上重新进行正常的后期训练更好的方法吗?
比如说,你可以将旧的后训练检查点与新的CPT检查点进行权重合并,以获得一些节省,或者你可以仅对某些层/专家进行CPT,我们可以昂贵地实验一下哪种版本是最实用的,但设计空间是已知的。
我所说的“上下文蒸馏”是指你需要一个自动化的流程,它可以接收信息汇总(聊天记录、网页文本、代码库历史),并将其整理成比原始形式(例如基本的问答)更有用的东西,以便于中期/后期训练。
121
热门
排行
收藏
