一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

持续学习中最困难的开放性问题是找出适合上下文蒸馏的正确基准和产品体验

你会想要考虑的方法列表相当有限，这些方法在不同的环境下会有权衡。目前，如何相互评估这些方法，或者你最初会为哪个具体问题部署解决方案，这一点并不是很明显。

一个极端：在6个月的离散区块上进行“持续”学习，以获得全面的直观世界知识我们真的期望有比持续的全互联网预训练/中期训练加上重新进行正常的后期训练更好的方法吗？

比如说，你可以将旧的后训练检查点与新的CPT检查点进行权重合并，以获得一些节省，或者你可以仅对某些层/专家进行CPT，我们可以昂贵地实验一下哪种版本是最实用的，但设计空间是已知的。

我所说的“上下文蒸馏”是指你需要一个自动化的流程，它可以接收信息汇总（聊天记录、网页文本、代码库历史），并将其整理成比原始形式（例如基本的问答）更有用的东西，以便于中期/后期训练。

121

热门

排行

收藏