如何保护开放权重的大型语言模型免受恶意使用? 在我们与 @AiEleuther 合作的新论文中,我们发现,在训练之前去除有害数据比训练后添加防御措施在抵御对抗性微调方面效果高出 10 倍以上 🧵
30.1K