如何保護開放權重的大型語言模型免受惡意使用? 在我們與 @AiEleuther 合作的新論文中,我們發現,在訓練之前去除有害數據比訓練後添加防禦措施在抵禦對抗性微調方面效果高出 10 倍以上 🧵
30.11K