终于,有人做了显而易见的事情! 这是针对开源模型的框架,但闭源提供商也应该注意。
AI Security Institute
AI Security Institute8月12日 18:59
如何保护开放权重的大型语言模型免受恶意使用? 在我们与 @AiEleuther 合作的新论文中,我们发现,在训练之前去除有害数据比训练后添加防御措施在抵御对抗性微调方面效果高出 10 倍以上 🧵
11.02K