Як можна захистити великі мовні моделі з відкритою вагою від зловмисного використання? У нашій новій роботі з @AiEleuther ми виявили, що видалення шкідливих даних перед тренуванням може бути більш ніж у 10 разів ефективнішим у протистоянні тонким налаштуванням суперника, ніж захисти, додані після тренування 🧵
30,11K