¿Cómo se pueden proteger los modelos de lenguaje grande de peso abierto contra usos maliciosos? En nuestro nuevo artículo con @AiEleuther, encontramos que eliminar datos dañinos antes del entrenamiento puede ser más de 10 veces más efectivo para resistir el ajuste fino adversario que las defensas agregadas después del entrenamiento 🧵
30.11K