Hur kan öppna stora språkmodeller skyddas mot skadlig användning? I vår nya artikel med @AiEleuther visar vi att det kan vara över 10 gånger mer effektivt att ta bort skadliga data före träning när det gäller att motstå finjustering av motståndare än försvar som läggs till efter träning 🧵
30,1K