Hvordan kan åpne store språkmodeller beskyttes mot ondsinnet bruk? I vår nye artikkel med @AiEleuther finner vi at fjerning av skadelige data før trening kan være over 10 ganger mer effektivt for å motstå fiendtlig finjustering enn forsvar som legges til etter trening 🧵
30,1K