Endlich hat jemand das Offensichtliche getan! Es ist für Open-Source-Modelle gerahmt, aber auch Anbieter mit Closed Source sollten sich Notizen machen.
AI Security Institute
AI Security Institute12. Aug., 18:59
Wie können offene, gewichtete große Sprachmodelle vor böswilligen Anwendungen geschützt werden? In unserem neuen Papier mit @AiEleuther stellen wir fest, dass das Entfernen schädlicher Daten vor dem Training über 10-mal effektiver sein kann, um gegen feindliches Fine-Tuning zu widerstehen, als Abwehrmaßnahmen, die nach dem Training hinzugefügt werden 🧵
11,02K