Konečně někdo udělal samozřejmou věc! Je koncipován pro modely s otevřeným zdrojovým kódem, ale poskytovatelé blízkých zdrojů by si také měli dělat poznámky.
AI Security Institute
AI Security Institute12. 8. 18:59
Jak lze velké jazykové modely s otevřenou váhou ochránit před škodlivým použitím? V naší nové studii s @AiEleuther jsme zjistili, že odstranění škodlivých dat před tréninkem může být více než 10x účinnější při odolávání nepřátelskému jemnému vyladění než obrana přidaná po tréninku 🧵
11,09K