Jak lze velké jazykové modely s otevřenou váhou ochránit před škodlivým použitím? V naší nové studii s @AiEleuther jsme zjistili, že odstranění škodlivých dat před tréninkem může být více než 10x účinnější při odolávání nepřátelskému jemnému vyladění než obrana přidaná po tréninku 🧵
30,1K