W końcu ktoś zrobił oczywistą rzecz! Jest to sformułowane dla modeli open source, ale dostawcy z zamkniętym kodem również powinni wziąć to pod uwagę.
AI Security Institute
AI Security Institute12 sie, 18:59
Jak można zabezpieczyć modele językowe o otwartej wadze przed złośliwym użyciem? W naszym nowym artykule z @AiEleuther odkrywamy, że usunięcie szkodliwych danych przed treningiem może być ponad 10 razy bardziej skuteczne w opieraniu się na fine-tuningu adwersarialnym niż obrony dodawane po treningu 🧵
11,09K