ついに、誰かが明白なことをしました! これはオープンソースモデル用に構成されていますが、クローズソースプロバイダーもメモする必要があります。
AI Security Institute
AI Security Institute8月12日 18:59
オープンウェイトの大規模言語モデルを悪意のある使用からどのように保護できますか? @AiEleutherとの新しい論文では、トレーニング前に有害なデータを削除することは、トレーニング🧵後に追加された防御よりも、敵対的な微調整に抵抗するのに10倍以上効果的であることがわかりました
11.02K