オープンウェイトの大規模言語モデルを悪意のある使用からどのように保護できますか? @AiEleutherとの新しい論文では、トレーニング前に有害なデータを削除することは、トレーニング🧵後に追加された防御よりも、敵対的な微調整に抵抗するのに10倍以上効果的であることがわかりました
30.11K