la domanda aperta più difficile per l'apprendimento continuo è capire i giusti benchmark e le esperienze di prodotto per la distillazione del contesto
c'è una lista piuttosto limitata di metodi che vorresti considerare, i quali avranno dei compromessi in diversi regimi. Attualmente non è molto chiaro come valutarli l'uno contro l'altro, o per quale problema specifico inizialmente implementeresti una soluzione.
un estremo: apprendimento "continuo" su blocchi discreti di 6 mesi, per una conoscenza intuitiva completa del mondo ci aspettiamo davvero che ci sia qualcosa di meglio rispetto a un continuo pre/addestramento su tutto l'internet + rifare il normale post-addestramento?
sì, certo, forse puoi fare il weight-merging del vecchio checkpoint post-addestrato con un nuovo checkpoint CPT per ottenere alcuni risparmi, forse puoi semplicemente CPT determinati strati/esperti, e potremmo sperimentare costosamente su quale versione di questo sia la più pratica, ma lo spazio di design è noto
con "distillazione del contesto" intendo che avrai bisogno di una pipeline automatica che prenda in input dei dump informativi (trascrizioni di chat, testi web, storie di repository) e li trasformi in qualcosa di più utile per la formazione intermedia/post-formazione rispetto alla forma grezza (ad esempio, domande e risposte di base)
107