La pregunta más difícil para el aprendizaje continuo es identificar los benchmarks y experiencias de producto adecuados para la destilación del contexto
Hay una lista bastante limitada de métodos que querrías considerar, que tendrán compensaciones en diferentes regímenes. Actualmente no está muy claro cómo evaluarlos entre sí, ni para qué problema específico usarías una solución
Un extremo: aprendizaje "continuo" en bloques discretos de 6 meses, para un conocimiento del mundo completamente intuitivo ¿De verdad esperamos que haya algo mejor que continuar con todo internet antes o mitad del entrenamiento + repetir el entrenamiento normal después del entrenamiento?
Por ejemplo, claro, quizá puedas hacer una fusión de pesos del antiguo punto de control post-entrenado con un nuevo punto de control CPT para ahorrar algo, quizá puedas simplemente CPTAR ciertas capas/expertos, y podríamos experimentar caro con qué versión de esto es más práctica, pero el espacio de diseño es conocido
Por "destilación de contexto" me refiero a que querrás algún pipeline automático que recoja los volcados de información (transcripciones de chats, textos web, historiales de repositorios) y los organice para algo más útil para el entrenamiento intermedio o posterior que la forma bruta (por ejemplo, preguntas y respuestas básicas)
134