¿Existen buenos modelos de imagen a video que puedan manejar conversaciones entre dos o más personajes? (donde puedes subir un diálogo con más de un hablante y se empareja con los personajes que están hablando)