有没有好的图像转视频模型可以处理两个或多个角色之间的对话? (可以上传包含多个发言者的对话,并将其匹配到说话的角色)
4.28K