Có mô hình nào tốt để chuyển đổi hình ảnh thành video có thể xử lý các cuộc trò chuyện giữa hai hoặc nhiều nhân vật không? (nơi bạn có thể tải lên một đoạn hội thoại với nhiều người nói, và nó sẽ khớp với các nhân vật đang nói)