Reúna algumas notas sobre o novo artigo da DeepMind "Modelos de vídeo são aprendizes e raciocinadores zero-shot" - ele apresenta um argumento muito convincente de que os modelos de vídeo generativos são para problemas de visão o que os LLMs eram para problemas de NLP: modelos únicos que podem resolver uma ampla gama de desafios.
@JustinAngel Em ambos os casos, você pode encontrar casos extremos que expõem suas limitações - com LLMs, essas limitações podem ser superadas à medida que os modelos melhoram, será interessante ver se isso acontece com os modelos de vídeo.
20,87K