Fasse einige Notizen zu dem neuen DeepMind-Papier "Video-Modelle sind Zero-Shot-Lerner und -Denker" zusammen - es wird ein sehr überzeugendes Argument dafür gemacht, dass generative Videomodelle für visuelle Probleme das sind, was LLMs für NLP-Probleme waren: einzelne Modelle, die eine Vielzahl von Herausforderungen lösen können.
@JustinAngel In beiden Fällen kann man Randfälle finden, die ihre Einschränkungen aufzeigen - bei LLMs könnten diese Einschränkungen überwunden werden, während sich die Modelle verbessern. Es wird interessant sein zu sehen, ob das auch für Videomodelle passiert.
20,86K