De beste open source LLM's hebben enkele interessante verschillen in architectuur en trainingsmethoden. Ik heb alle papers grondig gelezen om ze in deze video te analyseren (en mijn debuut op het YC YouTube 😅) Bekijk het en laat me weten wat je ervan vindt!
Y Combinator
Y Combinator29 aug 2025
OpenAI heeft onlangs zijn eerste open-gewichten model sinds GPT-2 uitgebracht, waarmee het een veld betreedt dat wordt geleid door DeepSeek en Alibaba's Qwen. Ankit (@GuptaAnkitV) legt deze top OSS-modellen uit, inclusief wat ze onder de motorkap onderscheidt: mengsel van experts, training met lange context en post-training technieken die redenering en afstemming vormgeven—en hoe verschillende ontwerpkeuzes leiden tot verrassend vergelijkbare prestaties. 00:00 – OpenAI OSS Lancering 01:00 – Vergelijken van Open Source LLM Architecturen 01:46 – GPT OSS Overzicht 02:37 – Onder de Motorkap van GPT OSS 03:25 – Qwen-3 Architectuur 04:17 – Qwen-3 Training 05:12 – Qwen-3 Post-Training 06:08 – Qwen-3 Redenering & RL Innovaties 06:52 – DeepSeek V3 Overzicht 07:40 – DeepSeek V3.1 Updates 08:39 – Aandacht Mechanisme (MLA) 09:39 – Vergelijken van Modelgroottes 10:35 – Lange Context Strategieën 11:25 – Reflecties op Methoden 12:00 – Belangrijkste Punten
52,68K