Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De beste open source LLM's hebben enkele interessante verschillen in architectuur en trainingsmethoden.
Ik heb alle papers grondig gelezen om ze in deze video te analyseren (en mijn debuut op het YC YouTube 😅)
Bekijk het en laat me weten wat je ervan vindt!

29 aug 2025
OpenAI heeft onlangs zijn eerste open-gewichten model sinds GPT-2 uitgebracht, waarmee het een veld betreedt dat wordt geleid door DeepSeek en Alibaba's Qwen.
Ankit (@GuptaAnkitV) legt deze top OSS-modellen uit, inclusief wat ze onder de motorkap onderscheidt: mengsel van experts, training met lange context en post-training technieken die redenering en afstemming vormgeven—en hoe verschillende ontwerpkeuzes leiden tot verrassend vergelijkbare prestaties.
00:00 – OpenAI OSS Lancering
01:00 – Vergelijken van Open Source LLM Architecturen
01:46 – GPT OSS Overzicht
02:37 – Onder de Motorkap van GPT OSS
03:25 – Qwen-3 Architectuur
04:17 – Qwen-3 Training
05:12 – Qwen-3 Post-Training
06:08 – Qwen-3 Redenering & RL Innovaties
06:52 – DeepSeek V3 Overzicht
07:40 – DeepSeek V3.1 Updates
08:39 – Aandacht Mechanisme (MLA)
09:39 – Vergelijken van Modelgroottes
10:35 – Lange Context Strategieën
11:25 – Reflecties op Methoden
12:00 – Belangrijkste Punten
52,68K
Boven
Positie
Favorieten