Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die besten Open-Source-LLMs weisen einige interessante Unterschiede in der Architektur und den Trainingsmethoden auf.
Ich habe alle Papiere gründlich gelesen, um sie in diesem Video zu analysieren (und mein Debüt auf dem YC YouTube 😅)
Schau es dir an und lass mich wissen, was du denkst!

29. Aug. 2025
OpenAI hat kürzlich sein erstes Modell mit offenen Gewichten seit GPT-2 veröffentlicht und betritt ein Feld, das von DeepSeek und Alibabas Qwen angeführt wird.
Ankit (@GuptaAnkitV) analysiert diese Top-OSS-Modelle, einschließlich der Unterschiede, die sie im Inneren auszeichnen: Mischung von Experten, Training mit langem Kontext und Nachtrainingstechniken, die das Denken und die Ausrichtung prägen – und wie unterschiedliche Designentscheidungen zu überraschend ähnlichen Leistungen führen.
00:00 – OpenAI OSS Launch
01:00 – Vergleich von Open Source LLM-Architekturen
01:46 – GPT OSS Übersicht
02:37 – Unter der Haube von GPT OSS
03:25 – Qwen-3 Architektur
04:17 – Qwen-3 Training
05:12 – Qwen-3 Nachtraining
06:08 – Qwen-3 Denken & RL-Innovationen
06:52 – DeepSeek V3 Übersicht
07:40 – DeepSeek V3.1 Updates
08:39 – Aufmerksamkeitsmechanismus (MLA)
09:39 – Vergleich der Modellgrößen
10:35 – Strategien für langen Kontext
11:25 – Reflexionen über Methoden
12:00 – Erkenntnisse
52,02K
Top
Ranking
Favoriten