Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

clem 🤗
Medgründer og administrerende direktør @HuggingFace🤗, den åpne og samarbeidende plattformen for AI-byggere
Et kinesisk matleveringsselskap bidrar mer til å fremme AI enn US Big Tech takket være åpen vitenskap og åpen kildekode AI 🤯🤯🤯
USA er kokt hvis AI-forskere ikke kjemper mot ledelsen sin for å komme tilbake til røttene våre med å dele vitenskap i stedet for å holde den hemmelig og bare tjene penger på den maksimalt!
I det lange løp bygger åpen vitenskap sterkere selskaper, sterkere land og en sterkere verden!

elie31. aug. 2025
Den tekniske rapporten til @Meituan_LongCat LongCat-Flash er vanvittig god og full av nyheter.
Modellen er en 560B passiv ~27B aktiv MoE med adaptivt antall aktive parametere avhengig av konteksten takket være Zero-Computational-eksperten.
1) Ny arkitektur
> lag har 2 oppmerksomhetsblokker og både FFN og MoE, på den måten kan du overlappe de 2 alt-til-alle-comene. (Dessuten er det bare 28 lag, men du må ta hensyn til de 2 oppmerksomhetsblokkene).
> De legger til null-beregningseksperten at tokens kan velge og ikke gjøre noe, litt som en "vask" for enkle tokens.
> For lastbalansering har de et dsv3-lignende aux-tap gratis for å angi gjennomsnittlig ekte/falsk ekspert per token. De bruker en forfallsplan på denne skjevhetsoppdateringen. De gjør også tapsbalansekontroll.
2) Skalering
> De gjorde endringer i MLA/MoE for å ha variansjustering ved init. Gevinstene er ganske imponerende i figur 5, men jeg vet ikke i hvilken grad dette har innvirkning senere.
> Modellvekst init er ganske kult, de trener først en 2x mindre modell, og deretter "når den er trent nok" (litt uklart her hvor mange B-tokens) initerer de den endelige modellen ved å bare stable lagene til den mindre modellen.
> De brukte @_katieeverett @Locchiu og al. papir for å ha hyperparameteroverføring med SP i stedet for muP for den 2x mindre modellen ig.
3) Stabilitet
> De sporer Gradient Norm Ratio og cosinuslikhet mellom eksperter for å justere vekten av lastbalanseringstapet (de anbefaler Gradient Norm Ratio <0,1). > For å unngå store aktiveringer bruker de et z-tap på den skjulte tilstanden, med en ganske liten coef (et annet alternativ til qk-clip/norm).
> De setter Adam epsilon til 1e-16 og viser at du vil at den skal være lavere enn gradient RMS-området.
4) Andre
> De trener på 20T-tokens for fase 1, "multiple T of tokens" for midttrening på STEM/kodedata (70 % av blandingen), 100B for lang kontekstforlengelse uten garn (80B for 32k, 20B for 128k). De lange kontekstdokumentene representerer 25 % av blandingen (ikke sikker på om det er % av dokumenter eller tokens, noe som endrer mye her).
> Datapipeline før trening er kontekstutvinning, kvalitetsfiltrering, dedup.
> Nice-vedlegg der de viser at de sammenligner top_k som trengs for forskjellige benchmarks (høyere MMLU med 8.32, lavere GSM8K med 7.46). De sammenligner også tokenallokering i dype/grunne lag.
> De lanserer to nye benchmarks Meeseeks (multi-turn IF) og VitaBench (virkelig forretningsscenario).
> Mange detaljer i infra/inferens med informasjon om spekulativ dekodingsaksept, kvantisering, distribusjon, kjerneoptimalisering, coms-overlapping, etc.
> Liste over de forskjellige relevante papirene i tråden 🧵

111,24K
Hvis du tror @Apple ikke gjør mye innen AI, blir du overrasket av chatbot-hypen og følger ikke nok med!
De har nettopp gitt ut FastVLM og MobileCLIP2 på @huggingface. Modellene er opptil 85 ganger raskere og 3,4 ganger mindre enn tidligere arbeid, noe som muliggjør sanntids Vision Language Model (VLM)-applikasjoner! Den kan til og med gjøre live videoteksting 100% lokalt i nettleseren 🤯🤯🤯 din
53,78K
Topp
Rangering
Favoritter