DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

de moeilijkste open vraag voor continue leren is het vinden van de juiste benchmarks en productervaringen voor contextdistillatie

er is een vrij beperkte lijst van methoden die je zou willen overwegen, die verschillende afwegingen hebben in verschillende situaties. het is momenteel gewoon niet erg duidelijk hoe je ze tegen elkaar kunt evalueren, of voor welk specifiek probleem je aanvankelijk een oplossing zou implementeren.

één extremum: "voortdurend" leren in discrete blokken van 6 maanden, voor volledige intuïtieve wereldkennis verwachten we echt dat er iets beter is dan voortdurende pre/mid-training van het hele internet + het opnieuw doen van normale post-training?

misschien kun je gewicht-samenvoegen van de oude post-getrainde checkpoint met een nieuwe CPT-checkpoint om wat besparingen te krijgen, misschien kun je gewoon bepaalde lagen/expert CPT'en, en we zouden kostbaar kunnen experimenteren met welke versie hiervan het meest praktisch is, maar de ontwerpruimte is bekend

met "contextdistillatie" bedoel ik dat je een automatische pipeline wilt die informatie-dumps (chattranscripts, webtekst, repo-historieken) verwerkt tot iets nuttigers voor mid/post-training dan de ruwe vorm (bijv. basis Q&A)

141

Boven

Positie

Favorieten