ok, ik heb hulp nodig! Ik heb geprobeerd GPT-OSS te finetunen in het weekend. Het werkt voor ongeveer 100 stappen, daarna krijg ik een CUDA out-of-memory fout. Mijn vermoeden is dat af en toe alle tokens naar een enkele expert worden geleid. Dan crasht de training. Is er een gemakkelijke oplossing? Ik heb nog nooit een MoE gefinetuned.
😒
95,34K