Gemma 3 270m 4-bit DWQ está en funcionamiento. La misma velocidad, la misma memoria, mucha mejor calidad:
Awni Hannun
Awni Hannun15 ago, 02:01
Gemma 3 270m de 4 bits genera texto a más de 650 (!) tok/seg en un M4 Max con mlx-lm y utiliza < 200MB: No acelerado:
28,74K