Optimized to run on 8Gb vram without OOM, Dynamic quantization [Do not Merge] #76

nalexand · 2026-01-27T07:05:34Z

5.43 it/sec on 3070ti laptop 8Gb. (2.3 sec for each second of generated music)

Linear layers loading in Fp8, can be some degradation in quality. But still usable.

Before 280sec ~ 2hr
After 280sec ~ 10min

Python 3.12
torch==2.8.0+cu128

Optimize to run fast on 8Gb VRAM

nalexand and others added 2 commits January 27, 2026 07:01

Optimize to run fast on 8Gb VRAM

bbffbe2

Merge pull request #1 from nalexand/optimizations

37db490

Optimize to run fast on 8Gb VRAM

Provide feedback