我的 https://github.com/HaujetZhao/Qwen3-TTS-GGUF 就是只把 LLM 部分提取为 GGUF,用现成的 LLama.cpp 加速,然后其它部分转为 onnx 用 OnnxRuntime 跑,二者都可以用 gpu 加速。
当然我这是调包行为。
如果要用纯 cpp 实现,可以把各个组件剥离开,分别用 gpu (cuda/vulkan) 跑。如果 llm 部分不能跑,就把 llm 部分提取为适合 llama.cpp 的结构,llama.cpp 必定是可以跑的,对比看看它是做了什么优化。
我的 https://github.com/HaujetZhao/Qwen3-TTS-GGUF 就是只把 LLM 部分提取为 GGUF,用现成的 LLama.cpp 加速,然后其它部分转为 onnx 用 OnnxRuntime 跑,二者都可以用 gpu 加速。
当然我这是调包行为。
如果要用纯 cpp 实现,可以把各个组件剥离开,分别用 gpu (cuda/vulkan) 跑。如果 llm 部分不能跑,就把 llm 部分提取为适合 llama.cpp 的结构,llama.cpp 必定是可以跑的,对比看看它是做了什么优化。