如果 vulkan 和 cuda 运行难以解决，可以考虑混合推理，用现成方案

我的 https://github.com/HaujetZhao/Qwen3-TTS-GGUF 就是只把 LLM 部分提取为 GGUF，用现成的 LLama.cpp 加速，然后其它部分转为 onnx 用 OnnxRuntime 跑，二者都可以用 gpu 加速。

当然我这是调包行为。

如果要用纯 cpp 实现，可以把各个组件剥离开，分别用 gpu (cuda/vulkan) 跑。如果 llm 部分不能跑，就把 llm 部分提取为适合 llama.cpp 的结构，llama.cpp 必定是可以跑的，对比看看它是做了什么优化。