Skip to content

如果 vulkan 和 cuda 运行难以解决,可以考虑混合推理,用现成方案 #6

@HaujetZhao

Description

@HaujetZhao

我的 https://github.com/HaujetZhao/Qwen3-TTS-GGUF 就是只把 LLM 部分提取为 GGUF,用现成的 LLama.cpp 加速,然后其它部分转为 onnx 用 OnnxRuntime 跑,二者都可以用 gpu 加速。

当然我这是调包行为。

如果要用纯 cpp 实现,可以把各个组件剥离开,分别用 gpu (cuda/vulkan) 跑。如果 llm 部分不能跑,就把 llm 部分提取为适合 llama.cpp 的结构,llama.cpp 必定是可以跑的,对比看看它是做了什么优化。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions