Skip to content

推测解码的实现 #649

@zjj6084bty

Description

@zjj6084bty

作者您好,我最近阅读了贵团队的论文《Accelerating Mobile Language Model via Speculative
Decoding and NPU-Coordinated Execution》,当前MLLM QNN AOT的实现是不是就对应于该论文?

但是在QNN AOT中我并没有找到关于推测解码的实现,而且似乎该论文中提到的技术路线是延续MLLM V1中CPU和NPU异构的架构,不过在解码阶段由于推测解码的实现使得从原本的CPU实现也变成了CPU和NPU异构。不过当前QNN AOT的实现似乎无论是预填充还是解码阶段,都只在NPU上实现,原本由CPU负责的子图,交给了NPU的向量处理部件负责,不知道我的理解是否正确?如果错误还请作者能指点一下。另外,推测解码实现的位置是否可以帮忙指出一下?谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions