-
Notifications
You must be signed in to change notification settings - Fork 175
Open
Description
作者您好,我最近阅读了贵团队的论文《Accelerating Mobile Language Model via Speculative
Decoding and NPU-Coordinated Execution》,当前MLLM QNN AOT的实现是不是就对应于该论文?
但是在QNN AOT中我并没有找到关于推测解码的实现,而且似乎该论文中提到的技术路线是延续MLLM V1中CPU和NPU异构的架构,不过在解码阶段由于推测解码的实现使得从原本的CPU实现也变成了CPU和NPU异构。不过当前QNN AOT的实现似乎无论是预填充还是解码阶段,都只在NPU上实现,原本由CPU负责的子图,交给了NPU的向量处理部件负责,不知道我的理解是否正确?如果错误还请作者能指点一下。另外,推测解码实现的位置是否可以帮忙指出一下?谢谢!
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels