推测解码的实现

作者您好，我最近阅读了贵团队的论文《Accelerating Mobile Language Model via Speculative
Decoding and NPU-Coordinated Execution》，当前MLLM QNN AOT的实现是不是就对应于该论文？

但是在QNN AOT中我并没有找到关于推测解码的实现，而且似乎该论文中提到的技术路线是延续MLLM V1中CPU和NPU异构的架构，不过在解码阶段由于推测解码的实现使得从原本的CPU实现也变成了CPU和NPU异构。不过当前QNN AOT的实现似乎无论是预填充还是解码阶段，都只在NPU上实现，原本由CPU负责的子图，交给了NPU的向量处理部件负责，不知道我的理解是否正确？如果错误还请作者能指点一下。另外，推测解码实现的位置是否可以帮忙指出一下？谢谢！