MLLM Qnn AOT 的纯NPU方案如何解决静态计算图部署到DSP内存时，DSP内存可能不足的问题

作者您好，我想请教一下，当前 MLLM Qnn AOT 所采用的预填充和解码阶段都只在NPU上运行时，所有计算图都需要部署到DSP内存上，是如何解决DSP内存可能不足的问题的？因为MLLM V1版本在预填充阶段有一半计算图是在NPU上进行，一半计算图是在CPU上进行，我在尝试将所有计算图都部署到NPU上时，采用模型是Qwen-1.5-1.8b，会出现DSP内存不足导致后10层的计算图无法部署的问题，我想请教一下作者在实现纯NPU方案时是否遇到这个问题？是如何解决的？