Skip to content

MLLM Qnn AOT 的纯NPU方案如何解决静态计算图部署到DSP内存时,DSP内存可能不足的问题 #647

@zjj6084bty

Description

@zjj6084bty

作者您好,我想请教一下,当前 MLLM Qnn AOT 所采用的预填充和解码阶段都只在NPU上运行时,所有计算图都需要部署到DSP内存上,是如何解决DSP内存可能不足的问题的?因为MLLM V1版本在预填充阶段有一半计算图是在NPU上进行,一半计算图是在CPU上进行,我在尝试将所有计算图都部署到NPU上时,采用模型是Qwen-1.5-1.8b,会出现DSP内存不足导致后10层的计算图无法部署的问题,我想请教一下作者在实现纯NPU方案时是否遇到这个问题?是如何解决的?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions