论文中 3.3 节描述了一个关键词选择器:在 LLM 隐层上方接 Linear → Sigmoid,对每个文本 token 预测其是否为“可接地目标词”(推理阈值 λ=0.3,相邻正例 token 合并成同一短语;训练用 BCE)。
但在当前仓库代码中,我没有找到该可训练的选择器模块;实际流程似乎是通过数据处理阶段产出的 mask_ids 来“等价挑词”,即在前向中用 matched = (mask_ids == k) 聚合对应 token 的注意力与隐藏态,然后送入 U-Net/SAM。
如果我遗漏了具体实现位置,请指正🙏