Skip to content

[Roadmap] AISBench 2026 Q1 Roadmap #140

@GaoHuaZhang

Description

@GaoHuaZhang

当前状态分析 | Current Status Analysis

项目定位:AISBench 当前作为 AI 推理与多模态评测基准,覆盖文本与多模态场景下的精度评测与性能测评。

已有能力

  • 模型后端:已支持 HuggingFace、vLLM 等本地推理(ais_bench/benchmark/models/local_models/),以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
  • 评测体系:基于 openicl 的评测 pipeline,支持数据集与 evaluator 配置,可对推理结果进行多维度评测。
  • 性能测评:支持 trace 数据集与 --mode perf 下的性能测试;配置通过 --datasets--models 指定,当前为精确匹配。
  • 配置与搜索:提供 --search 等能力用于查看配置路径;配置加载需写全名或先查路径。

缺口与诉求

  • 多模态生成(T2V/I2V)评测能力缺失,需接入 VBench 等标准评测体系。
  • 基于 timestamp 的请求流控与固定流控尚未实现,与 AIPerf 的 Fixed Schedule 语义未对齐,无法在可复现、可控负载下做性能对比。
  • MindSpore 作为本地推理后端尚未支持;自定义裁判模型(API/URL)对推理结果打分的评测能力待建设。
  • 图像编辑类精度测评(如 GEdit-Bench)未接入;配置需支持模糊匹配以提升使用体验。

路线图愿景 | Roadmap Vision

2026 Q1 将围绕多模态与生成测评性能与流控可复现性模型后端扩展评测能力增强(裁判模型)、图像编辑测评配置体验六个方向推进。

方向与目标:建成 VBench 多模态生成(T2V/I2V)评测体系;实现与 AIPerf 对齐的基于时间戳的固定流控与调度,支撑可复现性能测评;新增 MindSpore 本地推理后端;支持用户配置自定义裁判模型对推理结果打分;接入 GEdit-Bench 完成图像编辑模型精度测评;为 --datasets / --models 提供模糊匹配,默认即可用部分配置名搜索。最终在 Q1 内完成上述能力落地,并统一文档与示例,便于复用到 issue 与协作。

阶段性目标 | Phased Goals

时间约束:全部特性需在 3 月 31 日前 完成。

时间节点 阶段性目标
2/14 前 配置模糊匹配(任务 6)交付;多模态(任务 1)、性能流控(任务 2)设计/标准确认
2/28 前 性能与流控(任务 2)、MindSpore(任务 3)、裁判模型(任务 4)阶段交付
3/15 前 多模态(任务 1)、性能流控(任务 2)、图像编辑(任务 5)主体完成
3/31 前 全部特性验收、文档与示例就绪

关键任务 | Key Tasks

1. 多模态与生成测评(VBench 接入)

  • 目标:建设新的测评体系,接入 VBench,支持多模态生成类(T2V、I2V)的多维度评测。
  • 关键交付/里程碑
    • 对接 VBench 的 prompt suite 与评测维度(如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等)。
    • ais_bench/benchmark/datasets/ 中新增 VBench 相关数据集/评测器,或调用 VBench 脚本/库产出与 AISBench 统一的结果格式;首期支持离线视频文件 + VBench 维度。
    • 2/14 前对接方式确认、T2V 维度开发启动;3/15 前 T2V 维度接入完成;3/31 前 I2V/首期规划维度完成、文档与示例就绪。

2. 性能与流控(时间戳 / 固定流控)

  • 目标:参考 AIPerf,适配基于 timestamp 的请求流量控制,支持固定流控下的性能测评(可复现、可控负载)。
  • 关键交付/里程碑
    • Trace 支持 timestamp 及固定调度参数(如 fixed_schedule_auto_offset、fixed_schedule_start_offset、fixed_schedule_end_offset);模型侧提供 use_timestamp 等开关,按 trace 时间序列发送请求。
    • 与 AIPerf Fixed Schedule 语义对齐(单位、偏移、窗口过滤),文档注明兼容性与使用方式;发布《固定流控与时间戳调度》文档。
    • 2/14 前标准定稿、实现启动;2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿;3/15 前固定流控全流程验收、文档发布。

3. 模型后端(MindSpore 本地模型)

  • 目标:支持以 MindSpore 为推理后端的本地纯模型推理(本地加载、进程内推理,非服务化 API)。
  • 关键交付/里程碑
    • ais_bench/benchmark/models/local_models/ 下新增 MindSpore 实现(如 mindspore.py),与 HuggingFace、vLLM 同级;实现本地加载与 forward 推理,对接 GenInferencer / BaseLocalInferencer。
    • 2/28 前指定模型在 MindSpore 上跑通推理;3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。

4. 评测能力(自定义裁判模型)

  • 目标:支持用户配置自定义裁判模型(API/URL),对模型推理结果进行打分,用于主观或维度化评测。
  • 关键交付/里程碑
    • 定义裁判模型调用约定(输入:prompt/query、模型输出、参考答案等;输出:分数或维度分数);实现 JudgeModelEvaluator,通过 URL/API 调用外部裁判服务;配置支持 judge_model_url / judge_model_cfg。
    • 2/28 前 API 协议与 JudgeModelEvaluator 实现、至少 1 类任务可用;3/31 前 Q1 交付范围(任务类型、数据集数量)达成。

5. 图像编辑测评(GEdit 接入)

  • 目标:接入 Step1X-Edit 的 GEdit-Bench,支持图像编辑模型的精度测评,并与官方评测脚本对齐。
  • 关键交付/里程碑
    • 在 configs/datasets/ 与 datasets/ 中新增 GEdit 数据集,支持“原图 + 编辑指令 → 模型输出图”;实现或封装 GEdit 评测维度,与“自定义裁判模型”对接;与官方评测脚本(指标与流程)对齐并文档化。
    • 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明;3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。

6. 配置模糊匹配(--search / --datasets、--models)

  • 目标:用户使用 --datasets--models 时可只写部分配置名(如 mooncake、qwen),由工具自动搜索并匹配(如 mooncake_trace、qwen3_0_6b),无需写全名或先跑 --search
  • 关键交付/里程碑
    • 加载配置时对 --datasets、--models(及可选 --summarizer)先精确后模糊匹配,与 match_files(..., fuzzy=True) 的 pattern 语义一致;--search 与模糊匹配采用同一套规则;多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
    • 2/14 前实现并合入、文档与待补全项定稿。

8. 其他(可选)

  • CI、文档、发布节奏等按需在本季度补充与更新。

补充说明 | Additional Notes

时间约束

  • 全部特性需在 3 月 31 日前 完成。

各条补充说明

  • 任务 1(VBench):首期支持离线视频文件 + VBench 维度,与 VBench 官方用法一致。
  • 任务 2(性能与流控):需考虑多进程/多 worker 下的时间对齐;与 AIPerf 使用同一 trace 的验收标准(如时间误差阈值)需明确。
  • 任务 3(MindSpore):MindSpore 本地离线推理,非服务化。
  • 任务 4(裁判模型):裁判 API 的请求/响应协议对齐 OpenCompass。
  • 任务 6(模糊匹配):默认开启模糊匹配。

参考链接

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions