[Roadmap] AISBench 2026 Q1 Roadmap

### 当前状态分析 | Current Status Analysis

**项目定位**：AISBench 当前作为 AI 推理与多模态评测基准，覆盖文本与多模态场景下的精度评测与性能测评。

**已有能力**：

- **模型后端**：已支持 HuggingFace、vLLM 等本地推理（`ais_bench/benchmark/models/local_models/`），以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
- **评测体系**：基于 openicl 的评测 pipeline，支持数据集与 evaluator 配置，可对推理结果进行多维度评测。
- **性能测评**：支持 trace 数据集与 `--mode perf` 下的性能测试；配置通过 `--datasets`、`--models` 指定，当前为精确匹配。
- **配置与搜索**：提供 `--search` 等能力用于查看配置路径；配置加载需写全名或先查路径。

**缺口与诉求**：

- 多模态生成（T2V/I2V）评测能力缺失，需接入 VBench 等标准评测体系。
- 基于 timestamp 的请求流控与固定流控尚未实现，与 AIPerf 的 Fixed Schedule 语义未对齐，无法在可复现、可控负载下做性能对比。
- MindSpore 作为本地推理后端尚未支持；自定义裁判模型（API/URL）对推理结果打分的评测能力待建设。
- 图像编辑类精度测评（如 GEdit-Bench）未接入；配置需支持模糊匹配以提升使用体验。

### 路线图愿景 | Roadmap Vision

2026 Q1 将围绕**多模态与生成测评**、**性能与流控可复现性**、**模型后端扩展**、**评测能力增强**（裁判模型）、**图像编辑测评**、**配置体验**六个方向推进。

**方向与目标**：建成 VBench 多模态生成（T2V/I2V）评测体系；实现与 AIPerf 对齐的基于时间戳的固定流控与调度，支撑可复现性能测评；新增 MindSpore 本地推理后端；支持用户配置自定义裁判模型对推理结果打分；接入 GEdit-Bench 完成图像编辑模型精度测评；为 `--datasets` / `--models` 提供模糊匹配，默认即可用部分配置名搜索。最终在 Q1 内完成上述能力落地，并统一文档与示例，便于复用到 issue 与协作。

### 阶段性目标 | Phased Goals


**时间约束**：全部特性需在 **3 月 31 日前** 完成。

| 时间节点 | 阶段性目标 |
|----------|-------------|
| **2/14 前** | 配置模糊匹配（任务 6）交付；多模态（任务 1）、性能流控（任务 2）设计/标准确认 |
| **2/28 前** | 性能与流控（任务 2）、MindSpore（任务 3）、裁判模型（任务 4）阶段交付 |
| **3/15 前** | 多模态（任务 1）、性能流控（任务 2）、图像编辑（任务 5）主体完成 |
| **3/31 前** | 全部特性验收、文档与示例就绪 |

### 关键任务 | Key Tasks

### 1. 多模态与生成测评（VBench 接入）

- **目标**：建设新的测评体系，接入 VBench，支持多模态生成类（T2V、I2V）的多维度评测。
- **关键交付/里程碑**：
  - 对接 VBench 的 prompt suite 与评测维度（如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等）。
  - 在 `ais_bench/benchmark/datasets/` 中新增 VBench 相关数据集/评测器，或调用 VBench 脚本/库产出与 AISBench 统一的结果格式；首期支持离线视频文件 + VBench 维度。
  - 2/14 前对接方式确认、T2V 维度开发启动；3/15 前 T2V 维度接入完成；3/31 前 I2V/首期规划维度完成、文档与示例就绪。

### 2. 性能与流控（时间戳 / 固定流控）

- **目标**：参考 AIPerf，适配基于 timestamp 的请求流量控制，支持固定流控下的性能测评（可复现、可控负载）。
- **关键交付/里程碑**：
  - Trace 支持 `timestamp` 及固定调度参数（如 fixed_schedule_auto_offset、fixed_schedule_start_offset、fixed_schedule_end_offset）；模型侧提供 `use_timestamp` 等开关，按 trace 时间序列发送请求。
  - 与 AIPerf Fixed Schedule 语义对齐（单位、偏移、窗口过滤），文档注明兼容性与使用方式；发布《固定流控与时间戳调度》文档。
  - 2/14 前标准定稿、实现启动；2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿；3/15 前固定流控全流程验收、文档发布。

### 3. 模型后端（MindSpore 本地模型）

- **目标**：支持以 MindSpore 为推理后端的本地纯模型推理（本地加载、进程内推理，非服务化 API）。
- **关键交付/里程碑**：
  - 在 `ais_bench/benchmark/models/local_models/` 下新增 MindSpore 实现（如 mindspore.py），与 HuggingFace、vLLM 同级；实现本地加载与 forward 推理，对接 GenInferencer / BaseLocalInferencer。
  - 2/28 前指定模型在 MindSpore 上跑通推理；3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。

### 4. 评测能力（自定义裁判模型）

- **目标**：支持用户配置自定义裁判模型（API/URL），对模型推理结果进行打分，用于主观或维度化评测。
- **关键交付/里程碑**：
  - 定义裁判模型调用约定（输入：prompt/query、模型输出、参考答案等；输出：分数或维度分数）；实现 JudgeModelEvaluator，通过 URL/API 调用外部裁判服务；配置支持 judge_model_url / judge_model_cfg。
  - 2/28 前 API 协议与 JudgeModelEvaluator 实现、至少 1 类任务可用；3/31 前 Q1 交付范围（任务类型、数据集数量）达成。

### 5. 图像编辑测评（GEdit 接入）

- **目标**：接入 Step1X-Edit 的 GEdit-Bench，支持图像编辑模型的精度测评，并与官方评测脚本对齐。
- **关键交付/里程碑**：
  - 在 configs/datasets/ 与 datasets/ 中新增 GEdit 数据集，支持“原图 + 编辑指令 → 模型输出图”；实现或封装 GEdit 评测维度，与“自定义裁判模型”对接；与官方评测脚本（指标与流程）对齐并文档化。
  - 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明；3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。

### 6. 配置模糊匹配（--search / --datasets、--models）

- **目标**：用户使用 `--datasets` 或 `--models` 时可只写部分配置名（如 mooncake、qwen），由工具自动搜索并匹配（如 mooncake_trace、qwen3_0_6b），无需写全名或先跑 `--search`。
- **关键交付/里程碑**：
  - 加载配置时对 --datasets、--models（及可选 --summarizer）先精确后模糊匹配，与 match_files(..., fuzzy=True) 的 *pattern* 语义一致；--search 与模糊匹配采用同一套规则；多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
  - 2/14 前实现并合入、文档与待补全项定稿。

### 8. 其他（可选）

- CI、文档、发布节奏等按需在本季度补充与更新。

### 补充说明 | Additional Notes

### 时间约束

- 全部特性需在 **3 月 31 日前** 完成。

### 各条补充说明

- **任务 1（VBench）**：首期支持离线视频文件 + VBench 维度，与 VBench 官方用法一致。
- **任务 2（性能与流控）**：需考虑多进程/多 worker 下的时间对齐；与 AIPerf 使用同一 trace 的验收标准（如时间误差阈值）需明确。
- **任务 3（MindSpore）**：MindSpore 本地离线推理，非服务化。
- **任务 4（裁判模型）**：裁判 API 的请求/响应协议对齐 OpenCompass。
- **任务 6（模糊匹配）**：默认开启模糊匹配。

### 参考链接

- [VBench](https://github.com/Vchitect/VBench)
- [AIPerf](https://github.com/ai-dynamo/aiperf)
- [MindSpore](https://github.com/mindspore-ai/mindspore)
- [Step1X-Edit / GEdit-Bench](https://github.com/stepfun-ai/Step1X-Edit)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Roadmap] AISBench 2026 Q1 Roadmap #140

当前状态分析 | Current Status Analysis

路线图愿景 | Roadmap Vision

阶段性目标 | Phased Goals

关键任务 | Key Tasks

1. 多模态与生成测评（VBench 接入）

2. 性能与流控（时间戳 / 固定流控）

3. 模型后端（MindSpore 本地模型）

4. 评测能力（自定义裁判模型）

5. 图像编辑测评（GEdit 接入）

6. 配置模糊匹配（--search / --datasets、--models）

8. 其他（可选）

补充说明 | Additional Notes

时间约束

各条补充说明

参考链接

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

时间节点	阶段性目标
2/14 前	配置模糊匹配（任务 6）交付；多模态（任务 1）、性能流控（任务 2）设计/标准确认
2/28 前	性能与流控（任务 2）、MindSpore（任务 3）、裁判模型（任务 4）阶段交付
3/15 前	多模态（任务 1）、性能流控（任务 2）、图像编辑（任务 5）主体完成
3/31 前	全部特性验收、文档与示例就绪

[Roadmap] AISBench 2026 Q1 Roadmap #140

Description

当前状态分析 | Current Status Analysis

路线图愿景 | Roadmap Vision

阶段性目标 | Phased Goals

关键任务 | Key Tasks

1. 多模态与生成测评（VBench 接入）

2. 性能与流控（时间戳 / 固定流控）

3. 模型后端（MindSpore 本地模型）

4. 评测能力（自定义裁判模型）

5. 图像编辑测评（GEdit 接入）

6. 配置模糊匹配（--search / --datasets、--models）

8. 其他（可选）

补充说明 | Additional Notes

时间约束

各条补充说明

参考链接

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions