-
Notifications
You must be signed in to change notification settings - Fork 14
Open
Milestone
Description
当前状态分析 | Current Status Analysis
项目定位:AISBench 当前作为 AI 推理与多模态评测基准,覆盖文本与多模态场景下的精度评测与性能测评。
已有能力:
- 模型后端:已支持 HuggingFace、vLLM 等本地推理(
ais_bench/benchmark/models/local_models/),以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。 - 评测体系:基于 openicl 的评测 pipeline,支持数据集与 evaluator 配置,可对推理结果进行多维度评测。
- 性能测评:支持 trace 数据集与
--mode perf下的性能测试;配置通过--datasets、--models指定,当前为精确匹配。 - 配置与搜索:提供
--search等能力用于查看配置路径;配置加载需写全名或先查路径。
缺口与诉求:
- 多模态生成(T2V/I2V)评测能力缺失,需接入 VBench 等标准评测体系。
- 基于 timestamp 的请求流控与固定流控尚未实现,与 AIPerf 的 Fixed Schedule 语义未对齐,无法在可复现、可控负载下做性能对比。
- MindSpore 作为本地推理后端尚未支持;自定义裁判模型(API/URL)对推理结果打分的评测能力待建设。
- 图像编辑类精度测评(如 GEdit-Bench)未接入;配置需支持模糊匹配以提升使用体验。
路线图愿景 | Roadmap Vision
2026 Q1 将围绕多模态与生成测评、性能与流控可复现性、模型后端扩展、评测能力增强(裁判模型)、图像编辑测评、配置体验六个方向推进。
方向与目标:建成 VBench 多模态生成(T2V/I2V)评测体系;实现与 AIPerf 对齐的基于时间戳的固定流控与调度,支撑可复现性能测评;新增 MindSpore 本地推理后端;支持用户配置自定义裁判模型对推理结果打分;接入 GEdit-Bench 完成图像编辑模型精度测评;为 --datasets / --models 提供模糊匹配,默认即可用部分配置名搜索。最终在 Q1 内完成上述能力落地,并统一文档与示例,便于复用到 issue 与协作。
阶段性目标 | Phased Goals
时间约束:全部特性需在 3 月 31 日前 完成。
| 时间节点 | 阶段性目标 |
|---|---|
| 2/14 前 | 配置模糊匹配(任务 6)交付;多模态(任务 1)、性能流控(任务 2)设计/标准确认 |
| 2/28 前 | 性能与流控(任务 2)、MindSpore(任务 3)、裁判模型(任务 4)阶段交付 |
| 3/15 前 | 多模态(任务 1)、性能流控(任务 2)、图像编辑(任务 5)主体完成 |
| 3/31 前 | 全部特性验收、文档与示例就绪 |
关键任务 | Key Tasks
1. 多模态与生成测评(VBench 接入)
- 目标:建设新的测评体系,接入 VBench,支持多模态生成类(T2V、I2V)的多维度评测。
- 关键交付/里程碑:
- 对接 VBench 的 prompt suite 与评测维度(如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等)。
- 在
ais_bench/benchmark/datasets/中新增 VBench 相关数据集/评测器,或调用 VBench 脚本/库产出与 AISBench 统一的结果格式;首期支持离线视频文件 + VBench 维度。 - 2/14 前对接方式确认、T2V 维度开发启动;3/15 前 T2V 维度接入完成;3/31 前 I2V/首期规划维度完成、文档与示例就绪。
2. 性能与流控(时间戳 / 固定流控)
- 目标:参考 AIPerf,适配基于 timestamp 的请求流量控制,支持固定流控下的性能测评(可复现、可控负载)。
- 关键交付/里程碑:
- Trace 支持
timestamp及固定调度参数(如 fixed_schedule_auto_offset、fixed_schedule_start_offset、fixed_schedule_end_offset);模型侧提供use_timestamp等开关,按 trace 时间序列发送请求。 - 与 AIPerf Fixed Schedule 语义对齐(单位、偏移、窗口过滤),文档注明兼容性与使用方式;发布《固定流控与时间戳调度》文档。
- 2/14 前标准定稿、实现启动;2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿;3/15 前固定流控全流程验收、文档发布。
- Trace 支持
3. 模型后端(MindSpore 本地模型)
- 目标:支持以 MindSpore 为推理后端的本地纯模型推理(本地加载、进程内推理,非服务化 API)。
- 关键交付/里程碑:
- 在
ais_bench/benchmark/models/local_models/下新增 MindSpore 实现(如 mindspore.py),与 HuggingFace、vLLM 同级;实现本地加载与 forward 推理,对接 GenInferencer / BaseLocalInferencer。 - 2/28 前指定模型在 MindSpore 上跑通推理;3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。
- 在
4. 评测能力(自定义裁判模型)
- 目标:支持用户配置自定义裁判模型(API/URL),对模型推理结果进行打分,用于主观或维度化评测。
- 关键交付/里程碑:
- 定义裁判模型调用约定(输入:prompt/query、模型输出、参考答案等;输出:分数或维度分数);实现 JudgeModelEvaluator,通过 URL/API 调用外部裁判服务;配置支持 judge_model_url / judge_model_cfg。
- 2/28 前 API 协议与 JudgeModelEvaluator 实现、至少 1 类任务可用;3/31 前 Q1 交付范围(任务类型、数据集数量)达成。
5. 图像编辑测评(GEdit 接入)
- 目标:接入 Step1X-Edit 的 GEdit-Bench,支持图像编辑模型的精度测评,并与官方评测脚本对齐。
- 关键交付/里程碑:
- 在 configs/datasets/ 与 datasets/ 中新增 GEdit 数据集,支持“原图 + 编辑指令 → 模型输出图”;实现或封装 GEdit 评测维度,与“自定义裁判模型”对接;与官方评测脚本(指标与流程)对齐并文档化。
- 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明;3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。
6. 配置模糊匹配(--search / --datasets、--models)
- 目标:用户使用
--datasets或--models时可只写部分配置名(如 mooncake、qwen),由工具自动搜索并匹配(如 mooncake_trace、qwen3_0_6b),无需写全名或先跑--search。 - 关键交付/里程碑:
- 加载配置时对 --datasets、--models(及可选 --summarizer)先精确后模糊匹配,与 match_files(..., fuzzy=True) 的 pattern 语义一致;--search 与模糊匹配采用同一套规则;多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
- 2/14 前实现并合入、文档与待补全项定稿。
8. 其他(可选)
- CI、文档、发布节奏等按需在本季度补充与更新。
补充说明 | Additional Notes
时间约束
- 全部特性需在 3 月 31 日前 完成。
各条补充说明
- 任务 1(VBench):首期支持离线视频文件 + VBench 维度,与 VBench 官方用法一致。
- 任务 2(性能与流控):需考虑多进程/多 worker 下的时间对齐;与 AIPerf 使用同一 trace 的验收标准(如时间误差阈值)需明确。
- 任务 3(MindSpore):MindSpore 本地离线推理,非服务化。
- 任务 4(裁判模型):裁判 API 的请求/响应协议对齐 OpenCompass。
- 任务 6(模糊匹配):默认开启模糊匹配。
参考链接
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels