使用api调用qwen3vl测试结果非常差

api调用的qwen3vl准确率大概只有1%，我将GPT5中的url、apikey和model name换成了qwen3vl，prompt没变。由于qwen3vl返回的结果是原始坐标我多调用了一次qwen3vl询问它看到的图像大小然后手动做了归一化但是结果偏差非常大，请问作者我的测试流程是否有问题？我还注意到排行榜上面gpt系列的准确率也很低，但是qwen2.5vl的准确率非常高。