deepthink/eval.py at main · TheDuckAI/deepthink · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
import json
import os
from argparse import ArgumentDefaultsHelpFormatter, ArgumentParser

import numpy as np
from joblib import Parallel, delayed
from math_verify import parse, verify
from tqdm_joblib import tqdm_joblib


def eval_aime(solution, ground_truth):
    gold = parse(ground_truth)
    solution = parse(solution)
    return 1 if verify(gold, solution) else 0


def parse_args():
    parser = ArgumentParser(
        prog=f"uv run {os.path.basename(__file__)}",
        formatter_class=ArgumentDefaultsHelpFormatter,
    )
    parser.add_argument("input", type=str)
    args = parser.parse_args()
    return args


def main():
    args = parse_args()

    with open(args.input) as f:
        gens = [json.loads(line) for line in f.readlines()]

    if len(gens) == 0:
        raise ValueError("no generations to evaluate")

    print(f"Loaded {len(gens)} generations")

    tasks = []
    for gen in gens:
        match gen["dataset"]:
            case "aime2025":
                tasks.append(
                    delayed(eval_aime)(
                        gen["final_response"]["choices"][0]["message"]["content"],
                        gen["answer"],
                    )
                )
            case _:
                raise NotImplementedError()

    with tqdm_joblib(
        desc="Evaluation progress",
        total=len(tasks),
        unit="eval",
        dynamic_ncols=True,
    ) as _:
        results = Parallel(n_jobs=-1)(tasks)

    results = np.array(results)
    mean_acc = results.mean()
    # bootstrap
    n_boot = 10_000
    boot_means = np.empty(n_boot)
    for i in range(n_boot):
        sample = np.random.choice(results, size=results.size, replace=True)
        boot_means[i] = sample.mean()

    lo, hi = np.percentile(boot_means, [2.5, 97.5])
    print(f"Point estimate: {mean_acc:.4f}")
    print(f"95% CI        : [{lo:.4f}, {hi:.4f}]")


if __name__ == "__main__":
    main()