feat(samples): add next batch of supported evaluators and extra functionality to the export evals script

andrei-rusu · andrei-rusu · commit e224f5ca89c0 · 2025-10-17T18:56:22.000+03:00
diff --git a/samples/gym-sample/export_evals.sh b/samples/gym-sample/export_evals.sh
@@ -2,7 +2,9 @@
 
 # Usage:
 #   ./export_evals.sh                    # Export all evaluators
-#   ./export_evals.sh --only-supported   # Export only supported evaluators
+#   ./export_evals.sh --include_not_supported   # Include not supported evaluators
+#   ./export_evals.sh --exclude_llm_judge   # Exclude LLM judge evaluators
+#   ./export_evals.sh --small_set_size 10   # Export a small set of 10 datapoints
 
 # Export evaluators and eval sets to UiPath eval format
 uv run python -m gym_sample.export_evals "$@"
diff --git a/samples/gym-sample/src/gym_sample/calculator/agent.py b/samples/gym-sample/src/gym_sample/calculator/agent.py
@@ -20,8 +20,9 @@ def get_datapoints() -> List[Datapoint]:
             name="TestSimpleAddition",
             input={"expression": "how much is 2 + 5"},
             evaluation_criteria={
-                "ExactMatchEvaluator": {"expected_output": {"answer": 7}},
+                "ExactMatchEvaluator": {"expected_output": {"answer": 7.0}},
                 "ContainsEvaluator": {"search_text": "7"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 7.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 0)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [{"name": "add", "args": {"a": 2, "b": 5}}]},
@@ -34,6 +35,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 10.0}},
                 "ContainsEvaluator": {"search_text": "10"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 10.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 0), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [{"name": "multiply", "args": {"a": 2, "b": 5}}]},
@@ -45,6 +47,7 @@ def get_datapoints() -> List[Datapoint]:
             input={"expression": "how much is 5 - 2"},
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 3.0}},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 3.0}},
                 "ContainsEvaluator": {"search_text": "3"},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 0)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add"]},
@@ -58,6 +61,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 12.0}},
                 "ContainsEvaluator": {"search_text": "12"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 12.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -73,6 +77,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 25.0}},
                 "ContainsEvaluator": {"search_text": "25"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 25.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 2)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -89,6 +94,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 150.0}},
                 "ContainsEvaluator": {"search_text": "150"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 150.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 2)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add", "multiply", "multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -105,6 +111,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 14.0}},
                 "ContainsEvaluator": {"search_text": "14"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 14.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -120,6 +127,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 25.0}},
                 "ContainsEvaluator": {"search_text": "25"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 25.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 2), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add", "add", "multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -136,6 +144,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 8.0}},
                 "ContainsEvaluator": {"search_text": "8"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 8.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -151,6 +160,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 15.0}},
                 "ContainsEvaluator": {"search_text": "15"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 15.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -166,6 +176,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 20.0}},
                 "ContainsEvaluator": {"search_text": "20"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 20.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 2), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add", "add", "multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -182,6 +193,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 28.0}},
                 "ContainsEvaluator": {"search_text": "28"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 28.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 2), "multiply": ("=", 2)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add", "multiply", "add", "multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -199,6 +211,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 1.0}},
                 "ContainsEvaluator": {"search_text": "1"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 1.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -214,6 +227,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 5.0}},
                 "ContainsEvaluator": {"search_text": "5"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 5.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"add": ("=", 1), "multiply": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["add", "multiply"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -229,6 +243,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 22.0}},
                 "ContainsEvaluator": {"search_text": "22"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 22.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"escalation": ("=", 1), "add": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["escalation", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -243,6 +258,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 102.0}},
                 "ContainsEvaluator": {"search_text": "102"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 102.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"escalation": ("=", 2), "multiply": ("=", 1), "add": ("=", 1)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["escalation", "escalation", "multiply", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
@@ -258,6 +274,7 @@ def get_datapoints() -> List[Datapoint]:
             evaluation_criteria={
                 "ExactMatchEvaluator": {"expected_output": {"answer": 311.0}},
                 "ContainsEvaluator": {"search_text": "311"},
+                "JsonSimilarityEvaluator": {"expected_output": {"answer": 311.0}},
                 "ToolCallCountEvaluator": {"tool_calls_count": {"escalation": ("=", 3), "multiply": ("=", 1), "add": ("=", 2)}},
                 "ToolCallOrderEvaluator": {"tool_calls_order": ["escalation", "escalation", "escalation", "multiply", "add", "add"]},
                 "ToolCallArgsEvaluator": {"tool_calls": [
diff --git a/samples/gym-sample/src/gym_sample/export_evals.py b/samples/gym-sample/src/gym_sample/export_evals.py
@@ -10,6 +10,7 @@
 import uuid
 from pathlib import Path
 from typing import Any, Dict, List
+from dotenv import load_dotenv, find_dotenv
 
 from gym_sample.graph import get_agents, get_all_evaluators
 
@@ -94,7 +95,7 @@ def datapoint_to_evaluation(
     }
 
 
-def export_evaluators(agent_name: str, output_dir: Path, only_supported: bool = False) -> List[str]:
+def export_evaluators(agent_name: str, output_dir: Path, only_supported: bool = False, include_llm_judge: bool = False) -> List[str]:
     """Export evaluator specs for an agent.
 
     Args:
@@ -107,11 +108,15 @@ def export_evaluators(agent_name: str, output_dir: Path, only_supported: bool =
     """
     # Currently supported evaluators in PR #685
     SUPPORTED_EVALUATORS = {
-        "ContainsEvaluator"
+        "ContainsEvaluator",
+        "ExactMatchEvaluator",
+        "JsonSimilarityEvaluator",
+        "LLMJudgeOutputEvaluator",
+        "LLMJudgeStrictJSONSimilarityOutputEvaluator",
     }
 
     evaluators_getter = get_all_evaluators()[agent_name]
-    evaluators = evaluators_getter(False)  # Export without LLM judges by default
+    evaluators = evaluators_getter(include_llm_judge)
 
     output_dir.mkdir(parents=True, exist_ok=True)
     evaluator_ids = []
@@ -138,7 +143,8 @@ def export_evaluators(agent_name: str, output_dir: Path, only_supported: bool =
 def export_eval_set(
     agent_name: str,
     evaluator_refs: List[str],
-    output_dir: Path
+    output_dir: Path,
+    small_set_size: int = 0
 ) -> None:
     """Export an agent's datapoints as a UiPath eval_set JSON file (version 1.0).
 
@@ -171,10 +177,20 @@ def export_eval_set(
     with open(output_path, 'w') as f:
         json.dump(eval_set, f)
 
+    print(small_set_size)
+    if small_set_size > 0:
+        eval_set["evaluations"] = [
+            datapoint_to_evaluation(dp, eval_set_id, evaluator_refs, agent_name)
+            for dp in agent.datapoints[:small_set_size]
+        ]
+        output_path = output_dir / f"evaluation-set-{agent_name}-small.json"
+        with open(output_path, 'w') as f:
+            json.dump(eval_set, f)
+
     print(f"  ✅ Exported eval set with {len(agent.datapoints)} evaluations")
 
 
-def export_agent(agent_name: str, base_dir: Path, only_supported: bool = False) -> None:
+def export_agent(agent_name: str, base_dir: Path, only_supported: bool = False, include_llm_judge: bool = False, small_set_size: int = 0) -> None:
     """Export all evaluators and eval sets for a single agent.
 
     Args:
@@ -186,11 +202,11 @@ def export_agent(agent_name: str, base_dir: Path, only_supported: bool = False)
 
     # Export evaluators
     evaluators_dir = base_dir / "evaluators"
-    evaluator_ids = export_evaluators(agent_name, evaluators_dir, only_supported)
+    evaluator_ids = export_evaluators(agent_name, evaluators_dir, only_supported, include_llm_judge)
 
     # Export eval set
     eval_sets_dir = base_dir / "eval-sets"
-    export_eval_set(agent_name, evaluator_ids, eval_sets_dir)
+    export_eval_set(agent_name, evaluator_ids, eval_sets_dir, small_set_size)
 
     print(f"✨ Completed {agent_name} agent export\n")
 
@@ -199,21 +215,34 @@ def main() -> None:
     """Export all agent evaluators and eval sets."""
     parser = argparse.ArgumentParser(description="Export evaluators and eval sets for agents")
     parser.add_argument(
-        "--only-supported",
+        "--include_not_supported",
         action="store_true",
-        help="Only export evaluators supported by the current PR (currently: ContainsEvaluator)"
+        help="Include evaluators not supported by the current PR (currently: ContainsEvaluator)"
+    )
+    parser.add_argument(
+        "--exclude_llm_judge",
+        action="store_true",
+        help="Include LLM judge evaluators"
+    )
+    parser.add_argument(
+        "--small_set_size",
+        type=int,
+        default=0,
+        help="Size of the small eval set to export"
     )
     args, _ = parser.parse_known_args()
 
+    load_dotenv(find_dotenv())
+
     # Export to the standard location that uipath eval discovers
     base_dir = Path(__file__).parent.parent.parent / "evals"
 
     print("🚀 Starting export of evaluators and eval sets...")
-    if args.only_supported:
-        print("   (Only exporting supported evaluators)")
+    if args.include_not_supported:
+        print("   (Including not supported evaluators)")
 
     for agent_name in ["calculator", "loan"]:
-        export_agent(agent_name, base_dir, only_supported=args.only_supported)
+        export_agent(agent_name, base_dir, only_supported=not args.include_not_supported, include_llm_judge=not args.exclude_llm_judge, small_set_size=args.small_set_size)
 
     print("✅ All exports completed!")
     print(f"\n📁 Files exported to: {base_dir.absolute()}")
@@ -223,6 +252,9 @@ def main() -> None:
     print("   └── eval-sets/")
     print("       ├── evaluation-set-calculator.json")
     print("       └── evaluation-set-loan.json")
+    if args.small_set_size > 0:
+        print(f"       └── evaluation-set-calculator-small.json")
+        print(f"       └── evaluation-set-loan-small.json")
 
 
 if __name__ == "__main__":