traceloop · nina-kollman · Jan 8, 2026 · Jan 8, 2026 · Jan 8, 2026 · Jan 8, 2026
diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/agent_tool_trajectory.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/agent_tool_trajectory.py
@@ -0,0 +1,85 @@
+"""
+Agent Tool Trajectory Experiment
+
+This example demonstrates Traceloop's agent tool trajectory evaluator:
+- Agent Tool Trajectory: Validates the agent tool trajectory
+
+This evaluator helps ensure your AI agents perform optimally and follow the expected tool trajectory.
+"""
+
+import asyncio
+from traceloop.sdk import Traceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
+
+# Initialize Traceloop
+client = Traceloop.init()
+
+
+def agent_evaluators_task(row):
+    executed_tool_calls = row.get("actual", "")
+    default_expected = (
+        "[{'name': 'search', 'input': {'query': 'weather'}}, "
+        "{'name': 'book_flight', 'input': {'flight': 'NYC to Paris'}}, "
+        "{'name': 'get_confirmation', 'input': {'confirmation': 'flight booked'}}]"
+    )
+    expected_tool_calls = row.get("expected", default_expected)
+
+    return {
+        "executed_tool_calls": executed_tool_calls,
+        "expected_tool_calls": expected_tool_calls,
+    }
+
+
+async def run_agent_tool_trajectory_experiment():
+    print("\n" + "="*80)
+    print("AGENT TOOL TRAJECTORY EXPERIMENT")
+    print("="*80 + "\n")
+    print("This experiment will test the agent tool trajectory with the agent tool trajectory evaluator:\n")
+    print("1. Agent Tool Trajectory - Validates the agent tool trajectory")
+    print("\n" + "-"*80 + "\n")
+
+    # Configure agent evaluators
+    evaluators = [
+        EvaluatorMadeByTraceloopDefinition.agent_tool_trajectory(
+            input_params_sensitive=True,
+            mismatch_sensitive=False,
+            order_sensitive=False,
+            threshold=0.7,
+        ),
+    ]
+
+    print("Running experiment with evaluators:")
+    for evaluator in evaluators:
+        print(f"  - {evaluator.slug}")
+
+    print("\n" + "-"*80 + "\n")
+
+    # Run the experiment
+    # Note: You'll need to create a dataset with appropriate test cases for agents
+    results, errors = await client.experiment.run(
+        dataset_slug="agent-tool-trajectory",  # Set a dataset slug that exists in the traceloop platform
+        dataset_version="v1",
+        task=agent_evaluators_task,
+        evaluators=evaluators,
+        experiment_slug="agent-tool-trajectory-exp",
+        stop_on_error=False,
+        wait_for_results=True,
+    )
+
+    print("\n" + "="*80)
+    print("Agent tool trajectory experiment completed!")
+    print("="*80 + "\n")
+
+    print("Results summary:")
+    print(f"  - Total rows processed: {len(results) if results else 0}")
+    print(f"  - Errors encountered: {len(errors) if errors else 0}")
+
+    if errors:
+        print("\nErrors:")
+        for error in errors:
+            print(f"  - {error}")
+
+if __name__ == "__main__":
+    print("\nAgent Tool Trajectory Experiment\n")
+
+    asyncio.run(run_agent_tool_trajectory_experiment())
diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/agents_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/agents_exp.py
@@ -15,7 +15,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -135,11 +135,11 @@ async def run_agents_experiment():
 
     # Configure agent evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.agent_goal_accuracy(),
-        EvaluatorMadeByTraceloop.agent_tool_error_detector(),
-        EvaluatorMadeByTraceloop.agent_flow_quality(),
-        EvaluatorMadeByTraceloop.agent_efficiency(),
-        EvaluatorMadeByTraceloop.agent_goal_completeness(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_accuracy(),
+        EvaluatorMadeByTraceloopDefinition.agent_tool_error_detector(),
+        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(),
-        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(),
+        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(
+            conditions=["Agent should not repeat questions", "Agent should complete task efficiently"],
+            threshold=0.7,
+        ),
-        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(),
+        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(
+            conditions=["Agent should not repeat questions", "Agent should complete task efficiently"],
+            threshold=0.7,
+        ),
+        EvaluatorMadeByTraceloopDefinition.agent_efficiency(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(),
-        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(
+            threshold=0.8,
+        ),
-        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(
+            threshold=0.8,
+        ),
     ]
 
     print("Running experiment with evaluators:")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/compliance_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/compliance_exp.py
@@ -13,7 +13,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -70,9 +70,9 @@ async def run_content_compliance_experiment():
 
     # Configure content compliance evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.profanity_detector(),
-        EvaluatorMadeByTraceloop.toxicity_detector(threshold=0.7),
-        EvaluatorMadeByTraceloop.sexism_detector(threshold=0.7),
+        EvaluatorMadeByTraceloopDefinition.profanity_detector(),
+        EvaluatorMadeByTraceloopDefinition.toxicity_detector(threshold=0.7),
+        EvaluatorMadeByTraceloopDefinition.sexism_detector(threshold=0.7),
     ]
 
     print("Running experiment with content safety evaluators:")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/correctness_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/correctness_exp.py
@@ -13,7 +13,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -76,8 +76,8 @@ async def run_correctness_experiment():
 
     # Configure correctness evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.answer_relevancy(),
-        EvaluatorMadeByTraceloop.faithfulness(),
+        EvaluatorMadeByTraceloopDefinition.answer_relevancy(),
+        EvaluatorMadeByTraceloopDefinition.faithfulness(),
     ]
 
     print("Running experiment with evaluators:")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/formatting_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/formatting_exp.py
@@ -15,7 +15,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -104,17 +104,17 @@ async def run_formatting_experiment():
     }'''
 
     evaluators = [
-        EvaluatorMadeByTraceloop.json_validator(
+        EvaluatorMadeByTraceloopDefinition.json_validator(
             enable_schema_validation=True,
             schema_string=json_schema
         ),
-        EvaluatorMadeByTraceloop.sql_validator(),
-        EvaluatorMadeByTraceloop.regex_validator(
+        EvaluatorMadeByTraceloopDefinition.sql_validator(),
+        EvaluatorMadeByTraceloopDefinition.regex_validator(
             regex=r"^\d{3}-\d{2}-\d{4}$",  # SSN format
             should_match=True,
             case_sensitive=True
         ),
-        EvaluatorMadeByTraceloop.placeholder_regex(
+        EvaluatorMadeByTraceloopDefinition.placeholder_regex(
             regex=r"^user_.*",
             placeholder_name="username",
             should_match=True

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/quality_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/quality_exp.py
@@ -15,7 +15,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -88,10 +88,10 @@ async def run_advanced_quality_experiment():
 
     # Configure advanced quality evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.perplexity(),
-        EvaluatorMadeByTraceloop.agent_goal_accuracy(),
-        EvaluatorMadeByTraceloop.semantic_similarity(),
-        EvaluatorMadeByTraceloop.topic_adherence(),
+        EvaluatorMadeByTraceloopDefinition.perplexity(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_accuracy(),
+        EvaluatorMadeByTraceloopDefinition.semantic_similarity(),
+        EvaluatorMadeByTraceloopDefinition.topic_adherence(),
     ]
 
     print("Running experiment with advanced quality evaluators:")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/security_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/security_exp.py
@@ -14,7 +14,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -73,9 +73,9 @@ async def run_security_experiment():
 
     # Configure security evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.pii_detector(probability_threshold=0.7,),
-        EvaluatorMadeByTraceloop.secrets_detector(),
-        EvaluatorMadeByTraceloop.prompt_injection(threshold=0.6),
+        EvaluatorMadeByTraceloopDefinition.pii_detector(probability_threshold=0.7,),
+        EvaluatorMadeByTraceloopDefinition.secrets_detector(),
+        EvaluatorMadeByTraceloopDefinition.prompt_injection(threshold=0.6),
     ]
 
     print("\n" + "-"*80 + "\n")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/style_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/style_exp.py
@@ -12,7 +12,7 @@
 import os
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Initialize Traceloop
 client = Traceloop.init()
@@ -74,10 +74,10 @@ async def run_style_experiment():
 
     # Configure metrics evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.char_count(),
-        EvaluatorMadeByTraceloop.word_count(),
-        EvaluatorMadeByTraceloop.char_count_ratio(),
-        EvaluatorMadeByTraceloop.word_count_ratio(),
+        EvaluatorMadeByTraceloopDefinition.char_count(),
+        EvaluatorMadeByTraceloopDefinition.word_count(),
+        EvaluatorMadeByTraceloopDefinition.char_count_ratio(),
+        EvaluatorMadeByTraceloopDefinition.word_count_ratio(),
     ]
 
     print("Running experiment with metrics evaluators:")

diff --git a/packages/sample-app/sample_app/experiment/made_by_traceloop/travel_agent_exp.py b/packages/sample-app/sample_app/experiment/made_by_traceloop/travel_agent_exp.py
@@ -18,7 +18,7 @@
 from pathlib import Path
 
 from traceloop.sdk import Traceloop
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 from traceloop.sdk.experiment.utils import run_with_span_capture
 
 # Add the agents directory to sys.path for imports
@@ -94,13 +94,13 @@ async def run_travel_agent_experiment():
 
     # Configure agent evaluators
     evaluators = [
-        EvaluatorMadeByTraceloop.agent_goal_accuracy(),
-        EvaluatorMadeByTraceloop.agent_flow_quality(
+        EvaluatorMadeByTraceloopDefinition.agent_goal_accuracy(),
+        EvaluatorMadeByTraceloopDefinition.agent_flow_quality(
             threshold=0.7,
             conditions=["create_itinerary tool should be called last"],
         ),
-        EvaluatorMadeByTraceloop.agent_efficiency(),
-        EvaluatorMadeByTraceloop.agent_goal_completeness(),
+        EvaluatorMadeByTraceloopDefinition.agent_efficiency(),
+        EvaluatorMadeByTraceloopDefinition.agent_goal_completeness(),
     ]
 
     print("Running experiment with evaluators:")

diff --git a/packages/sample-app/sample_app/guardrail_medical_chat_example.py b/packages/sample-app/sample_app/guardrail_medical_chat_example.py
@@ -3,7 +3,7 @@
 from openai import AsyncOpenAI
 from traceloop.sdk import Traceloop
 from traceloop.sdk.guardrails.guardrails import guardrail
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 
 Traceloop.init(app_name="medical-chat-example")
@@ -39,7 +39,7 @@ def handle_medical_evaluation(evaluator_result, original_result):
 
 
 @guardrail(
-    evaluator=EvaluatorMadeByTraceloop.pii_detector(probability_threshold=0.8),
+    evaluator=EvaluatorMadeByTraceloopDefinition.pii_detector(probability_threshold=0.8),
     on_evaluation_complete=handle_medical_evaluation,
 )
 async def get_doctor_response_with_pii_check(patient_message: str) -> dict:

diff --git a/packages/sample-app/sample_app/guardrail_travel_agent_example.py b/packages/sample-app/sample_app/guardrail_travel_agent_example.py
@@ -11,7 +11,7 @@
 sys.path.insert(0, str(agents_dir))
 
 from traceloop.sdk.guardrails.guardrails import guardrail  # noqa: E402
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloop  # noqa: E402
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition  # noqa: E402
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition  # noqa: E402
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
-from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition  # noqa: E402
+from traceloop.sdk.evaluator import EvaluatorMadeByTraceloopDefinition
 
 # Import the travel agent function
 try:
@@ -62,7 +62,7 @@ def handle_pii_detection(evaluator_result, original_result):
 
 
 @guardrail(
-    evaluator=EvaluatorMadeByTraceloop.pii_detector(probability_threshold=0.7),
+    evaluator=EvaluatorMadeByTraceloopDefinition.pii_detector(probability_threshold=0.7),
     on_evaluation_complete=handle_pii_detection
 )
 async def guarded_travel_agent(query: str) -> dict:

diff --git a/packages/traceloop-sdk/traceloop/sdk/evaluator/__init__.py b/packages/traceloop-sdk/traceloop/sdk/evaluator/__init__.py
@@ -1,10 +1,9 @@
 from .evaluator import Evaluator
 from .config import EvaluatorDetails
-from .evaluators_made_by_traceloop import EvaluatorMadeByTraceloop, create_evaluator
+from ..generated.evaluators.definitions import EvaluatorMadeByTraceloopDefinition
 
 __all__ = [
     "Evaluator",
     "EvaluatorDetails",
-    "EvaluatorMadeByTraceloop",
-    "create_evaluator",
+    "EvaluatorMadeByTraceloopDefinition",
 ]
diff --git a/packages/traceloop-sdk/traceloop/sdk/evaluator/evaluator.py b/packages/traceloop-sdk/traceloop/sdk/evaluator/evaluator.py
@@ -28,7 +28,8 @@ def _validate_evaluator_input(slug: str, input: Dict[str, str]) -> None:
     request_model = get_request_model(slug)
     if request_model:
         try:
-            request_model(**input)
+            # Request models expect data nested under 'input' field
+            request_model(input=input)
         except ValidationError as e:
             raise ValueError(f"Invalid input for '{slug}': {e}") from e