Category Not Found

1252 prompts

Sort:

Build factuality with retrieval Eval Harness for bug root-cause analysis on Claude Haiku 4

Design an eval harness for bug root-cause analysis using factuality with retrieval that tracks refusal rate across prompt versions on Claude Haiku 4.

Build embedding distance Eval Harness for bug root-cause analysis on DeepSeek-V3

Design an eval harness for bug root-cause analysis using embedding distance that tracks refusal rate across prompt versions on DeepSeek-V3.

Build rubric scoring Eval Harness for bug root-cause analysis on Llama 3.3 70B

Design an eval harness for bug root-cause analysis using rubric scoring that tracks toolcall precision across prompt versions on Llama 3.3 70B.

Build LLM-as-judge Eval Harness for bug root-cause analysis on Mistral Large

Design an eval harness for bug root-cause analysis using LLM-as-judge that tracks toolcall precision across prompt versions on Mistral Large.

Build tool-call accuracy Eval Harness for bug root-cause analysis on Qwen 2.5 72B

Design an eval harness for bug root-cause analysis using tool-call accuracy that tracks format-compliance rate across prompt versions on Qwen 2.5 72B.

Build G-Eval Eval Harness for bug root-cause analysis on o1-mini

Design an eval harness for bug root-cause analysis using G-Eval that tracks format-compliance rate across prompt versions on o1-mini.

Build exact match Eval Harness for bug root-cause analysis on o3-mini

Design an eval harness for bug root-cause analysis using exact match that tracks hallucination rate across prompt versions on o3-mini.

Build JSON schema validation Eval Harness for bug root-cause analysis on GPT-4o

Design an eval harness for bug root-cause analysis using JSON schema validation that tracks hallucination rate across prompt versions on GPT-4o.

Build Trulens feedback functions Eval Harness for bug root-cause analysis on GPT-4o-mini

Design an eval harness for bug root-cause analysis using Trulens feedback functions that tracks hallucination rate across prompt versions on GPT-4o-mini.

Build BLEU/ROUGE Eval Harness for bug root-cause analysis on Claude 3.7 Sonnet

Design an eval harness for bug root-cause analysis using BLEU/ROUGE that tracks user satisfaction (CSAT) across prompt versions on Claude 3.7 Sonnet.

Build regex match checks Eval Harness for bug root-cause analysis on Claude 4.5 Sonnet

Design an eval harness for bug root-cause analysis using regex match checks that tracks user satisfaction (CSAT) across prompt versions on Claude 4.5 Sonnet.

Build DeepEval metrics Eval Harness for bug root-cause analysis on Claude Haiku 4

Design an eval harness for bug root-cause analysis using DeepEval metrics that tracks inter-judge agreement across prompt versions on Claude Haiku 4.

🤖Any Model

81599