Category Not Found

A/B Rollout and Drift Detection for citation accuracy in code assistant

Design A/B rollout analysis and drift detection for citation accuracy on a production LLM app in code assistant.

239776

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for customer support chat

Design a pairwise + rubric LLM-as-judge prompt for customer support chat with bias mitigation, calibration, and reproducibility.

165676

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for code generation

Design a pairwise + rubric LLM-as-judge prompt for code generation with bias mitigation, calibration, and reproducibility.

🟠Claude

1161053

Free

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for SQL generation

Design a pairwise + rubric LLM-as-judge prompt for SQL generation with bias mitigation, calibration, and reproducibility.

357603

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for technical summarization

Design a pairwise + rubric LLM-as-judge prompt for technical summarization with bias mitigation, calibration, and reproducibility.

🟠Claude

3981096

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for tool-use agent

Design a pairwise + rubric LLM-as-judge prompt for tool-use agent with bias mitigation, calibration, and reproducibility.

198119

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for long-doc QA

Design a pairwise + rubric LLM-as-judge prompt for long-doc QA with bias mitigation, calibration, and reproducibility.

🟠Claude

119605

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for creative writing

Design a pairwise + rubric LLM-as-judge prompt for creative writing with bias mitigation, calibration, and reproducibility.

398834

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for translation

Design a pairwise + rubric LLM-as-judge prompt for translation with bias mitigation, calibration, and reproducibility.

337582

Free

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for medical Q&A

Design a pairwise + rubric LLM-as-judge prompt for medical Q&A with bias mitigation, calibration, and reproducibility.

43406

Free

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for legal reasoning

Design a pairwise + rubric LLM-as-judge prompt for legal reasoning with bias mitigation, calibration, and reproducibility.

298883

Claude Sonnet 4.5 rubric scorer LLM-as-Judge Rubric for multi-turn dialogue

Design a pairwise + rubric LLM-as-judge prompt for multi-turn dialogue with bias mitigation, calibration, and reproducibility.