Протестировать гипотезы

Оценка проводится по метрикам качества ранжирования (Precision@k, Recall@k, nDCG@k) и производительности (latency, включая медиану и хвосты p95/p99, а также TTFT (time-to-first-token), при этом разметка релевантности формируется посредством экспертной оценки и методики “LLM-as-a-judge” с последующей валидацией на подмножестве.