Бенчмарк качества извлечения RAG-системы по метрикам Recall и MeanAP
Динамика метрики Recall@K в зависимости от количества извлекаемых сниппетов
Для достижения 100% полноты без реранжирования требуется ≥49 сниппетов, тогда как с LLM-реранкером достаточно 14–15
С LLM-реранкингомMeanAP заметно выше (релевантные фрагменты поднимаются в топ, шум отсекается)
Анализ оценки качества поиска по Mean AP