Как заставить LLM сортировать данные: от наивного подхода до TrueSkill

Автор протестировал пять методов сортировки списка через LLM на 164 постах и измерил, какой подход лучше предсказывает реальные репосты. В выводах показано, что наивный Bulk может систематически искажать порядок, а Score и TrueSkill Batch дают более устойчивое ранжирование.

  • Эксперимент проведён на 164 постах телеграм-канала; сравнивались 5 методов сортировки, использовалась модель gpt-4.1-mini; критерий — «вероятность репоста» (shareability) и фактические forwards.
  • Bulk: 1 API-вызов, 14.5K токенов, $0.006, 6 сек; корреляция Спирмена ρ = +0.27 при p-value < 0.001 (в тексте это описано как инверсия порядка).
  • Score: 164 API-вызова, 81K токенов, $0.056, 1.2 мин; корреляция Спирмена ρ = -0.50 при p-value < 0.001.
  • Score + Reasoning: 164 API-вызова, 103K токенов, $0.080, 1.3 мин; корреляция Спирмена ρ = -0.43 при p-value < 0.001.
  • TrueSkill Batch: 17 API-вызовов, 106K токенов, $0.045, 1.8 мин; батчи по 10 элементов, начальные параметры μ=25 и σ=8.33, финальная сортировка по μ − 3σ; корреляция Спирмена ρ = -0.46 при p-value < 0.001.
  • TrueSkill Pairwise: 1230 API-вызовов, 659K токенов, $0.271, 1.8 мин; корреляция Спирмена ρ = -0.42 при p-value < 0.001.

Почему это важно: Задачи субъективного ранжирования встречаются в приоритизации фичей, подборках контента и оценке списков, где классический поиск или эмбеддинги не дают прямого порядка. В эксперименте показано, что алгоритм важнее модели: разные процедуры сравнения дают разную связь с реальной реакцией аудитории при заметно разных затратах. Это превращает сортировку через LLM в инженерный компромисс между качеством, стоимостью и объяснимостью результата.

На что обратить внимание: В тексте перечислены типовые ограничения наивной сортировки: контекстное окно, деградация внимания к концу списка, нестабильность повторных запросов и лимиты вывода большого числа ID. Там же противопоставлены схемы с абсолютными баллами (Score) и схемы с относительными сравнениями (TrueSkill), где батчи дают больше информации за один вызов, а pairwise упоминается как вариант, если критично избежать positional bias. В практическом выборе значимы эталон качества и то, насколько допустимо смещение внимания к началу при подаче элементов модели.

Читайте также

  1. SoftMax: как нейросети превращают логиты в уверенные вероятности — разбор с примерами и математикой
  2. Универсальный AI-агент с поддержкой skills и практические сценарии
  3. 15+ лучших инструментов и гайдов Яндекса по ИИ
  4. Собираем LLM-агента на Python
  5. ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе
Ключевые инсайты из новости (по версии ChatGPT)
  • Positional bias при сортировке списков через LLM: Наивная сортировка «всё в один запрос» склонна завышать элементы в начале списка: модель распределяет внимание неравномерно, и порядок начинает зависеть от позиции, а не от смысла. В эксперименте это проявилось как инверсия результата относительно реального поведения аудитории, поэтому для больших списков такой подход нельзя считать надёжным.
    [LLM-практики: ранжирование и оценка]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!