Собственный контент-фильтр на LLM: от экспериментов до стабильной системы

Команда red_mad_robot поделилась опытом создания собственного фильтра нежелательного контента на базе LLM для AI-сервисов (например, Daisy). Проект стартовал с попыток на эвристических алгоритмах (regex, keyword-фильтры), но они показали высокую долю ложных срабатываний и легко обходились. Ставка была сделана на открытые языковые модели (начиная с LLaMA), что позволило внедрить многоуровневую модерацию: прямое обнаружение запрещённых тем, анализ пограничных случаев, учёт контекста и даже оценку критичности запросов.

  • Ключевой прорыв — переход к few-shot промптам и структурированному выводу (structured output), что снизило долю ложных блокировок и упростило масштабирование логики.
  • Параллельно тестировались новые модели (Qwen30B, GPT-4o mini), что повысило точность и скорость фильтрации, а отказ от собственных серверов в пользу облачных вычислений снизил расходы.
  • Для ускорения фильтра используется BERT и интеллектуальный трешхолд, финальное решение принимается на базе LLM.
  • Новая версия фильтра обрабатывает ~10 000 запросов за 4 дня, из которых 20% отклонены, а точность (false positive) составляет всего 8% — цель снизить до 2-3%.

Команда планирует дообучать фильтр на реальных кейсах, развивать цепочки агентов (agent chains) и whitelist для сложных случаев. Практика показывает: идеального фильтра не бывает, но баланс скорости, экономичности и качества возможен при грамотной архитектуре и выборе моделей.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!