Собственный контент-фильтр на LLM: от экспериментов до стабильной системы
Команда red_mad_robot поделилась опытом создания собственного фильтра нежелательного контента на базе LLM для AI-сервисов (например, Daisy). Проект стартовал с попыток на эвристических алгоритмах (regex, keyword-фильтры), но они показали высокую долю ложных срабатываний и легко обходились. Ставка была сделана на открытые языковые модели (начиная с LLaMA), что позволило внедрить многоуровневую модерацию: прямое обнаружение запрещённых тем, анализ пограничных случаев, учёт контекста и даже оценку критичности запросов.
- Ключевой прорыв — переход к few-shot промптам и структурированному выводу (structured output), что снизило долю ложных блокировок и упростило масштабирование логики.
- Параллельно тестировались новые модели (Qwen30B, GPT-4o mini), что повысило точность и скорость фильтрации, а отказ от собственных серверов в пользу облачных вычислений снизил расходы.
- Для ускорения фильтра используется BERT и интеллектуальный трешхолд, финальное решение принимается на базе LLM.
- Новая версия фильтра обрабатывает ~10 000 запросов за 4 дня, из которых 20% отклонены, а точность (false positive) составляет всего 8% — цель снизить до 2-3%.
Команда планирует дообучать фильтр на реальных кейсах, развивать цепочки агентов (agent chains) и whitelist для сложных случаев. Практика показывает: идеального фильтра не бывает, но баланс скорости, экономичности и качества возможен при грамотной архитектуре и выборе моделей.
Читайте также
ML Q & AI. Глава 2: Self-Supervised обучение
Как внедрить AI-чат в бизнес: инструкция для роста среднего чека и лояльности
ИИ развивается и меняет наше представление о реальности
ИИ — помощник или конкурент? Практика внедрения нейросети в работу системного аналитика банка
Почём ИИ для народа: тест платформы YADRO G4208P с восемью H100 NVL и RTX 4090 на 10 ИИ-моделях