Анализ документов нейросетью с цитатами из источников: скилл research-docs для Claude Code
В основе лежит LiteParse Samples — набор демо вокруг парсера LiteParse. В него входят Parser Comparison, Visual Citations и сам research-docs. Схема работы простая: папка с PDF, DOCX, PPTX, XLSX, изображениями или текстовыми файлами проходит через LiteParse, который извлекает текст и координаты элементов на странице, после чего Claude Code формирует ответ и HTML-отчёт с визуальными цитатами и bounding box'ами на страницах PDF. Всё это работает локально, а данные не нужно отправлять наружу.
Практический сценарий — большие пакеты регламентов, договоров, отчётов и спецификаций, по которым нужно быстро собрать ответ или найти расхождения. Visual Citations показывает точные вхождения слова прямо на изображении страницы, а Parser Comparison позволяет сравнить, как LiteParse, PyPDF и PyMuPDF справляются со сложными таблицами и многоколоночной вёрсткой. На простых PDF разница почти не видна, но на сложных раскладках LiteParse, по описанию автора, выглядит сильнее.
У решения есть и ограничения. Research-docs завязан на Claude Code и не подойдёт тем, кто им не пользуется, а качество ответа зависит от самой модели: простые вопросы она обрабатывает надёжнее, чем сложные аналитические запросы. Отдельно автор отмечает стоимость: разбор 30 документов с длинным вопросом может стоить $5-10. При этом Visual Citations ищет только точные совпадения, а не смысловые связи, поэтому для полноценного RAG поверх документов нужен отдельный пайплайн.
Коротко
- research-docs ставится как скилл для Claude Code и после установки вызывается слэш-командой с путём к папке документов и вопросом.
- LiteParse поддерживает PDF, DOCX, PPTX, XLSX, изображения через OCR и plaintext, поэтому по одной папке можно задавать вопрос сразу к разным форматам.
- Ключевая функция — цитаты с координатной привязкой к PDF: отчёт показывает не только источник, но и конкретный участок страницы с рамкой.
- Visual Citations подходит для быстрой навигации по большим документам, но это substring match: система ищет точные вхождения, а не смысловые совпадения.
- Автор оценивает стоимость анализа 30 документов с длинным вопросом в $5-10 и отдельно предупреждает, что сложные ответы всё равно нужно проверять по цитатам.
FAQ
Зачем вообще нужен research-docs, если документы и так можно загрузить в модель или прочитать вручную по диагонали?
Он нужен для случаев, когда документов много и ответ нужно быстро проверить по источнику. Скилл не просто генерирует вывод, а привязывает его к конкретным местам в PDF.
Чем research-docs отличается от обычного поиска по документам или простого извлечения текста из PDF?
Здесь вместе работают парсинг, ответ модели и визуальные цитаты с bounding box'ами. Это позволяет сразу открыть нужную страницу и увидеть, откуда взят факт.
Когда этого инструмента уже недостаточно и нужен отдельный пайплайн для работы с документами?
Когда требуется не точный поиск по вхождениям, а семантический RAG и более сложная аналитика по большому массиву данных. Сам автор пишет, что Visual Citations не заменяет такой сценарий.
Читайте также
Возвращаем к жизни связку OpenClaw и Claude
ИИ для управления проектами. Для чего его на самом деле применяют российские организации
Вайбкодинг с Claude: оформление Telegram-бота, UX и сценарии взаимодействия
Как мы построили AI-экзоскелет для QA-инженера: от идеи до 11 автономных агентов
Stack Overflow отказался от редизайна после критики со стороны постоянных участников сообщества
- Визуальные цитаты как механизм проверки ответов по документам: Для сценариев document QA полезно не только указывать источник и страницу, но и показывать точный фрагмент PDF с координатной рамкой. Такой формат сильно упрощает верификацию ответа модели в юридических, финансовых и регуляторных документах, где критична проверка каждой цифры и формулировки.
[Инструменты]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
LlamaIndex собрал набор инструментов для разбора документов, а research-docs добавляет это в Claude Code как скилл: он берёт папку файлов, отвечает на вопрос по их содержимому и выдаёт HTML-отчёт с цитатами из источников. Главная практическая ценность здесь не в самом ответе модели, а в том, что каждый тезис можно сразу проверить по конкретному месту в PDF.