Распознавание реквизитов из карточек контрагентов: как устроен API для извлечения данных из документов

На Хабре описан публичный API, который извлекает реквизиты компаний из документов и карточек контрагентов одним POST-запросом. Сервис вырос из внутренних задач по интеграции с 1С и документооборотом, а теперь предлагается как отдельный продукт для автоматизации ручного ввода.

API принимает PDF, DOCX, DOC, TXT, RTF и HTML и возвращает JSON с ИНН, КПП, ОГРН, банковскими реквизитами, адресом, подписантом и другими полями. Ключевое ограничение в том, что сервис понимает только текстовые файлы: сканы, фотографии и PDF без текстового слоя нужно сначала прогонять через OCR.

Под капотом здесь не только регулярные выражения, а цепочка из извлечения текста, нормализации, NER-модели и проверки контрольных сумм. Если ИНН, ОГРН или БИК не проходят валидацию, поле просто не возвращается, чтобы в систему не попали заведомо ошибочные данные.

Запрос отправляется в формате multipart/form-data с API-ключом, а для тяжёлых документов авторы советуют сразу ставить таймаут до 120 секунд. По их данным, сервис протестировали на 10 000 документах: точность распознавания ИНН и ОГРН составила 99.7%, расчётного счёта — 98.9%; обычный DOCX на две страницы обрабатывается за 1.5 секунды, тяжёлый PDF — до 45 секунд. Для новых пользователей заявлен тестовый доступ на 30 дней и 100 запросов.

Коротко

  • API вытаскивает реквизиты компаний из PDF, DOCX, DOC, TXT, RTF и HTML и возвращает результат в JSON с ИНН, КПП, ОГРН, БИК и счётом.
  • Сервис не работает со сканами, фотографиями и PDF без текстового слоя: такие файлы сначала нужно распознать отдельным OCR-инструментом.
  • Внутри пайплайна используются извлечение текста, нормализация, NER и проверка контрольных сумм, поэтому невалидные реквизиты не возвращаются.
  • Авторы советуют ставить таймаут 120 секунд: тяжёлые PDF могут обрабатываться до 45 секунд, а файлы больше 20 МБ получают ошибку payload_too_large.
  • По заявленным бенчмаркам на 10 000 документах точность распознавания ИНН и ОГРН составила 99.7%, а расчётного счёта — 98.9%.

FAQ

Зачем бизнесу отдельный API для извлечения реквизитов, если сотрудники и так могут перенести данные из карточки контрагента вручную?

Ручной ввод часто даёт ошибки в ИНН и банковских реквизитах, а дальше это ломает выставление счетов и интеграции с 1С. API нужен, чтобы забирать данные из документов автоматически и не тащить мусор в учётные системы.

Какие файлы сервис реально поддерживает и в каких случаях он не поможет без дополнительной обработки документа?

Поддерживаются PDF с текстовым слоем, DOCX, DOC, TXT, RTF и HTML. Если документ пришёл сканом, картинкой или PDF без текста, сначала нужен OCR.

Чем этот подход отличается от простого парсинга по шаблонам и почему сервис может не вернуть найденное число?

Сервис не просто ищет последовательности цифр, а нормализует текст, выделяет сущности и проверяет контрольные суммы и структуру реквизитов. Если поле не проходит проверку, оно не возвращается.

Читайте также

  1. LLM-агент для поиска свободных доменов: автоматизация подбора
  2. Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты
  3. ИИ для управления проектами. Для чего его на самом деле применяют российские организации
  4. Продакт в 2026 году: чем занимается, как им стать и почему цифровому бизнесу без него никуда
  5. Бесплатный API для нейросетей от NVIDIA: более 100 моделей, OpenAI-совместимый эндпоинт и 40 запросов в минуту
Ключевые инсайты из новости (по версии ChatGPT)
  • Пайплайн извлечения реквизитов из документов: Для извлечения юридически значимых реквизитов из документов недостаточно набора регулярных выражений. Рабочий пайплайн строится как последовательность из парсинга файла, нормализации текста, NER-распознавания сущностей и финальной валидации по структуре и контрольным суммам, чтобы на выходе не сохранять заведомо некорректные данные.
    [Инструменты]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!