Распознавание реквизитов из карточек контрагентов: как устроен API для извлечения данных из документов
API принимает PDF, DOCX, DOC, TXT, RTF и HTML и возвращает JSON с ИНН, КПП, ОГРН, банковскими реквизитами, адресом, подписантом и другими полями. Ключевое ограничение в том, что сервис понимает только текстовые файлы: сканы, фотографии и PDF без текстового слоя нужно сначала прогонять через OCR.
Под капотом здесь не только регулярные выражения, а цепочка из извлечения текста, нормализации, NER-модели и проверки контрольных сумм. Если ИНН, ОГРН или БИК не проходят валидацию, поле просто не возвращается, чтобы в систему не попали заведомо ошибочные данные.
Запрос отправляется в формате multipart/form-data с API-ключом, а для тяжёлых документов авторы советуют сразу ставить таймаут до 120 секунд. По их данным, сервис протестировали на 10 000 документах: точность распознавания ИНН и ОГРН составила 99.7%, расчётного счёта — 98.9%; обычный DOCX на две страницы обрабатывается за 1.5 секунды, тяжёлый PDF — до 45 секунд. Для новых пользователей заявлен тестовый доступ на 30 дней и 100 запросов.
Коротко
- API вытаскивает реквизиты компаний из PDF, DOCX, DOC, TXT, RTF и HTML и возвращает результат в JSON с ИНН, КПП, ОГРН, БИК и счётом.
- Сервис не работает со сканами, фотографиями и PDF без текстового слоя: такие файлы сначала нужно распознать отдельным OCR-инструментом.
- Внутри пайплайна используются извлечение текста, нормализация, NER и проверка контрольных сумм, поэтому невалидные реквизиты не возвращаются.
- Авторы советуют ставить таймаут 120 секунд: тяжёлые PDF могут обрабатываться до 45 секунд, а файлы больше 20 МБ получают ошибку payload_too_large.
- По заявленным бенчмаркам на 10 000 документах точность распознавания ИНН и ОГРН составила 99.7%, а расчётного счёта — 98.9%.
FAQ
Зачем бизнесу отдельный API для извлечения реквизитов, если сотрудники и так могут перенести данные из карточки контрагента вручную?
Ручной ввод часто даёт ошибки в ИНН и банковских реквизитах, а дальше это ломает выставление счетов и интеграции с 1С. API нужен, чтобы забирать данные из документов автоматически и не тащить мусор в учётные системы.
Какие файлы сервис реально поддерживает и в каких случаях он не поможет без дополнительной обработки документа?
Поддерживаются PDF с текстовым слоем, DOCX, DOC, TXT, RTF и HTML. Если документ пришёл сканом, картинкой или PDF без текста, сначала нужен OCR.
Чем этот подход отличается от простого парсинга по шаблонам и почему сервис может не вернуть найденное число?
Сервис не просто ищет последовательности цифр, а нормализует текст, выделяет сущности и проверяет контрольные суммы и структуру реквизитов. Если поле не проходит проверку, оно не возвращается.
Читайте также
LLM-агент для поиска свободных доменов: автоматизация подбора
Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты
ИИ для управления проектами. Для чего его на самом деле применяют российские организации
Продакт в 2026 году: чем занимается, как им стать и почему цифровому бизнесу без него никуда
Бесплатный API для нейросетей от NVIDIA: более 100 моделей, OpenAI-совместимый эндпоинт и 40 запросов в минуту
- Пайплайн извлечения реквизитов из документов: Для извлечения юридически значимых реквизитов из документов недостаточно набора регулярных выражений. Рабочий пайплайн строится как последовательность из парсинга файла, нормализации текста, NER-распознавания сущностей и финальной валидации по структуре и контрольным суммам, чтобы на выходе не сохранять заведомо некорректные данные.
[Инструменты]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
На Хабре описан публичный API, который извлекает реквизиты компаний из документов и карточек контрагентов одним POST-запросом. Сервис вырос из внутренних задач по интеграции с 1С и документооборотом, а теперь предлагается как отдельный продукт для автоматизации ручного ввода.