Распознавание реквизитов из карточек контрагентов: как устроен API для извлечения данных из документов

14.04.2026 • Хабр

На Хабре описан публичный API, который извлекает реквизиты компаний из документов и карточек контрагентов одним POST-запросом. Сервис вырос из внутренних задач по интеграции с 1С и документооборотом, а теперь предлагается как отдельный продукт для автоматизации ручного ввода.

API принимает PDF, DOCX, DOC, TXT, RTF и HTML и возвращает JSON с ИНН, КПП, ОГРН, банковскими реквизитами, адресом, подписантом и другими полями. Ключевое ограничение в том, что сервис понимает только текстовые файлы: сканы, фотографии и PDF без текстового слоя нужно сначала прогонять через OCR.

Под капотом здесь не только регулярные выражения, а цепочка из извлечения текста, нормализации, NER-модели и проверки контрольных сумм. Если ИНН, ОГРН или БИК не проходят валидацию, поле просто не возвращается, чтобы в систему не попали заведомо ошибочные данные.

Запрос отправляется в формате multipart/form-data с API-ключом, а для тяжёлых документов авторы советуют сразу ставить таймаут до 120 секунд. По их данным, сервис протестировали на 10 000 документах: точность распознавания ИНН и ОГРН составила 99.7%, расчётного счёта — 98.9%; обычный DOCX на две страницы обрабатывается за 1.5 секунды, тяжёлый PDF — до 45 секунд. Для новых пользователей заявлен тестовый доступ на 30 дней и 100 запросов.

Коротко

API вытаскивает реквизиты компаний из PDF, DOCX, DOC, TXT, RTF и HTML и возвращает результат в JSON с ИНН, КПП, ОГРН, БИК и счётом.
Сервис не работает со сканами, фотографиями и PDF без текстового слоя: такие файлы сначала нужно распознать отдельным OCR-инструментом.
Внутри пайплайна используются извлечение текста, нормализация, NER и проверка контрольных сумм, поэтому невалидные реквизиты не возвращаются.
Авторы советуют ставить таймаут 120 секунд: тяжёлые PDF могут обрабатываться до 45 секунд, а файлы больше 20 МБ получают ошибку payload_too_large.
По заявленным бенчмаркам на 10 000 документах точность распознавания ИНН и ОГРН составила 99.7%, а расчётного счёта — 98.9%.

FAQ

Зачем бизнесу отдельный API для извлечения реквизитов, если сотрудники и так могут перенести данные из карточки контрагента вручную?

Ручной ввод часто даёт ошибки в ИНН и банковских реквизитах, а дальше это ломает выставление счетов и интеграции с 1С. API нужен, чтобы забирать данные из документов автоматически и не тащить мусор в учётные системы.

Какие файлы сервис реально поддерживает и в каких случаях он не поможет без дополнительной обработки документа?

Поддерживаются PDF с текстовым слоем, DOCX, DOC, TXT, RTF и HTML. Если документ пришёл сканом, картинкой или PDF без текста, сначала нужен OCR.

Чем этот подход отличается от простого парсинга по шаблонам и почему сервис может не вернуть найденное число?

Сервис не просто ищет последовательности цифр, а нормализует текст, выделяет сущности и проверяет контрольные суммы и структуру реквизитов. Если поле не проходит проверку, оно не возвращается.

PubMag

Распознавание реквизитов из карточек контрагентов: как устроен API для извлечения данных из документов

Коротко

FAQ

Зачем бизнесу отдельный API для извлечения реквизитов, если сотрудники и так могут перенести данные из карточки контрагента вручную?

Какие файлы сервис реально поддерживает и в каких случаях он не поможет без дополнительной обработки документа?

Чем этот подход отличается от простого парсинга по шаблонам и почему сервис может не вернуть найденное число?

Читайте также