А. В. Гайер, А. В. Шешкус, Д. П. Николаев, В. В. Арлазаров

Компактная нейросетевая модель для детекции текстовых строк на изображениях документов на основе быстрого преобразования Хафа

Современные системы распознавания документов основаны на нейросетевых моделях, размер и вычислительная сложность которых затрудняют их применение на широком спектре устройств. В данной работе предлагается сверхкомпактная нейросетевая модель для детекции текста в средах с ограниченными ресурсами. В ее основе лежит обработка глобальных признаков с линейной структурой, соответствующих прямым текстовым строкам, в пространстве Хафа. Размер модели составляет всего 116 килобайт - что в 8 раз меньше, чем детектор текста MULDT, и в 41 раз меньше, чем детектор текста в PaddleOCR. Проведенные эксперименты на наборах данных FUNSD, SROIE, SVRD и XFUND показывают, что предложенная модель имеет сопоставимое качество с современными компактными детекторами текста.

КЛЮЧЕВЫЕ СЛОВА: распознавание документов, глубокое обучение, быстрое преобразование Хафа (БПХ), детекция текста.