О. А. Славин, И. М. Янишевский

PHONE-SCAN: Набор изображений документов, оцифрованных и нормализованных с помощью смартфона

В работе описан датасет PHONE-SCAN для анализа русскоязычных документов формата А4, оцифрованных смартфонами в реальных условиях. Набор включает 451 образцов одиннадцати типов документов с различными уровнями шума и искажений, полученных разными пользователями и устройствами. К данным прилагаются результаты распознавания текста OCR Tesseract. Датасет может быть использован для разработки и тестирования алгоритмов классификации, нормализации и улучшения качества изображений документов.

КЛЮЧЕВЫЕ СЛОВА: датасет, изображение документа, документы А4, оцифровка изображений.