ГИБРИДНЫЙ МЕТОД ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ ТЕКСТА С КОРРЕКЦИЕЙ РЕЗУЛЬТАТОВ РАСПОЗНАВАНИЯ
Рассмотрена задача перевода информации с бумажных носителей в электронный вид. Предложен гибридный метод оптического распознавания символов на основе комплексирования результатов анализа полутоновых и бинарных изображений. Предложена метрика нечеткого поиска для орфографической и синтаксической коррекций распознанного текста с использованием словаря. Разработан программный комплекс для распознавания текстовых изображений и коррекции текста. Проведено сравнение результатов распознавания полутоновых изображений, полученных различными методами, показавшее высокую точность разработанного метода.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
Х а н и н
ГИБРИДНЫЙ МЕТОД ОПТИЧЕСКОГО
РАСПОЗНАВАНИЯ ТЕКСТА С КОРРЕКЦИЕЙ
РЕЗУЛЬТАТОВ РАСПОЗНАВАНИЯ
Рассмотрена задача перевода информации с бумажных носителей
в электронный вид. <...> Предложен гибридный метод оптического распознавания
символов на основе комплексирования результатов анализа
полутоновых и бинарных изображений. <...> Предложена метрика
нечеткого поиска для орфографической и синтаксической коррекций
распознанного текста с использованием словаря. <...> Разработан
программный комплекс для распознавания текстовых изображений
и коррекции текста. <...> Проведено сравнение результатов распознавания
полутоновых изображений, полученных различными методами,
показавшее высокую точность разработанного метода. <...> E-mail: a.khanin@vniins.ru; alexandr.khanin@gmail.com
Ключевые слова: обработка изображений, сегментация, распознавание
символов и текста, синтаксический анализ, парсинг, OCR. <...> Оптическое распознавание символов (optical character recognition),
далее — OCR, является технологией механического или электронного
перевода отсканированных изображений рукописного, машинописного
или печатного текстов в электронный вид. <...> OCR позволяет сократить
объем занимаемой информации, делает возможным редактирование
текста, поиск по слову или фразе, позволяет просматривать или распечатывать
документы без артефактов сканирования и применять к
тексту такие действия, как машинный перевод, синтез речи и т.д. <...> Оптическое распознавание текста является исследуемой проблемой
в областях распознавания образов, искусственного интеллекта и
компьютерного зрения. <...> В отличие от ранних версий, существующие
OCR подходы не требуют калибровки для работы с конкретным
шрифтом и позволяют обеспечить достаточно высокую вероятность
достоверного распознавания большинства шрифтов. <...> Некоторые системы
оптического распознавания текста способны восстанавливать
исходное форматирование текста, включая изображения, колонки и
другие нетекстовые компоненты. <...> Очевидно, классические <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: