Информатика -взгляд 2


 Преобразование документов в электронную форму - часть 3


Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях (и даже при значительных искажениях).

В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки — на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.

Работа с программой FineReader

Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рис. 17.2). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.

Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:

• сканирование документа (кнопка Сканировать);

• сегментация документа (кнопка Сегментировать);

• распознавание документа (кнопка Распознать);

• редактирование и проверка результата (кнопка Проверить);

 

• сохранение документа (кнопка Сохранить).

Сканирование документа. На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов Scan&Read. В программе FineReader сканирование может производиться как через драйвер TWAIN, так и в обход его.


Начало  Назад  Вперед