Распознает все

Автор: Михаил Брод
Иcточник: Softkey.info
Опубликована: 10.01.2006

Выпуск новой версии программы всегда подразумевает появление каких-либо новых возможностей, улучшение уже имеющихся. Новые версии ждут. А если программа известна и получила широкое признание и распространение - ждут с нетерпением. Вот и компания ABBYY Software House выпустила новую, уже восьмую, версию своего продукта - FineReader 8.0. При этом пользователям предлагается на выбор либо профессиональная (Professional Edition), либо корпоративная (Corporate Edition) версия.

В программе появилось много новых возможностей. Если обобщить, то связаны они с двумя основными направлениями - автоматизацией работы с программой и улучшением распознавания изображений, полученных с помощью цифровых камер. Есть и другие изменения, о которых также будет сказано.

Какие возможности предоставлены пользователям для автоматизации работы? Первая - автоматизация однотипных многократно повторяемых действий за счет создания сценариев. Сценарий - это последовательность шагов, выполняемых при распознавании текста. Например, это может быть открытие нескольких документов, распознавание их и сохранение результатов обработки в виде документа Word. При этом программа учитывает особенности, связанные с добавлением новых распознаваемых изображений в единый пакет. В зависимости от настроек обработанные ранее изображения могут более не распознаваться либо, если установлена обработка пакета, будет обрабатываться весь пакет изображений, были ли они распознаны ранее или нет.

В состав продукта входят три базовых сценария:

Эти сценарии недоступны для изменения - их можно использовать только так, как есть. Но можно создавать собственные сценарии. В отличие от встроенных пользовательские сценарии могут содержать шаг проверки результатов распознавания, а также несколько шагов сохранения документа, что позволяет создавать копии одного и того же документа в различных форматах. Последовательность шагов сценария должна соответствовать этапам обработки документа в программе FineReader: получение изображения - распознавание - проверка результатов - сохранение результатов распознавания. Для удобства создания сценарием предусмотрен специальный менеджер.

После запуска сценария на экране появляется панель выполнения сценария, содержащая индикатор выполнения сценария, список шагов сценария, а также подсказки и предупреждения. Не все шаги выполняются полностью в автоматическом режиме. От пользователя может потребоваться указать папку с исходными изображениями или файлы, вручную поправить блоки после распознавания страниц. Но все же большинство действий выполняется без вмешательства пользователя. При формировании сценариев необходимо помнить также о том, что выгрузка распознанных документов во внешние приложения возможна лишь при наличии их на компьютере. В противном случае этап сохранения выполняться не будет.

В корпоративную версию включено еще одно новое приложение - планировщик. Оно называется ABBYY Hot Folder & Scheduling. Это приложение позволяет вести в автоматическом режиме пакетную обработку файлов (изображений или PDF-файлов) из определенной папки на локальном или сетевом диске. Папок может быть несколько, в этом случае для каждой из них назначается своя собственная задача. Обработка файлов с использованием планировщика выполняется без загрузки интерфейса FineReader, что позволяет существенно экономить оперативную память. Кроме того, можно настроить запуск задач на то время, когда компьютер наименее загружен. Настройки задачи включают в себя все необходимые параметры открытия изображений, распознавания и сохранения распознанного текста, режим проверки папки (однократно или постоянно), время начала обработки папки и периодичность проверки папки. (Настроенные задачи, как и сценарии обработки, можно экспортировать из программы и импортировать на другие компьютеры. Это существенно сокращает время на настройку работы программы в большой организации.)

Корпоративная версия FineReader с учетом возможностей пакетной обработки позволяет наиболее эффективно организовать работу в локальной сети. Так, один из компьютеров можно выделить под сканирование изображений (результаты складываются в определенную папку), другой компьютер настроен на автоматическое распознавание документов из нее, на третьем выполняется проверка результатов.

Все чаще вместо сканирования изображений используются цифровые камеры. Особенно в тех случаях, когда использование сканера невозможно, - на улице, когда нужно получить копию рекламы или объявления, в дороге, на выставке. Камера позволяет быстро получить копию оригинала, но качество изображения чаще всего бывает ниже отсканированного. Как правило, разрешение полученного с помощью цифровой камеры изображения ниже, чаще появляются искривленные строки, засветка изображения неравномерна. Все это существенно затрудняет их распознавание. ABBYY FineReader 8.0 отличает сфотографированные документы от отсканированных и применяет для обработки снимков новую адаптивную технологию распознавания.

Но не только при получении изображений с помощью камеры на них появляются недостатки, мешающие корректному распознаванию. При сканировании книг, особенно толстых, на изображениях могут появиться черные поля. Они мешают распознавать текст, поэтому в новой версии программы появилась возможность удалять их, а также удалять области, не содержащие текст. В восьмой версии FineReader появилась еще одна новая функция - устранение искривления строк по краям изображения. Теперь, перед тем как приступить к распознаванию текста, можно воспользоваться функцией "Устранить искажение строк". После такой обработки распознавание выполняется существенно быстрее и качественнее. Результаты внутреннего тестирования, выполненные в компании-разработчике, показывают, что качество распознавания сфотографированных текстов увеличилось почти наполовину.

А вот для качественно отсканированных текстов появилась очень хорошая возможность существенно сократить время их распознавания. При обработке таких документов можно выбрать режим "Быстрый", который сокращает время обработки в 2-2,5 раза. Особенно существенную выгоду это дает при массовой обработке однотипных документов. Перейти на этот режим можно с помощью настроек программы, выбрав на закладке "Распознать" режим "Быстрый". Степень распознаваемости текстов стала выше за счет еще одного новшества - возможности подключения пользовательских словарей MS Word. Если для большинства пользователей это дополнение не критично, то для тех, кто работает с узкоспециализированными текстами, существенно уменьшится работа по проверке текстов после распознавания. Помимо этого увеличено и количество языков, которые поддерживаются программой.

Целая серия изменений коснулась процесса обработки PDF-файлов. Одно из них связано с анализом исходных файлов. Некоторые PDF-файлы содержат так называемый текстовый слой, причем его содержимое может не полностью соответствовать видимому на экране документу. FineReader предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Изменения коснулись и обратных действий - сохранения распознанного текста в PDF-файл. Их несколько. Во-первых, появилась возможность создавать PDF-файлы с тегами, которые автоматически переформатируются под текущий размер экрана. Во-вторых, появилась возможность защиты таких файлов паролем и использования одного из алгоритмов шифрования (RC4 или AES). Хотя алгоритм AES более стоек, но с ним можно работать лишь начиная с седьмой версии Acrobat Reader. Поэтому для большей совместимости рекомендуется использовать алгоритм RC4.

Нельзя не сказать об еще одной новинке, которая поставляется с программой в качестве бонуса. Это - дополнительное приложение ABBYY Screenshot Reader. С его помощью можно:

Приложение не требует запуска программы, имеет собственные настройки, которыми и определяется то, что она будет делать (распознавать текст, таблицу или изображение). Для более качественного распознавания желательно выбрать языки распознавания (для распознавания таблиц с численными данными рекомендуется выбирать опцию распознавания цифр). После выполнения захвата требуемой области текста, таблицы или экрана запускается программа, распознающая изображение и помещающая его в файл, внешнее приложение или FineReader. Все выполняется быстро, удобно и качественно.

В заключение хотелось бы отметить, что помимо описанных новшеств в программе есть и другие усовершенствования, так же влияющие на качество выполняемой работы.


Ссылка: http://www.oszone.net/3591/