Оптическое распознавание символов в PDF-файлах

27 февраля 2019
Foxit PhantomPDF

Если вы раньше сканировали документы, то должны знать, что стандартное ПО для сканирования способно только создавать изображение. То есть, это будет обычная картинка, а не редактируемый текст с возможностью поиска по словам. 

Поэтому, если вам нужно просто оцифровать файл – такое программное обеспечение будет хорошим решением. Но если же требуется создание документов с возможностью редактирования, то здесь потребуется нечто больше. Именно в подобных ситуациях очень выручает оптическое распознавание символов (OCR).

OCR способно преобразовывать отсканированные изображения в документы, в которых можно вносить правки и выполнять поиск. Но тут надо учитывать ряд нюансов.

OCR делает оцифрованные файлы редактируемыми и доступными для поиска. Это возможно за счет преобразования статических изображений слов в реальный текст.

Но тут есть одна проблема. Несмотря на то, что сейчас существуют сложные механизмы, способные распознавать символы в документе – 100% распознавания не добиться никак. Ведь на это влияет качество оцифрованного документа, используемое ПО и многие другие факторы.

Технически текст OCR называют «скрытым» в PDF. Все потому что пользователь видит обычное изображение, а сам текст OCR обычно находится за картинкой.

Решить данную проблему удалось с помощью Foxit PhantomPDF. Приложение предлагает удобную опцию, позволяющую пользователю оставаться в PDF-редакторе и при этом видеть текст OCR. Для этого достаточно лишь нажать кнопку «Просмотр текста».

С Foxit Text Viewer можно работать с любыми PDF-документами, просматривая их в режиме чистого текста. Это дает возможность повторного использования текста, который разбросан по картинкам и таблицам – т.е. действует как блокнот.

Для активации режима просмотра текста, надо выполнить одно из 2 действий:

  • выбрать пункты «Просмотр» – «Просмотр документов» – «Просмотр текста»;
  • нажать комбинацию клавиш Ctrl + 6.

А исправлять ошибки распознавания или вносить правки можно с помощью PhantomPDF.

Данный способ хорош при разовом сканировании документов. Но если нужно распознать большое количество PDF-файлов, то вам понадобится более мощное приложение. В таких случаях вашей компании может помочь решение Foxit Server.

Справка: Foxit является ведущим разработчиком в области электронного издательства и документооборота. С помощью приложений Foxit можно повысить продуктивность работы сотрудников, а заодно обеспечить надежную защиту PDF-документов.