Как сделать текст в любом PDF-файле доступным для копирования
Простой способ искать и копировать текст из почти любого PDF-файла (фото: Getty Images)
Бывало ли у вас, что нужно срочно скопировать текст из PDF-файла, но вместо этого выделяется лишь картинка? Такое случается, если документ создан путем сканирования, а не сохранен в текстовом формате. К счастью, есть способы преобразовать такой PDF, сделав текст доступным для копирования и поиска.
Об этом сообщает РБК-Украина (проект Styler) со ссылкой на ведущий в мире сайт по технологиям и жизненным советам Lifehacker.
Как скопировать текст в PDF-документе с помощью OCRmyPDF
Современные программы для сканирования используют оптическое распознавание символов (OCR), чтобы сделать текст доступным для поиска и выделения, но иногда встречаются документы, где этого нет.
В таких случаях отлично подойдет OCRmyPDF - бесплатное и с открытым исходным кодом приложение, которое добавляет OCR в PDF-документы. Это консольная утилита, которая преобразует любой PDF-файл в PDF/A с поддержкой поиска по тексту. И что самое приятное - программа полностью бесплатна.
Установить OCRmyPDF проще всего через менеджер пакетов на устройствах с Linux и через Homebrew на Mac. Пользователи Windows также могут установить приложение, но для этого потребуется Python и несколько дополнительных зависимостей - если готовы немного разобраться, то это возможно.
После установки приложения вы можете использовать его, набрав "ocrmypdf", затем имя документа, к которому вы хотите добавить OCR, и после этого имя документа, который вы хотите создать. Например, команда "ocrmypdf before.pdf after.pdf" возьмет файл "before.pdf", добавит распознавание символов и создаст новый документ под названием "after.pdf".
Обработка может занять некоторое время, в зависимости от размера документа. Если качество изображения низкое, OCR может работать не совсем точно. Однако, даже со старыми и плохо сжатыми PDF-файлами программа показывает хорошие результаты.
Дополнительно OCRmyPDF поддерживает множество полезных функций:
- Сжатие изображений внутри PDF можно включить, добавив флаг --pdfa-image-compression jpeg
- Автоматический поворот страниц с боковым текстом выполняется с помощью --rotate-pages
- Если в PDF уже есть некачественный OCR, можно удалить его и выполнить распознавание заново, добавив --redo-ocr
Подробное руководство с дополнительными возможностями можно найти в документации OCRmyPDF.
У нас также есть материал о том, как быстро и легко создавать PDF-файлы на iPhone.
А еще мы писали, как создавать PDF-файлы на смартфонах Android с помощью одного приложения.