Получил PDF-файл с текстовым слоем, который выделяется, но просто так не копируется.
На иллюстрации выше можно увидеть свойства защиты исходного документа. Нам доступен только просмотр файла и печать.
Я хотел сконвертировать документ в формат Word для дальнейшего редактирования и перевода в
CAT. Trados 2019 отказывается открывать PDF-документы, защищенные паролем.
Попытка № 1. ABBYY FineReader. Результат: не получилось. FineReader отказывается извлекать текст из PDF-документов, защищенных паролем. Во всех других отношениях FineReader — это один из лучших инструментов для
OCR, но не в этот раз.
Попытка № 2. Распечатать файл мы точно можем. Выполним печать PDF-документа… в еще один PDF-файл! Любой файл, который можно распечатать, можно отправить на печать в файл в формате PDF из любого приложения, которое поддерживает данную функцию. Для этого необходимо выбрать в списке принтеров вместо физического принтера опцию
Печать в PDF или
Сохранить в PDF. В полученном таким образом PDF нет защиты паролем и ограничений, но все страницы превратились в обычные изображения без текстового слоя, что в техническом плане сравнимо с печатью на бумаге и последующим сканированием в PDF, что не самый эффективный вариант. Теперь этот PDF можно хотя бы распознать в FineReader. Результат: не полный провал, но это далеко от желаемого результата. Как и ожидалось, мелкий шрифт распознался не очень хорошо, поэтому редактирование полученного вордовского документа и сопоставление его с исходным PDF все равно займет много времени.
Попытка № 3. Google Chrome. Я открыл исходный PDF, защищенный паролем, в Google Chrome и выполнил печать в PDF через встроенную функцию печати в PDF. Результат: успех. Полученный PDF больше не защищен паролем, поэтому теперь этот файл можно распознать в любом OCR-приложении, например в FineReader, или просто открыть PDF напрямую в MS Word, где распознавать текст в документе даже нет необходимости. В данном конкретном случае PDF-файл при открытии через MS Word 365 отображается даже лучше, чем тот же PDF, распознанный в ABBYY FineReader.
Однако, данный подход, скорее всего, не сработает, если PDF полностью зашифрован (в отличие от защиты от внесения изменений через пароль автора документа).
Примечание. В Windows стандартное диалоговое окно печати можно открыть через комбинацию клавиш Ctrl + P. В Mac OS используется Command + P.
Открыть файл в Chrome можно через Ctrl + O.
Параметры ограничений в полученном PDF-файле выглядят следующим образом.