Ответ: вытащить текст из pdf
На самом деле можно обойтись и без 7-го FineReader'а, можно меньший или любую другую систему распознавания (если найдёте что-то лучше
). Дело в том, что в FineReader для распознования PDF фактически встроен
Ghostscript, и метод у него самый тупой — PDF растрируется, а затем распознаётся штатными файнридеровскими методами. У «семёрки» одно преимущество — она всё-таки сперва пытается извлечь текст из самого файла, если это возможно, она использует его. Но. Дело в том, что наличие корректного текста сильно зависит от того, каким софтом делался PDF и на какой платформе (я имею ввиду русские тексты, с английским обычно всё много проще). Во-первых, текст в файле может хранится в разных кодировках. Скажем, у меня были случаи, когда из PDF, сделанного под Linux текст извлекался, но он был в KOI, к тому же с обрезанным восьмым битом, то есть вместо русской буквы была соответствующая ей в таблице KOI-8 латинская. Естественно, он был совершенно непригоден. Во-вторых, корректно русский текст (Windows, на Маках, увы, не знаю) внедряет только Acrobat, PDF сделанный другим софтом может дать мусор. Cобственно, это может зависить от драйвера принтера, то есть на стадии подготовки PDF. Для интересу проэксперементировал: распечатал текст на виртуальный принтер, в одном случае это был Distiller, в другом — AGFA-Avantra 25 v2013.108, затем отдистиллил. В первом случае получился PDF с текстом, нормально извлекаемым как средствами Acrobat'а, так и просто копированием в буфер обмена, во втором — мусор (визуально, естественно, они были идентичны). Так что во многих случаях проще сделать так: в Acrobat'е сохранить страницы в tif, а их скормить FineReader'у.