Попробовал CuneiForm + YAGF. Первое – программа для распознавания текстов, код которой был открыт в апреле 2008 года (до этого программа была коммерческой). Второе – графический интерфейс к ней.
Тестировал в жестких условиях: отксерил разворот старой книги с пожелтевшими листами. Потом отсканировал в не самом лучшем разрешении и еще из вредности подкрутил гамму, чтобы “грязь” на картинке была позаметнее.
Результат: порядка пяти незначимых опечаток на страницу (посторонние символы, неправильные знаки препинания), не считая знаков переноса.
Кстати, сама книга достаточно старая, и кое-что, что я поначалу принял за ошибку распознавания (слово написано слитно, а не раздельно), оказалось вовсе не ошибкой – просто раньше так писали.