Правильный OCR

Занялся переводом в цифру словарей из своей библиотеки. Для начала в *.docx. Начал с Trask, R. L. The Penguin Dictionary of English Grammar (Penguin Reference Books). — L.: Penguin Books, 2000. — 160 р. Параллельно читаю, как правильно распознавать и вычитывать текст.

На сайте о сканировании и работе с текстами и графикой зачитался Правилами OCR-2005. Заключительное методическое руководство Готье Неимущего. Многие нюансы интересны и полезны. Но вот когда автор говорит о ненужности стилей в word’овском файле — согласиться с ним не могу.

Готье Неимущий пишет:

Я не рекомендую пользоваться стилями, причем одни мастера OCR со мной полно-стью согласны, но другие — нет. В моих версиях книг посередине располагается только самая начальная «шапка» с названием и авторами книг, а потом весь текст, в том числе и заголовки различного уровня, идет по левому краю с унифицированными абзацными отступами. Еще я ставлю посередине на протяжении текста заголовки типа «Том 1. Название», «Том 2. Название» или «Книга 1. Название», «Книга 2. Название». Иногда есть та-кие заголовки и во вспомогательном материале к теме версии (обычно в файлах !Intro_After.*). Заголовки выделены полужирным, а подзаголовки (редко) — курсивом. Это все. Я думаю, что стили для версий после OCR — лишнее, во всяком случае, оказалось лишним для тех изданий, которые я выполнил за эти годы.

Мой сетевой родственник сказал, что данный мною совет не пользоваться стилями просто вреден, поскольку ему, например, они очень облегчают жизнь. Но у него только технические тексты, где стили, конечно, могут быть полезными. Ведь и я тоже, как указано выше, пользовался стилями, когда мне была нужна рабочая версия очень развернутого многоуровневого «Содержания» объемом более чем 10 страниц. Однако при подготовке электронных версий книг я ни разу не пожалел об отсутствии стилей. И считаю их там в подавляющем большинстве случаев лишними.

Присоединяюсь к тому неизвестному, кто назвал этот совет вредным. Ничто так не облегчает работу с любым (!) текстом, как разумно прописанные стили. Идея та же, что и с CSS: один раз прописываешь стиль, и если нужно разом изменить вид документа или сайта, то меняешь в один клик.