Создание книги в формате PDF из учебника

Скачивая электронные книги, из различных сайтов, торрент-трекеров будь то в PDF формате, Djvu или же FB2, я как-то задумался о том, что есть еще энтузиасты, которые сканируют книги, а затем делают из них PDF-ки и заливают на торрент... Поначалу решил сам немного таким заняться, — искал книги на других каких-то сайтах и заливал их на торрент-трекер... Но не так давно увидев pdf-книгу на 965 страниц о языке PHP5, я вспомнил о книге Архангельского "Программирование в Delphi" на 1225 страниц. Мне стало очень интересно вот, сколько своего времени потратил этот хороший человек, отсканировав такую часть страниц. "Хороший" для таких людей как я, — которые книги если и покупают, то делают это очень редко, хотя с другой стороны не всегда сможешь найти нужную тебе книгу в книжном магазине.

И вот все таки интерес взял верх, и я решился проделать подобную работу с целью узнать сколько у меня уйдет времени на создание PDF-учебника из 400 страниц. Но вот только я решил делать ответственно, то есть не просто отсканировать и законвертировать изображения в pdf, а отсканированные изображения обработать с помощью программы FineReader, исправить неверно распознанные слова и сохранить уже чистую("белую") книгу в pdf.

  1. Сканирование и редактирование книги

Настроив параметры сканирования вот в этом окне:


Я приступил к сканированию. Пока сканировалась следующая страница я редактировал предыдущую отсканированную страницу (обрезал ненужную область), как показано на рисунке снизу:

За 10 минут я успевал отсканировать и отредактировать ~15 страниц, и это только потому что разрешение сканирования я установил 300dpi (я конечно пробовал и при 600dpi, чтобы в дальнейшем FineReader максимально качественно распознал текст, но такой процесс сканирования требовал гораздо больше времени, порой и минуты не хватало на сканирование страницы).

После 5 часов сканирования, у меня уже было 400 jpg-картинок с разрешением сканирования 300dpi (разрешение отредактированной картинки составляло ~2300x3000 пикселей) и размером ~1,5 МБ. Вся папка с изображениями весила 622 МБ. И на этом первый этап завершился.

  1. Распознавание текста на jpg-картинках

Зачем нужно распознавание текста, ведь можно просто конвертировать эти картинки в pdf-книгу? Все дело в том, что если я объеденю на данном этапе те изображения, которые я уже имею, с помощью программы Adobe Acrobat, то и выходной размер моего pdf-файла будет также ~600 МБ. А для электронной книги это очень большой размер, да и страницы не все вышли ровно отсканированны. Вообщем такую книгу не очень приятно будет читать, и поэтому я решил делать качественно.

Преимущества книги созданной через расспознавание текста:

  1. Возможность выделения текста для копирования
  2. Возможность поиска по книге
  3. Качество текста не теряется при увеличении
  4. Отсутствие дефектов книги (возникновение которых возможно при сканировании)
  5. Размер книги не большой

Вот так выглядит редактирование текста в Adobe FineReader 11:

  1. Сохранение книги

На редактирование книги в программе FineReader у меня ушло 7 часов. И вот уже я мог сохранять свою книгу как PDF-файл...но неожиданно для меня, во время сохранения произошла ошибка, и FR аварийно завершил работу. Поэтому поводу я сильно не огорчился так как знал, что я переодически сохранял проект в FR-формате, поэтому сейчас все востановлю... Загрузив сохраненный проект я увидел, что 53 страницы книги отсались даже не расспознаными, на это дело у меня сразу возник вопрос: "Как так?". Отредактировав эти страницы, я снова перезаписал проект и начал сохранять как PDF, и снова аварийное завершение программы, и снова все те страницы остались нераспознанные. На этот раз я огорчился, и сначала подумал что это глюк FR11, поэтому решил воспользоваться уже хорошо проверенным мной FR10. Но выходит такая ситуация, что проект сохраненный в новейшей версии в прошедшей версии не поддерживается, поэтому решил как-то сохранять через FR11.

Сделал я так: удалил те 53 страницы, а затем снова их открыл, так как при открытии они автоматичесски расспознаются. Распознавание произошло, затем мне удалось сохранить PDF-книгу...Но те 53 страницы остались только распознанны, но не подкоректированны, потому что если я корректирую их FR снова аварийно закрываетс, и сохраненный проект летит... Так я и не понял с чем связан этот глюк, может быть с тем, что размер проект слишком велик для FR11 или просто глюк моей версии FR.

Но в принципе не смотря на это 12 часов в принципе достаточно, чтобы сделать электронный учебник из 400 страниц, и который будет иметь выходной размер 28 МБ, или же сохранить в docx формате и получить книжку весом в 3 МБ.

Поэтому смотрите сами, законвертировать сканированные изображение и, как в моем случае получить ~600 МБ, или же через FineReader — и в итоге 28 МБ, белый фон, возможность копировать текст, и увеличивать масштаб без потери качества. На этом все, если имеете какие-то советы, или же вопросы — пишите в комментарии.

Комментарии (0):

Комментариев, к данной статье, нет

Оставить комментарий:


* Введите Ваше имя


* Введите комментарий

Введите результат с картинки:

* Введите результат

Фото дня на Яndex


Туманный рассвет, или состояния золота.