О формате PDF

В настоящее время PDF является одним из наиболее популярных форматов книг и документов. В данной статье я расскажу немного об истории появления и развития формата PDF, о том, что он из себя представляет, какие программы позволяют создавать, читать и редактировать документы и книги PDF. Также я выскажу собственное мнение об этом формате и о перспективах его развития. Скажу сразу, я постараюсь писать как можно более простым и доступным языком, не вдаваясь подробно в технические и полиграфические детали.

 

История

Разработка формата PDF была начата специалистами американской компании Adobe Systems Inc. еще в самом начале 1990-х годов. Цель заключалась в создании универсального формата для различных электронных публикаций (книг, брошюр, каталогов и тому подобных вещей), который бы позволил отображаться им на разных устройствах одинаково, независимо от установленных на них операционной системы и программного обеспечения. Первая версия формата PDF (1.0) увидела свет в 1993 году. Название PDF, кстати, расшифровывается как Portable Document Format.

Логотип PDF

Надо сказать, что в первые годы после выхода формат PDF оставался непопулярным. Дело в том, что программное обеспечение для его создания стоило немалых денег; более того, первоначально даже программа для чтения файлов PDF была платной. Были и другие недостатки: отсутствие поддержки внешних ссылок (например, на веб-сайты), большой размер файлов PDF (в 1990-х это было существенным минусом), «тяжеловесность», которая являлась причиной тормозов при работе с PDF — компьютеры в 1990-х годах, разумеется, не отличались мощной аппаратной частью.

Однако Adobe Systems не растерялась, не повесила нос, а продолжила усердную работу над своим детищем. Уже в 1994 году была выпущена версия PDF 1.1 с поддержкой ссылок и некоторых других полезных штук. В PDF 1.2 (1996) были улучшены мультимедийные возможности, добавлена поддержка Unicode и пара других функций.

В 1994 году произошло еще одно весьма примечательное событие: программа Acrobat Reader для чтения PDF стала бесплатной. Позднее, кстати, Acrobat Reader был переименован в Adobe Reader. Данная программа также постепенно развивалась, однако спустя некоторое время вышли и другие приложения PDF, которые у ряда пользователей стали пользоваться большей популярностью. Яркий пример — Foxit Reader, выпускаемый основанной в 2001 компанией Foxit Corporation.

Foxit Reader

В PDF 1.3 (2000 год) появилась поддержка цифровых подписей и java-скриптов; в версии 1.4 (2001 год) — поддержка картинок с прозрачностью и OCR-слоя (такой слоя накладывают программы распознавания текста — ABBYY Fine Reader, например). В общем, развитие PDF происходило пусть и довольно медленно, но уверенно. В последующих версиях (1.5 — 1.7) появилась поддержка слоев, звука, анимации и многие другие вещи, которые, фактически, сделали PDF одним из лучших форматов для справочной, научной, технической и учебной литературы.

1 июля 2008 года PDF стал открытым форматом — его спецификация была полностью открыта, что позволило разработчикам без проблем, дополнительных отчислений и заморочек писать различные программы для чтения файлов PDF, конвертеры и другие полезные вещи. Начиная с 2000-х годов популярность PDF среди пользователей различных электронных устройств, я бы сказал, растет достаточно уверенными темпами — причем во всех странах мира — и американских, и европейских, и азиатских. Россия здесь не является исключением.

В настоящее время, однако, формат PDF развивается весьма медленно и неуверенно. Последняя официальная версия — 1.7 level 8 — вышла в 2011 году. За 2009-2012 годы, я бы сказал, никаких серьезных усовершенствований в PDF сделано не было. Сейчас PDF начинает испытывать конкуренцию со сторону заметно улучшенного формата EPUB3. В 2006-2008 годах Adobe пыталась развивать формат Mars — оригинальный гибрид PDF и XHTML, но в 2008 году он был заброшен. Впрочем, современный EPUB 3 — это тоже что-то подобное сочетанию PDF и XHTML.

 

Что такое формат PDF

PDF — это многофункциональный формат для хранения и распространения электронных публикаций (книг, документов, брошюр, каталогов и т.д.), который позволяет сохранять их форматирование неизменным при открытии на любых устройствах. В документ/книгу PDF могут быть встроены текст, картинки (векторные и растровые; в том числе с прозрачностью), анимация, звук, формулы, таблицы, шрифты, ссылки (внутренние и внешние), скрипты (java), интерактивное оглавление и многие другие полезные элементы. Картинки можно сжимать, уменьшая тем самым общий размер файла.

Формат PDF также позволяет встраивать так называемые цифровые подписи, которые служат для защиты документов, а также для проверки их подлинности. Цифровые подписи уже стали довольно популярными в США, но в России это скорее диковинка. Помимо этого, в файл PDF можно встроить и так называмые метаданные — информацию о названии книги, имени автора, дате издания и о многом другом.

Я бы выделил два основных типа PDF — так сказать, с точки зрения рядового пользователя. Тип первый — это «текстовые» PDF, тип второй — PDF «картиночные». В «текстовых» PDF текст — это действительно текст; его можно копировать, по документу можно проводить поиск и так далее; при желании можно увеличить размер шрифта. При этом помимо текста в «текстовых» PDF могут содержаться таблицы, графики, формулы, картинки и прочие элементы. Главное, что текст там является именно текстом.

«Картиночные» PDF — это просто набор отсканированных (или сфотографированных) страниц книги, документа, брошюры. Текст там — просто картинка, и подчас картинка весьма посредственного качества. Вам не удастся скопировать этот текст, провести по нему поиск, увеличить размер шрифта… Впрочем, конечно, можно прибегнуть к помощи программ-распознавателей текста.

Такие программы могут, распознав документ PDF, наложить на него так называемый OCR-слой, содержащий распознанный текст. Впоследствии по нему можно будет проводить поиск (на некоторых устройствах — и поиск слов в словарях, если они установлены). Но увеличить размер шрифта и скопировать текст все равно будет невозможно. Однако, как вы понимаете, «картиночные» PDF c OCR-слоем все же получше обычных «картиночных» PDF.

PDF является открытым форматом, при желании каждый может его дорабатывать. Помимо этого, для чтения книг в формате PDF можно без проблем создавать программы. Сами книги PDF можно распространять без ограничений и открывать на любом количестве устройств. В то же время книги в PDF можно и оснащать защитой от копирования — наиболее популярна защита DRM, разработанная Adobe. Практически все книги, продаваемые в европейских и американских магазинах контента, оснащены защитой DRM.

Книгу в формате FB2, как вы, вероятно, уже знаете, можно легко изменить, копировать, передать другому пользователю, выложить в открытый доступ на какой-нибудь сайт, и она откроется на неограниченном числе других устройств. Книгу в формате PDF с защитой DRM просто так размножить нельзя: она будет открываться только на строго ограниченном количестве устройств, зарегистрированных на покупателя. Это позволяет соблюдать авторские права.

Под конец стоит сказать, что существует некоторое количество специализированных подвидов PDF, но, в общем-то, эти подвиды представляют интерес лишь для разработчиков и полиграфистов.

Расширение формата PDF — .PDF

 

Два главных минуса PDF

Конечно, есть у PDF и минусы, и, по моему мнению, они весьма серьезны. Во-первых, файлы PDF сложно редактировать. Для редактирования необходимо приобрести специальную программу, например, Adobe Acrobat, которая стоит немалых денег (впрочем, есть и бесплатные, хотя и менее удобные приложения). С помощью обычных просмотрщиков PDF вы, конечно, сможете сделать в документе какие-то пометки, выделения, но отредактировать текст или вставить картинку вам не удастся. Это весомый минус, например, в сравнении с DOC. Фактически, многие россияне именно поэтому больше пока любят именно DOC — как более гибкий и удобный для редактирования формат.

Во-вторых, файлы PDF обычно неудобно читать на устройствах с небольшими экранами — коммуникаторах, телефонах, ридерах. Дело в том, что большая часть PDF создается в расчете на просмотр на больших мониторах — с диагональю дюймов 13 и более. На маленьких экранах шрифт и детали изображений обычно мелки, а подчас нечитабельны. В случае с «текстовыми» PDF это еще не так страшно: размер шрифта на большинстве устройств можно увеличить при помощи функции Reflow; правда, при этом разбивается форматирование документа, и подчас теряются многие элементы форматирования. В случае с «картиночными» PDF остается либо напрягать глаза, либо увеличивать страницы целиком и постоянно передвигаться по  ним («скроллить» их) с помощью пальцев или стилуса.

Фактически, по-хорошему под каждый размер экрана необходимо создавать отдельный файл PDF. И в приличных магазинах электронных книг (контента) вы можете найти каждую книгу в нескольких вариантах: PDF A4, PDF A5, PDF A6. Для обычного шестидюймового ридера предпочтительнее вариант PDF A6.

Вообще, PDF нельзя назвать удачным форматом для хранения художественной литературы; а вот для литературы начной и учебной это очень даже неплохой вариант, так как он позволяет встраивать огромное количество разнообразных элементов — любую графику, таблицы, формулы и так далее.

 

Программы для чтения PDF

Для чтения PDF было создано немало программ. Одной из самых популярных программ-читалок PDF для Windows является Adobe Reader, распространяемый бесплатно. Однако многие ругают его за тяжеловесность, тормоза и советуют использовать другую бесплатную программу — Foxit Reader, который более «легок» и быстр. Есть и другие бесплатные программы-просмотрщики PDF: Evince (есть версии для Windows, Linux), XPDF (Linux), STDU Viewer (Windows), Sumatra PDF (Windows) и другие.

На компьютерах с MacOS X программа для чтения PDF уже предустановлена, называется она очень незатейливо — «Просмотр». Программа эта быстрая и очень функциональная; лично мне она очень нравится и смысла ставить какие-то другие приложения я не вижу.

Кстати сказать, PDF также умеют открывать некоторые браузеры — например, Safari от Apple. Но, естественно, функционал, который они предлагают, весьма ограничен. Для простого чтения документа его достаточно, но, к примеру, никаких пометок или выделений вы сделать не сможете.

 

Программы для создания PDF

Конечно, наиболее популярна и известна программа Adobe Acrobat. Стоит она немалых денег, и многие используют ее пиратские копии. Что, понятное дело, незаконно и нехорошо. Тем более что есть и бесплатные программы для создания и редактирования PDF. Вообще, создать PDF можно практически из любого текстового документа — DOC, DOCX, RTF и так далее; а перевести документы этих форматов в PDF может любой приличный текстовый редактор — OpenOffice Writer, MS Word, Pages

Из специализированных программ стоит отметить бесплатные приложения PDF Creator для Windows (позволяет создавать, но не редактировать PDF), pdftk для MacOS и Linux (позволяет редактировать PDF; но это программа консольная — у нее нет классического пользовательского интерфейса), PDFedit (для Linux), PDF XChange Viewer (для Windows; простое редактирование). Стоит упомянуть и платные программы: PDF Studio (MacOS X, Linux, Windows), InFix PDF Editor (для Windows), ABBYY PDF Transformer (для Windows).

 

Конвертеры

Преобразование книг PDF в другие форматы — задача обычно непростая. Сравнительно легко можно перевести PDF в DJVU; простые «текстовые» PDF можно сконвертировать в DOC, FB2, EPUB, HTML — тоже без особых хлопот и, главное, затрат. Список соответствующих конвертеров (как онлайн-вариантов, не требующих установки на компьютер, так и полноценных программ) можно посмотреть здесь.

Если же вы хотите перевести картиночный PDF в текстовый формат (DOC, RTF, TXT…), то вам необходимо воспользоваться хорошей программой распознавания текстов. Например, ABBYY FineReader. Эта программа платная, выпускается в версиях для Windows и MacOS.

Что касается конвертирования текстовых документов (TXT, RTF, DOC, DOCX) в PDF, то с этой задачей справится, как я уже говорил, любой приличный текстовый редактор — MS Word, OpenOffice Writer, NeoOffice Writer, Pages.

 

Конкуренты PDF

Основные конкуренты PDF: DjVu, EPUB. В России конкурентом PDF является и   DOC, который очень любят многие офисные работники. Документы DOC хороши тем, что их очень просто создавать и редактировать, они достаточно «легки» и имеют небольшой размер. Однако DOC является очень сложным и своеобразным форматом, и на разных устройствах документы DOC могут выглядеть совершенно по-разному. PDF в этом смысле куда более универсален. Более того, некоторые устройства открывают PDF, но не открывают DOC (например, ряд е-инк ридеров).

DjVu, по крайней мере в России, является довольно серьезным конкурентом PDF. Но этот формат в настоящее время практически не развивается и, более того, он не настолько универсален. PDF может читать практически каждое устройство, практически каждый текстовый редактор позволяет сконвертировать документ или презентацию в PDF одним кликом мыши. С DjVu все намного сложнее.

Другим плюсом PDF является его большая функциональность: в PDF можно встраивать что угодно, вплоть до музыки и анимации. Главным же минусом PDF в сравнении c DjVU является его тяжеловесность. Иными словами, набор отсканированных страниц в PDF весит заметно больше, чем в DjVu. Но с развитием телекоммуникационных технологий, а также технологий производства памяти, жестких дисков этот минус уже не становится таким весомым. Тем более что и сам формат PDF на месте не стоит и совершенствуется.

Осталось сравнить PDF с EPUB. На данный момент PDF все-таки мощнее, нежели EPUB: в него можно встраивать анимацию, звук (хотя с выходом EPUB 3 это уже неважно); возможности форматирования практически неограничены. С другой стороны, PDF файлы обычно «тяжелее» EPUB, и многие е-инк ридеры справляются с их чтением заметно хуже. Главный же минус PDF — фактически, под каждый размер экрана необходимо создавать отдельный файл. Поэтому PDF нельзя назвать удачным форматом для хранения художественной литературы; а вот для литературы начной и учебной это очень даже неплохой вариант, хотя, опять же, готовящийся к выходу EPUB 3 будет, вероятно, еще лучше.

 

Мое мнение о формате PDF

Я достаточно положительно отношусь к формату PDF, но в то же время негативно воспринимаю книги и документы PDF, сделанные на скорую руку, абы как (например, отсканировали страницы, создали из них один PDF файл и все; особенно раздражает, когда сканирование производилось по разворотам). Такие книги читать обычно неприятно, особенно это относится к чтению на устройствах с небольшими экранами.

Правильно подготовленные книги в PDF, напротив, очень приятны; их можно читать даже на «мелкокалиберных» устройствах — ридерах, смартфонах. В то же время хочу заметить, что для чтения художественной литературы FB2 и EPUB все же удобнее; более того, сейчас EPUB подходит и для литературы учебной, справочной, научной. Учитывая, что развитие PDF происходит очень медленно, можно предполагать, что через несколько лет EPUB станет обходить PDF по популярности.

 

Перспективы формата PDF

Когда только начинал писать данную статью, думал, что у PDF перспективы неплохие. Но потом понял, что это не так. Будущее PDF весьма размыто и неясно. Конечно, по состоянию на сегодняшний день это выдающийся формат. Но конкуренты не дремлют; вызревают такие альтернативы, как EPUB и KF8. Конечно, полностью заменить PDF они не заменят, но потеснить его могут вполне. Впрочем, в ближайшие несколько лет PDF однозначно будет оставаться одним из самых популярных форматов.

 


 

4 Replies to “О формате PDF”

  1. Основная проблема PDF в том, что он …. сильно распространен. Его лепят где надо и не надо. Если бы он применялся по назначению — в местах где требуется «попиксельная» точность взаиморасположения элементов на холсте, и именно как Документ, готовый для электронной подписи и создаваемый «на века», то проблем бы не было.
    Во всех остальных случаях не могу представить такую верстку, с которой бы не справился HTML. Посмотрите на тысячи веб-страниц и обалдейте от возможностей. Неужели в технической _электронной_ книге требования к верстке сложнее, чем на этих страницах?

    простые «текстовые» PDF можно сконвертировать в DOC, FB2, EPUB, HTML — тоже без особых хлопот и, главное, затрат
    Чем можно сконвертировать текстовый PDF с многоколоночной версткой? Ни один конвертер из мною опробованных не располагает колонки последовательно, а просто перемешивает их текст — строка 1 колонка 1, стр1 кол2, стр1 кол3, стр2 кол1, стр2 кол2 и т.д.

    • Во всех остальных случаях не могу представить такую верстку, с которой бы не справился HTML. Посмотрите на тысячи веб-страниц и обалдейте от возможностей. Неужели в технической _электронной_ книге требования к верстке сложнее, чем на этих страницах?
      PDF, в отличие от HTML, хорош тем, что везде отображается одинаково; а вот файлы HTML в разных браузерах могут отображаться по-разному — с небольшими отличиями. Помимо этого, отсканированные страницы книг в HTML не распространяют — в частности потому, что весят они слишком много; у PDF есть специальные механизмы сжатия изображений. Насчет остальных моментов я сказать не могу — не полиграфист и не разработчик, но, думаю, есть и какие-то дополнительные сдерживающие факторы.

      В принципе, основанный на HTML/XML формат EPUB — особенно его третья версия — очень перспективен, и я думаю, что через некоторое время он PDF потеснит. Фактически, это некий гибрид HTML и PDF, взявший лучшие черты от обоих этих форматов.

      Чем можно сконвертировать текстовый PDF с многоколоночной версткой?
      Да, попробовал сейчас сам — действительно, далеко не все конвертеры с этим справляются.
      Собственно, из онлайн-конвертеров справились
      http://convertonlinefree.com/PDFToTXTRU.aspx
      и http://convertfileonline.com/
      Они смогли двухколоночный PDF «правильно» преобразовать в TXT.
      Конечно, это такой экономичный вариант из серии «дешево и сердито».

      А в идеале, конечно, стоит приобрести программу ABBYY PDF Transformer:
      http://www.abbyy.ru/pdftransformer/

  2. >>отсканированные страницы книг в HTML не распространяют
    Этот вопрос в расчет не берем. Применение исключительно пиратское.

    >>PDF, в отличие от HTML, хорош тем, что везде отображается одинаково
    А в каких случаях нужно идентичное отображение? Только в случае журналов, где верстка предполагает заголовки, таблицы, рисунки, располагающиеся на развороте (сразу на двух страницах). И то, затраты на небольшое переверстывание таких элементов ничтожно. Обычно их не больше десятка.
    Все. Точка. Во всех остальных случаях идентичность не важна. Так как просто нет понятия страницы. Поэтому колонтитулы и прочее в электронной версии просто не требуется, они не имеют физического смысла. Главное порядок следования элементов и максимум обтекание элементов текстом, которое плюс-минус одна-две строки выполняется вполне качественно.
    Удивляют журналы, которые зачастую не имеют бумажной версии, но все-равно лепятся в многоколоночный pdf. Да и прочих, с качеством «изначально компьютерное» дофига и больше.

    Насколько я знаю, основные программы верстки вполне могут делать экспорт в HTML. Но PDF лепят куда надо и не надо. Даже Вы, не замечаете излишнесть формата для чтения (потребления) текстово-иллюстративной информации с электронных устройств.

    >>А в идеале, конечно, стоит приобрести программу ABBYY PDF Transformer:
    В чем ее отличие от банального FineReader? Она может _без распознавания_ переверстать _изначально компьютерный_, включая многоколоночный, PDF в HTML?

  3. Этот вопрос в расчет не берем. Применение исключительно пиратское.
    Не скажите. Зарубежные журналы, например, довольно часто хранят и распространяют свои статьи в виде картиночных PDF (сканов) с OCR-слоем.

    И, кстати, мне вот всплыло на ум еще одно преимущество PDF перед HTML: безопасность — возможность добавления цифровой подписи, установки защиты от копирования DRM…

    Также есть еще один небольшой момент, если сравнивать PDF именно с HTML, а не с EPUB. PDF — это всегда один файл. HTML — это всегда файл и архив с кучей дополнительных файлов, что не всегда удобно.

    Далее — PDF распечатается именно таким образом, как Вы видете его на экране компьютера, как это задумывал автор. А вот при печати HTML браузер может устроить самодеятельность и распечатать документ иначе.

    Есть у PDF и еще одно преимущество: возможность добавления аннотаций, комментариев, выделений, пометок непосредственно к книге/документу.

    Ну и наконец, в PDF используется встроенный шрифт, в то время как при отображении HTML браузер может заменить указанный шрифт на другой, если указанный не установлен на компьютер.

    Теперь насчет конвертеров PDF в другие форматы.
    Наткнулся на вот такую программу — платную, но с пробной версией:
    http://www.investintech.com/products/desktop/a2e/features/
    Заявляется, что все форматирование сохраняется с высокой точностью.
    Есть версии для Windows, Mac OS.

    ABBYY PDF Transformer — это программа, заточенная как раз под работу с PDF. Я сам, честно признаюсь, ей не пользовался — необходимости не было. Однако заявляется, что она также полностью сохраняет исходное форматирование PDF. То есть и колонки, и таблицы сохраняются.
    http://www.abbyy.ru/pdftransformer/opportunities/
    И у нее также есть бесплатная пробная версия.