О формате DJVU

В этой статье речь пойдет о формате DjVu, с которым рано или поздно сталкиваются практически все пользователи настольных компьютеров и ноутбуков, использующих их как инструмент для работы или учебы. Формат этот весьма специфический. Наиболее часто у пользователей возникают вопросы наподобие следующих: «а что он вообще из себя представляет?», «какие программы его читают?», «есть ли альтернативные форматы?». Ниже я отвечу как на эти вопросы, так и на многие другие, а также расскажу немного об истории появления и развития формата DjVu.

 

История

Формат DjVu был разработан американской фирмой AT&T. Да-да, той самой AT&T, которая, в частности, является крупнейшим оператором сотовой и стационарной связи в Соединенных Штатах. Формат разработало подразделение R&D данной фирмы, которое называется AT&T Labs — Research. Первая версия формата DjVu была создана еще в 1996 году, но более или менее работоспособная — только в апреле 1999 года. Главные разработчики формата: Ян Лекун, Леон Ботту, Патрик Хэффнер, Поль Говард.

Логотип AT&T

Формат задумывался как удобное и практичное средство хранения и распространения отсканированных книг. Основная идея была добиться небольшого размера файла при сохранении приличного качества. В общем-то, это удалось. Собственно говоря, для того времени это было немалое достижение.

В 2000 году права на формат DjVu выкупила американская фирма LizardTech, которая с переменным успехом развивала DjVu и программное обеспечение для его чтения вплоть до 2009 года, когда права на DjVu были проданы компании Caminova.

Логотип LizardTech

В том же 2000 году формат DjVu стал открытым (точнее, появилась его открытая (свободная) версия) и начал распространяться на условиях GNU GPL. Вышла также обновленная версия формата — уже третья. Двумя годами позже появился отличный инструмент для создания книг в формате DjVu — программа DjVu Solo, а еще год спустя — в 2003 — вышла еще более совершенная программа для создания DjVu книг, но уже платная. Называлась она LizardTech Document Express 4.0.

Последнее обновление собственно формата DjVu датируется июлем 2006 года. В настоящее время формат практически не развивается, но еще достаточно активно используется, особенно в России, других странах СНГ и в некоторых азиатских странах. Но его все-таки потихоньку вытесняет PDF, который, можно сказать, развивается и совершенствуется непрерывно.

 

Что такое формат DjVu?

DjVu — это весьма специфический формат, по сути своей он графический. Особая технология позволяет сжимать отсканированные/отфографированные страницы бумажных книг таким образом, что их размер (в кило/мегабайтах, конечно) существенно уменьшается, а качество ухудшается незначительно. Текст, однако, в любом случае представляется в виде картинки; менять размер и гарнитуру шрифта нельзя, можно только увеличивать страницы целиком. Это не очень удобно, а подчас — в случае с устройствами, оснащенными небольшими дисплеями (ридеры, смартфоны, телефоны) — очень неудобно.

Логотип DjVu

Степень удобства, кстати, зависит также от того, сканировалась/фотографировалась ли книга по разворотам или по страницам. Если по страницам, то читать итоговый документ DjVu будет заметно комфортнее: не надо будет использовать мощное масштабирование и постоянно скроллить (=прокручивать) страницу взад-вперед/вправо-влево.

В некоторые файлы DjVu добавляется так называемый OCR-слой — при помощи специальной программы для распознавания текстов (например, ABBYY FineReader). Такой слой позволяет проводить поиск по книге, пользоваться контекстным словарем, что также добавляет удобства. Но вот изменить размер, гарнитуру и начертание шрифта не получится даже в DjVu с OCR-слоем.

Создатель файла DjVu может порадовать будущих читателей и встроенным интерактивным оглавлением, разнообразными перекрестными ссылками и тому подобными штучками, которые облегчают навигацию по книге. Однако всё это требует времени и умений, и потому немногие DjVu книги могут похвастаться столь полезными дополнениями.

Можно сказать, что формат DjVu хорошо подходит для научной, учебной и технической литературы. Дело в том, что в такого рода книгах помимо текста содержится множество различных таблиц, формул, графиков и иллюстраций. Форматирование достаточно сложное. Попытаться распознать текст и перевести книгу в один из текстовых форматов можно, но при этом часть форматирования либо потеряется (в случае с форматами RTF, TXT, FB2, MOBi), либо сама последующая верстка и обработка документа займет очень много времени (EPUB, PDF). Ведь надо будет самостоятельно набрать формулы, сверстать таблицы, разместить иллюстрации в тексте так, как надо, а не так, как захотела программа для распознавания текста.

Определенный интерес для некоторых читателей могут представлять также исторические артефакты — назовем так разнообразные трещинки на страницах, сколы, кляксы, отпечатки, следы и так далее. При переводе сканов в текстовый формат все эти штуки теряются, а в DjVu — остаются. Это важно в основном при сканировании и последующей обработке различных исторических, антикварных книг.

Стоит отметить, что формат DjVu является открытым и распространяется по лицензии GNU GPL. Любой может его дорабатывать и совершенствовать, но очереди из желающих что-то не видать. Не так-то это просто.

Файлы формата DjVu могут иметь расширения .djvu и .djv.

 

Программы для чтения DjVu

Существует достаточно большое количество программ для чтения книг в DjVu. Практически все эти программы обладают достаточно архаичным интерфейсом, что лично мне не очень нравится. С другой стороны, главное — ехать, а не за шашечками гнаться. С учетом того, что практически все программы бесплатные, мелкие придирки выглядят подчас даже чуток неприлично.

Вот перечень программ для чтения DjVu для Windows: WinDjView, STDU Viewer, DjVu Viewer, DjVuReader. Для MacOS: DjView (ее использую я сам). Для Android: EBookDroid. Для iOS: Stanza. Для Linux: Evince, Okular в комплекте с графической библиотекой DjVuLibre. Все эти программы можно легко найти в интернете.

Я бы также еще отметил специальный плагин DjVu Browser Plugin, разработанный LizardTerch. Он позволяет открывать файлы DjVu прямо в окне браузера — будь то Internet Explorer, Safari или Firefox. Есть версии для Windows, Linux, MacOS. В то же время необходимо отметить что для регулярного и комфортного чтения DjVu нужно все-таки установить на компьютер полноценную программу, обладающую заметно большим функционалом.

 

Программы для создания DjVu

Существует несколько программ такого рода: DjVu Solo, DjVu Enterprise, LizardTech Document Express (от 4.0). Первая бесплатная, последние две — платные. Также могу посоветовать онлайн-конвертер Any2Djvu, позволяющий создавать книги в DjVu из набора иллюстраций JPG, TIFF, документов PDF и файлов некоторых других форматов. Для перевода документов DOC и PDF в DjVu можно также воспользоваться программкой LizardTech Virtual Printer.

 

Конвертеры: преобразование книг DjVu в другие форматы

Преобразование книг DjVu в другие форматы — задача непростая. Сравнительно легко можно перевести DjVu в картиночный (графический) PDF. Это хороший вариант для владельцев устройств для чтения, которые не поддерживают DjVu, но поддерживают PDF. Воспользоваться для конвертации можно либо программой DjVu-to-PDF, либо конвертером pd4ml. Первая программа выпускается только для Windows, у второй есть версии для Windows, MacOS и Linux. Оба приложения бесплатны.

Если же вы хотите перевести DjVu в текстовый формат (DOC, RTF, TXT…), то вам необходимо воспользоваться хорошей программой распознавания текстов. Например, ABBYY FineReader. Эта программа платная, выпускается в версиях для Windows и MacOS.

 

Конкуренты формата DjVu

Пожалуй, единственным прямым конкурентом DjVu является формат PDF. Этот формат в настоящее время достаточно активно развивается. Его бесспорными преимуществами являются универсальность и повсеместная распространенность. PDF читает практически каждое устройство, практически каждый текстовый редактор позволяет сконвертировать документ или презентацию в PDF одним кликом мыши.

Другим плюсом PDF является его большая функциональность: в PDF можно встраивать что угодно, вплоть до музыки и анимации. Главным же минусом PDF (в сравнении c DjVu) является его тяжеловесность. Иными словами, набор отсканированных страниц в PDF весит заметно больше, чем в DjVu. Но с развитием телекоммуникационных технологий, а также технологий производства памяти, жестких дисков этот минус уже не становится таким весомым. Тем более что и сам формат PDF на месте не стоит и совершенствуется.

 

Мое мнение

Я, по правде сказать, не особо люблю формат DjVu. PDF мне как-то ближе: все-таки его обычно лучше читают ридеры и планшеты, программы для его чтения более функциональны и как правило имеют более приятный интерфейс. В то же время хочу отметить, что действительно хорошо и умело сделанные DjVu читать вполне приятно. На мой взгляд, формат это неплохой, но не более того.

 

Перспективы

Думаю, что перспектив у DjVu особых нет. Формат практически не развивается, PDF его уже заметно обогнал. В то же время в DjVu находится достаточно большое количество книг. Их, вероятно, постепенно будут переводить и в PDF, но процесс этот может растянуться надолго. Поэтому я думаю, что в ближайшие несколько лет формат DjVu еще будет весьма популярен, и наличие (а также) качество его поддержки в устройствах для чтения будет для ряда покупателей одним из важных критериев выбора.

 


 

3 Replies to “О формате DJVU”

  1. У DjVu самое неоспоримое преимущество — открытый формат, что означает его чистоту от шпионских вставок и прочих «шалостей» большого брата.

    PDF — закрытый копирайтный формат, принадлежащий «Адобу» и только они знают, какие в нём «закладки» присутствуют и будут присутствовать в будущем. Это тот самый «бесплатный сыр» за который когда-нибудь индивидууму придётся заплатить приватностью, как за эпловскую навигацию или гугловское облачное хранилище.

    • Ну, всё-таки сейчас PDF уже не проприетарный, а вполне открытый формат, хотя кое-что за собой Adobe сохранила.

      PDF remained a proprietary format, controlled by Adobe, until it was officially released as an open standard on July 1, 2008, and published by the International Organization for Standardization as ISO 32000-1:2008. In 2008, Adobe published a Public Patent License to ISO 32000-1 granting royalty-free rights for all patents owned by Adobe that are necessary to make, use, sell and distribute PDF compliant implementations.. However, there are still some technologies used in PDF files that are defined only by Adobe and remain proprietary (e.g. Adobe XML Forms Architecture, Adobe JavaScript).

      http://en.wikipedia.org/wiki/PDF

  2. Главное преимущество ДежаВю — отображение книги «один-в-один».

    ПДФ-ы (почему-то) в огромном большинстве своем представляют собою распознанный текст с кривым форматированием и уймой тошнотворных ашипок, словно нарочно оставленных «аффтарами» сканов.

    Поэтому (а также ввиду мЕньшего размера) ДежаВю намного лучше и предпочтительней.
    Да и просмотрщики ДежаВю работают намного быстрее.

    ПДФ — копирастический отстой.