.DJVU вариант №
DjVu, произносится как «дежавю», представляет собой формат графических файлов, предназначенный для отсканированных документов и книг, особенно тех, которые содержат комбинацию текста, рисунков, изображений и фотографий. Он был разработан AT&T Labs. Он использует несколько методов, таких как разделение текстовых и фоновых изображений на уровне изображения, прогрессивная загрузка, арифметическое кодирование и сжатие с потерями для двухтональных изображений. Поскольку файл DJVU может содержать сжатые, но высококачественные цветные изображения, фотографии, текст и рисунки и может занимать меньше места, он используется в Интернете в качестве электронных книг, руководств, газет, древних документов и т. д.
DjVu можно оценить как лучшую альтернативу PDF. Расширения файлов, связанные с DjVu: .DJVU или .DJV. DjVu может достичь степени сжатия примерно в 5–10 раз лучше, чем существующие методы, такие как JPEG и GIF для цветных документов, и в 3–8 раз лучше, чем TIFF в черно-белых документах. Отсканированные документы с разрешением 300 точек на дюйм и полноцветным форматом до 25 МБ могут быть сжаты до размера от 30 до 100 КБ. Точно так же черно-белые документы могут быть сжаты до размера от 5 до 30 КБ. Средняя HTML-страница может иметь размер до 50 КБ, поэтому эти документы можно без проблем загрузить в сеть.
Краткая история
Технология DjVu была разработана в лабораториях AT&T Янном Лекуном, Леоном Ботту, Патрика Хаффнера и Пола Джи с 1996 по 2001 год. Формат файла DjVu претерпел различные изменения, последняя из которых была выпущена в 2005 году.
Версия | Дата выпуска | Примечания |
---|---|---|
1–19 | 1996–1999 | Это версии для разработчиков. |
20 | Апрель 1999 | Одностраничный формат изменен на многостраничный. |
23 | июля 2002 г. | фрагмент CID |
24 | Февраля 2003 | Часть LАнно |
21 | Сентябрь 1999 | Заменен непрямой формат хранения. Добавлен слой текстового поиска. |
22 | Апрель 2001 | Ориентация страницы, цвет JB2 |
25 | Май 2003 | Часть NAVM. Добавлена поддержка закладок DjVu. |
26 | Апрель 2005 г. | Текстовые/строчные аннотации |
Формат файла DjVu
Документы DjVu представляют собой файлы IFF85. Структура обеспечивает иерархию контейнеров, содержащих информацию в файле DjVu. Эти контейнеры также называются «Куски». Тип фрагмента и идентификатор фрагмента описывают, как используется фрагмент. Существует 4-байтовый заголовок, за которым следует структура IFF. Первые четыре байта файла DjVu имеют вид 0x41 0x54 0x26 0x54. В этом разделе обсуждаются различные типы документов DjVu и соответствующие фрагменты, из которых они состоят.
Идентификатор фрагмента | Использование |
---|---|
FORM | Составной фрагмент, имеющий первые четыре байта данных фрагмента FORM, которые являются вторичным идентификатором. |
FORM:DJVM | Многостраничный документ в формате DjVu. Составной фрагмент, содержащий фрагмент DIRM. |
FORM:DJVU | Одностраничный документ DjVu. Составной фрагмент, содержащий фрагменты, из которых состоит страница документа djvu. |
FORM:DJVI | «Общий» файл DjVu, который включается через блок INCL. Общие аннотации и словарь форм. |
FORM:THUM | Композитный фрагмент, содержащий фрагменты TH44, представляющие собой встроенные эскизы. |
DIRM | Информация об имени страницы для многостраничных документов. |
NAVM | Информация о закладках |
ANTa, ANTz | Аннотации, включая как исходные настройки просмотра, так и наложенные гиперссылки, текстовые поля и т. д. |
TXTa, TXTz | Unicode Текст и информация о макете. |
Djbz | Общая таблица форм. |
Sjbz | BZZ сжимает битональные данные JB2, используемые для хранения маски. |
FG44 | Данные IW44, используемые для хранения переднего плана |
BG44 | Данные IW44, используемые для хранения фона |
TH44 | Данные IW44, используемые для хранения встроенных эскизов изображений |
WMRM | Для удаления водяного знака требуются данные JB2 |
FGbz | Цвет данных JB2. Предоставляет цвет для каждого (блита или формы?) в соответствующем фрагменте Sjbz. |
INFO | Информация о странице DjVu |
INCL | Идентификатор включенного чанка FORM:DJVI. |
BGjp | Фон в формате JPEG |
FGjp | Передний план в кодировке JPEG |
Smmr | Маска с кодировкой G4 |
DJVU Сжатие
Одно изображение делится на множество разных изображений, а затем каждое изображение сжимается отдельно. Для создания файла DjVu изображение сначала разделяется на три изображения: фон, передний план и изображение маски. Обычно изображения фона и переднего плана представляют собой цветные изображения с более низким разрешением; но изображение маски представляет собой изображение с более высоким разрешением, и обычно там хранится текст. После разделения изображения переднего плана и фона сжимаются с помощью алгоритма сжатия на основе вейвлета IW44, а изображение маски сжимается с использованием другого метода, называемого JB2.
Метод кодирования JB2 устраняет большую часть избыточности в текстовом изображении, идентифицируя идентичные фигуры на странице, например, несколько вхождений символа в определенном шрифте. JB2 сначала кодирует растровое изображение каждой уникальной формы, используя избыточность между похожими фигурами. Затем он кодирует места, в которых каждая фигура появляется на странице. И JB2, и IW44 полагаются на новый тип адаптивного двоичного арифметического кодера, называемый ZP-кодером, который сжимает любую оставшуюся избыточность в пределах нескольких процентов от предела Шеннона. ZP-кодер является адаптивным и более быстрым, чем другие приближенные двоичные арифметические кодеры.