.DJVUファイルとは何ですか?
「déjà vu」と発音される DjVu は、スキャンされたドキュメントや書籍、特にテキスト、図、画像、写真の組み合わせを含むものを対象としたグラフィック ファイル形式です。 AT&T Labs によって開発されました。テキストと背景画像の画像レイヤー分離、プログレッシブ読み込み、算術符号化、モノクロ画像の非可逆圧縮など、複数の手法を使用します。 DJVUファイルは、圧縮された高品質のカラー画像、写真、テキスト、および図面を含むことができ、省スペースで保存できるため、電子書籍、マニュアル、新聞、古文書などとしてWeb上で使用されています.
DjVu は、PDF よりも優れていると評価できます。 DjVu に関連付けられているファイル拡張子は、.DJVU または .DJV です。 DjVu は、JPEG & GIF などの既存の方法よりも約 5 ~ 10 倍優れた圧縮率を達成できます (カラー ドキュメントの場合)。[TIFF] よりも 3 ~ 8 倍優れています ( /image/tiff/) 白黒ドキュメント。フルカラーで 300 DPI で最大 25 MB のスキャンされたドキュメントは、30 ~ 100 KB まで圧縮できます。同様に、白黒ドキュメントは 5 ~ 30 KB まで圧縮できます。平均的な HTML ページは最大 50 KB になる可能性があるため、これらのドキュメントは問題なくネットにアップロードできます。
簡単な歴史
DjVu 技術は、Yann LeCun、Léon Bottou によって AT&T ラボで開発されました。Patrick Haffner、および Paul G が 1996 年から 2001 年まで作成しました。DjVu ファイル形式はさまざまな改訂を経ており、最新のものは 2005 年のものです。
バージョン | リリース日 | 注意事項 |
---|---|---|
1–19 | 1996–1999 | これらは開発版です。 |
20 | 1999年4月 | シングルページをマルチページ形式に変更。 |
23 | 2002 年 7 月 | CID チャンク |
24 | 2003 年 2 月 | LTAnno チャンク |
21 | 1999 年 9 月 | 間接ストレージ形式が置き換えられました。テキスト検索レイヤーが追加されました。 |
22 | 2001 年 4 月 | ページの向き、色 JB2 |
25 | 2003 年 5 月 | NAVM チャンク。 DjVu ブックマークのサポートが追加されました。 |
26 | 2005 年 4 月 | テキスト/行の注釈 |
DjVu ファイル形式
DjVu ドキュメントは IFF85 ファイルです。この構造は、DjVu ファイルに情報を保持するコンテナーの階層を提供します。これらのコンテナは「チャンク」とも呼ばれます。チャンク タイプとチャンク ID は、チャンクがどのように使用されるかを示します。 IFF 構造が続く 4 バイトのヘッダーがあります。 DjVu ファイルの最初の 4 バイトは、0x41 0x54 0x26 0x54 です。このセクションでは、さまざまな種類の DjVu ドキュメントと、それらを構成する対応するチャンクについて説明します。
チャンクID | 用途 |
---|---|
FORM | セカンダリ識別子である FORM チャンクの最初の 4 つのデータ バイトを持つ複合チャンク。 |
FORM:DJVM | 複数ページの DjVu ドキュメント。 DIRM チャンクを含む複合チャンク。 |
FORM:DJVU | 単一ページの DjVu ドキュメント。 djvu ドキュメントのページを構成するチャンクを含む複合チャンク。 |
FORM:DJVI | INCL チャンク経由で含まれる「共有」DjVu ファイル。注釈と形状ディクショナリを共有。 |
FORM:THUM | 埋め込まれたサムネイルである TH44 チャンクを含む複合チャンク。 |
DIRM | 複数ページのドキュメントのページ名情報。 |
NAVM | ブックマーク情報 |
ANTa、ANTz | 初期ビュー設定とオーバーレイされたハイパーリンク、テキスト ボックスなどの両方を含む注釈。 |
TXTa, TXTz | Unicode テキストおよびレイアウト情報。 |
Djbz | 共有シェイプ テーブル。 |
Sjbz | マスクの格納に使用される BZZ 圧縮 JB2 モノクロ データ。 |
FG44 | フォアグラウンドの保存に使用される IW44 データ |
BG44 | 背景の保存に使用される IW44 データ |
TH44 | 埋め込みサムネイル画像の保存に使用される IW44 データ |
WMRM | 透かしを削除するために必要な JB2 データ |
FGbz | カラー JB2 データ。対応する Sjbz チャンク内の各 (ブリットまたはシェイプ?) に色を提供します。 |
INFO | DjVu ページに関する情報 |
INCL | 含まれる FORM:DJVI チャンクの ID。 |
BGjp | JPEG エンコードされた背景 |
FGjp | JPEG エンコード前景 |
Smmr | G4 エンコード マスク |
DJVU圧縮
1 つの画像を多数の異なる画像に分割し、すべての画像を個別に圧縮します。 DjVu ファイルを作成するには、まず画像を背景、前景、マスクの 3 つの画像に分割します。通常、背景画像と前景画像は低解像度のカラー画像です。ただし、マスク イメージは高解像度のイメージであり、通常はそこにテキストが格納されます。分離後、フォアグラウンド イメージとバックグラウンド イメージはウェーブレット ベースの圧縮アルゴリズム IW44 によって圧縮され、マスク イメージは JB2 と呼ばれる別の方法を使用して圧縮されます。
JB2 エンコーディング方式は、特定のフォントで複数回出現する文字など、ページ上の同一の形状を識別することにより、テキスト イメージの重複を大幅に排除します。 JB2 はまず、類似した形状間の冗長性を利用して、それぞれの固有の形状のビットマップをコード化します。次に、各図形がページに表示される位置をコード化します。 JB2 と IW44 はどちらも、ZP コーダーと呼ばれる新しいタイプの適応バイナリ算術コーダーに依存しており、残りの冗長性をシャノン限界の数パーセント以内に絞り出します。 ZP コーダーは適応型であり、他の近似バイナリ算術コーダーよりも高速です。
参照
- DjVu - ウィキペディア ※【DjVuファイル形式】(https://www.cuminas.jp/docs/techinfo/DjVu3Spec.pdf)