מהו קובץ DJVU?
DjVu, מבוטא בשם “déjà vu”, הוא פורמט קובץ גרפי המיועד למסמכים וספרים סרוקים במיוחד אלה המכילים שילוב של טקסט, ציורים, תמונות ותצלומים. זה פותח על ידי AT&T Labs. הוא משתמש בטכניקות מרובות כמו הפרדת שכבות תמונה של תמונות טקסט ורקע, טעינה מתקדמת, קידוד אריתמטי ודחיסה מאבדת עבור תמונות ביטונליות. מכיוון שקובץ DJVU יכול להכיל תמונות צבעוניות דחוסות אך באיכות גבוהה, תצלומים, טקסט וציורים וניתן לשמור אותו בפחות מקום ולכן הוא משמש באינטרנט כספרים אלקטרוניים, מדריכים, עיתונים, מסמכים עתיקים וכו'.
ניתן לדרג את DjVu כאלטרנטיבה מעולה ל-PDF. סיומות קבצים המשויכות ל-DjVu הן .DJVU או .DJV. DjVu יכול להשיג יחסי דחיסה טובים בכ-5-10 משיטות קיימות כגון JPEG ו-GIF עבור מסמכים צבעוניים ופי 3-8 טובים יותר מ-TIFF במסמכים בשחור-לבן. ניתן לדחוס מסמכים סרוקים ב-300 DPI עם צבע מלא עד 25 MB עד ל-30 עד 100 KB. באופן דומה ניתן לדחוס מסמכים בשחור-לבן עד 5 עד 30 KB. עמוד HTML ממוצע יכול להיות עד 50 KB, לכן ניתן להעלות מסמכים אלה ברשת ללא כל בעיה.
היסטוריה קצרה
טכנולוגיית DjVu פותחה במעבדות AT&T על ידי Yann LeCun, Léon Bottou, Patrick Haffner ו-Paul G משנת 1996 עד 2001. פורמט הקובץ DjVu עבר תיקונים שונים, האחרון היה מ-2005.
גרסה | תאריך פרסום | הערות |
---|---|---|
1–19 | 1996–1999 | אלה גרסאות ההתפתחות. |
20 | אפריל 1999 | דף בודד שונה לפורמט מרובה עמודים. |
23 | יולי 2002 | נתח CID |
24 | פברואר 2003 | נתח LAnno |
21 | ספטמבר 1999 | פורמט אחסון עקיף הוחלף. נוספה שכבת חיפוש טקסט. |
22 | אפריל 2001 | כיוון העמוד, צבע JB2 |
25 | מאי 2003 | נתח NAVM. נוספה תמיכה בסימניות DjVu. |
26 | אפריל 2005 | הערות טקסט/שורה |
פורמט קובץ DjVu
מסמכי DjVu הם קבצי IFF85. המבנה מספק היררכיה של קונטיינרים שמכיל מידע בקובץ DjVu. מיכלים אלו נקראים גם “צ’אנקס”. סוג הנתח ומזהה הנתח מתארים את אופן השימוש בנתח. יש כותרת של 4 בתים ואחריה מבנה IFF. ארבעת הבייטים הראשונים של קובץ DjVu הם 0x41 0x54 0x26 0x54. חלק זה דן בסוגים השונים של מסמכי DjVu ובחלקים המתאימים מהם הם מורכבים.
נתח מזהה | שימוש |
---|---|
FORM | הנתח המורכב כולל ארבעה בתים ראשונים של נתח ה-FORM שהם מזהה משני. |
FORM:DJVM | מסמך DjVu מרובה עמודים. נתח מרוכב המכיל את נתח DIRM. |
FORM:DJVU | מסמך DjVu בעמוד אחד. נתח מורכב המכיל את הנתחים המרכיבים עמוד במסמך djvu. |
FORM:DJVI | קובץ DjVu “משותף” שנכלל דרך ה-INCL chunk. הערות משותף ומילון צורות. |
FORM:THUM | נתח מורכב המכיל את נתחי ה-TH44 שהם התמונות הממוזערות המוטבעות. |
DIRM | מידע על שם עמוד עבור מסמכים מרובי עמודים. |
NAVM | מידע על סימניה |
ANTa, ANTz | הערות כולל הן הגדרות תצוגה ראשוניות והן היפר-קישורים עם שכבת-על, תיבות טקסט וכו'. |
TXTA, TXTz | Unicode מידע טקסט ופריסה. |
Djbz | טבלת צורות משותפת. |
Sjbz | BZZ נתונים ביטונליים דחוסים של JB2 המשמשים לאחסון מסכה. |
FG44 | נתוני IW44 המשמשים לאחסון חזית |
BG44 | נתוני IW44 המשמשים לאחסון רקע |
TH44 | נתוני IW44 המשמשים לאחסון תמונות ממוזערות מוטמעות |
WMRM | נתוני JB2 נדרשים להסרת סימן מים |
FGbz | נתוני צבע JB2. מספק צבע עבור כל אחד (בליט או צורה?) ב-Sjbz המתאים. |
INFO | מידע על דף ה-DjVu |
INCL | המזהה של נתח FORM:DJVI כלול. |
BGjp | רקע מקודד JPEG |
FGjp | מקודד JPEG |
Smmr | מסכה מקודדת G4 |
דחיסת DJVU
תמונה בודדת מחולקת להרבה תמונות שונות, ואז כל תמונה נדחסת בנפרד. ליצירת קובץ DjVu התמונה מופרדת תחילה לשלוש תמונות, רקע, קדמה ותמונת מסכה. בדרך כלל תמונות הרקע והקדמה הן תמונות צבע ברזולוציה נמוכה יותר; אבל תמונת המסכה היא תמונה ברזולוציה גבוהה יותר ובדרך כלל הטקסט מאוחסן שם. לאחר ההפרדה נדחסות תמונות החזית והרקע באמצעות אלגוריתם דחיסה מבוסס wavelet IW44, בעוד שתמונת המסכה נדחסת בשיטה אחרת הנקראת JB2.
שיטת הקידוד JB2 מבטלת חלק ניכר מהיתירות בתמונת הטקסט על ידי זיהוי צורות זהות בדף, כגון מופעים מרובים של תו בגופן מסוים. JB2 מקודד תחילה את מפת הסיביות של כל צורה ייחודית על ידי ניצול היתרון בין צורות דומות. לאחר מכן הוא מקודד את המיקומים שבהם כל צורה מופיעה בדף. גם JB2 וגם IW44 מסתמכים על סוג חדש של קודן אריתמטי בינארי אדפטיבי הנקרא ZP-coder שסוחט כל יתירות שנותרה בתוך כמה אחוזים ממגבלת שאנון. ה-ZP-קודן הוא אדפטיבי ומהיר יותר מקודנים אריתמטיים בינאריים משוערים אחרים.