فایل DJVU چیست؟
DjVu که به عنوان déjà vu تلفظ می شود، یک فرمت فایل گرافیکی است که برای اسناد و کتاب های اسکن شده به ویژه آنهایی که حاوی ترکیبی از متن، نقاشی، تصاویر و عکس هستند در نظر گرفته شده است. این توسط آزمایشگاه AT&T توسعه یافته است. از تکنیک های متعددی مانند جداسازی لایه تصویر تصاویر متن و پس زمینه، بارگذاری پیش رونده، کدگذاری حسابی و فشرده سازی با اتلاف برای تصاویر bitonal استفاده می کند. از آنجایی که فایل DJVU میتواند شامل تصاویر، عکسها، متن و نقاشیهای رنگی فشرده و در عین حال با کیفیت بالا باشد و در فضای کمتری ذخیره شود، در وب به عنوان کتابهای الکترونیکی، کتابهای راهنما، روزنامه، اسناد باستانی و غیره استفاده میشود.
DjVu را می توان جایگزین برتر برای PDF درجه بندی کرد. پسوندهای فایل مرتبط با DjVu .DJVU یا .DJV هستند. DjVu می تواند نسبت فشرده سازی را در حدود 5 تا 10 بهتر از روش های موجود مانند JPEG و GIF برای اسناد رنگی و 3 تا 8 برابر بهتر از TIFF در اسناد سیاه و سفید به دست آورد. اسناد اسکن شده با رزولوشن 300 DPI با حجم کامل رنگی تا 25 مگابایت را می توان تا 30 تا 100 کیلوبایت فشرده کرد. به طور مشابه اسناد سیاه و سفید را می توان تا 5 تا 30 کیلوبایت فشرده کرد. میانگین صفحه HTML می تواند تا 50 کیلوبایت باشد، بنابراین، این اسناد را می توان بدون مشکل در شبکه بارگذاری کرد.
تاریخچه مختصر
The DjVu technology was developed in AT&T labs by Yann LeCun, Léon Bottou, Patrick Haffner, and Paul G from 1996 to 2001. فرمت فایل DjVu از طریق ویرایش های مختلفی گذر کرده است که آخرین آنها مربوط به سال 2005 است.
نسخه | تاریخ انتشار | یادداشت |
---|---|---|
1–19 | 1996–1999 | اینها نسخه های توسعه هستند. |
20 | آوریل 1999 | صفحه تک به چند صفحه تغییر یافت. |
23 | ژوئیه 2002 | تکه CID |
24 | فوریه 2003 | LTAnno chunk |
21 | شهریور 1378 | فرمت ذخیره سازی غیر مستقیم جایگزین شد. لایه جستجوی متن اضافه شد. |
22 | آوریل 2001 | جهت صفحه، رنگ JB2 |
25 | اردیبهشت 2003 | چونک NAVM. پشتیبانی از نشانک های DjVu اضافه شد. |
26 | آوریل 2005 | حاشیهنویسی متن/خط |
فرمت فایل DjVu
DjVu documents are IFF85 files. The structure provides a hierarchy of containers which holds information in a DjVu file. These containers are also called “Chunks”. Chunk type and Chunk ID describes how the chunk is used. There is a 4byte header followed by IFF structure. The first four bytes of a DjVu file are 0x41 0x54 0x26 0x54. این بخش انواع مختلف اسناد DjVu و تکههای مربوط به آنها را مورد بحث قرار میدهد.
Chunk ID | استفاده |
---|---|
FORM | قطعه مرکب دارای چهار بایت داده اول از قطعه FORM که شناسه ثانویه هستند. |
FORM:DJVM | یک سند چند صفحه ای DjVu. قطعه ترکیبی که شامل قطعه DIRM است. |
FORM:DJVU | سند DjVu تک صفحه ای. قطعه مرکب که شامل تکه هایی است که یک صفحه را در یک سند djvu می سازد. |
FORM:DJVI | یک فایل DjVu به اشتراک گذاشته شده که از طریق قطعه INCL گنجانده شده است. حاشیه نویسی به اشتراک گذاشته شده و فرهنگ لغت شکل. |
FORM:THUM | تکه مرکب که شامل تکه های TH44 است که تصاویر کوچک تعبیه شده است. |
DIRM | اطلاعات نام صفحه برای اسناد چند صفحه ای. |
NAVM | اطلاعات نشانک |
ANTa، ANTz | حاشیه نویسی شامل تنظیمات نمای اولیه و پیوندهای همپوشانی، کادرهای متن و غیره. |
TXTa، TXTz | اطلاعات متن و طرح یونیکد. |
Djbz | جدول شکل مشترک. |
Sjbz | BZZ داده های bitonal JB2 فشرده شده برای ذخیره ماسک. |
FG44 | داده های IW44 برای ذخیره پیش زمینه استفاده می شود |
BG44 | داده های IW44 برای ذخیره پس زمینه استفاده می شود |
TH44 | داده IW44 برای ذخیره تصاویر بند انگشتی تعبیه شده استفاده می شود |
WMRM | داده JB2 برای حذف واترمارک مورد نیاز است |
FGbz | داده JB2 رنگ. در قسمت Sjbz مربوطه، یک رنگ برای هر یک (Blit یا شکل؟) ارائه می دهد. |
INFO | اطلاعات مربوط به صفحه DjVu |
INCL | شناسه یک FORM: تکه DJVI شامل. |
BGjp | پس زمینه کد شده JPEG |
FGjp | پیش زمینه کدگذاری شده JPEG |
Smmr | ماسک کددار G4 |
فشرده سازی DJVU
تک تصویر به تصاویر مختلف تقسیم می شود و سپس هر تصویر به طور جداگانه فشرده می شود. برای ایجاد یک فایل DjVu ابتدا تصویر به سه تصویر، پس زمینه، پیش زمینه و تصویر ماسک تقسیم می شود. معمولاً تصاویر پسزمینه و پیشزمینه، تصاویر رنگی با وضوح پایینتر هستند. اما تصویر ماسک یک تصویر با وضوح بالاتر است و معمولاً متن در آنجا ذخیره می شود. پس از جداسازی، تصاویر پیش زمینه و پس زمینه از طریق یک الگوریتم فشرده سازی مبتنی بر موجک IW44 فشرده می شوند، در حالی که تصویر ماسک با استفاده از روش دیگری به نام JB2 فشرده می شود.
روش رمزگذاری JB2 با شناسایی اشکال یکسان در صفحه، مانند تکرار چند کاراکتر در یک فونت خاص، بسیاری از افزونگی ها را در تصویر متن از بین می برد. JB2 ابتدا نقشه بیت هر شکل منحصر به فرد را با استفاده از افزونگی بین اشکال مشابه کد می کند. سپس مکان هایی را که هر شکل در آن صفحه ظاهر می شود کد می کند. هر دو JB2 و IW44 به نوع جدیدی از رمزگذار حسابی باینری تطبیقی به نام رمزگذار ZP متکی هستند که هر افزونگی باقیمانده را در چند درصد از حد شانون حذف میکند. رمزگذار ZP تطبیقی است و سریعتر از سایر رمزگذارهای حسابی دودویی تقریبی است.