डीजेवीयू फ़ाइल क्या है?
DjVu, जिसे “déjà vu” के रूप में उच्चारित किया जाता है, एक ग्राफिक्स फ़ाइल स्वरूप है जो स्कैन किए गए दस्तावेज़ों और पुस्तकों के लिए अभिप्रेत है, विशेष रूप से वे जिनमें पाठ, चित्र, चित्र और तस्वीरों का संयोजन होता है। इसे एटी एंड टी लैब्स द्वारा विकसित किया गया था। यह पाठ और पृष्ठभूमि छवियों की छवि परत पृथक्करण, प्रगतिशील लोडिंग, अंकगणितीय कोडिंग और बिटोनल छवियों के लिए हानिपूर्ण संपीड़न जैसी कई तकनीकों का उपयोग करता है। चूंकि डीजेवीयू फाइल में कंप्रेस्ड अभी तक उच्च गुणवत्ता वाली रंगीन छवियां, फोटोग्राफ, टेक्स्ट और ड्रॉइंग हो सकती हैं और इसे कम जगह में सहेजा जा सकता है, इसलिए इसका उपयोग वेब पर ईबुक, मैनुअल, समाचार पत्र, प्राचीन दस्तावेज आदि के रूप में किया जाता है।
DjVu को PDF के बेहतर विकल्प के रूप में वर्गीकृत किया जा सकता है। DjVu से जुड़े फाइल एक्सटेंशन .DJVU या .DJV हैं। डीजेवीयू मौजूदा तरीकों जैसे JPEG और GIF से बेहतर कंप्रेशन रेशियो हासिल कर सकता है। TIFF काले और सफेद दस्तावेज़ों में। 300 डीपीआई पर स्कैन किए गए दस्तावेजों को 25 एमबी तक पूर्ण रंग के साथ 30 से 100 केबी तक संकुचित किया जा सकता है। इसी तरह ब्लैक एंड व्हाइट दस्तावेज़ों को 5 से 30 केबी तक संपीड़ित किया जा सकता है। औसत एचटीएमएल पेज 50 केबी तक हो सकता है, इसलिए इन दस्तावेजों को बिना किसी समस्या के नेट पर अपलोड किया जा सकता है।
संक्षिप्त इतिहास
DjVu तकनीक को Yann LeCun, Léon Bottou द्वारा AT&T लैब में विकसित किया गया था।, पैट्रिक हैफनर, और पॉल जी 1996 से 2001 तक। DjVu फ़ाइल प्रारूप विभिन्न संशोधनों से गुजरा है, सबसे हाल ही में 2005 से है।
संस्करण | रिलीज़ की तारीख | नोट्स |
---|---|---|
1–19 | 1996–1999 | ये विकासात्मक संस्करण हैं। |
20 | अप्रैल 1999 | एकल पेज को मल्टीपेज फॉर्मेट में बदल दिया गया। |
23 | जुलाई 2002 | सीआईडी चंक |
24 | फरवरी 2003 | एलटीअन्नो चंक |
21 | सितंबर 1999 | अप्रत्यक्ष भंडारण प्रारूप बदला गया। पाठ खोज परत जोड़ा गया था। |
22 | अप्रैल 2001 | पेज ओरिएंटेशन, रंग JB2 |
25 | मई 2003 | एनएवीएम चंक। DjVu बुकमार्क के लिए समर्थन जोड़ा गया। |
26 | अप्रैल 2005 | पाठ्य/पंक्ति एनोटेशन |
डीजेवीयू फ़ाइल प्रारूप
DjVu दस्तावेज़ IFF85 फ़ाइलें हैं। संरचना कंटेनरों का एक पदानुक्रम प्रदान करती है जो एक DjVu फ़ाइल में जानकारी रखती है। इन कंटेनरों को “चंक्स” भी कहा जाता है। चंक प्रकार और चंक आईडी बताता है कि चंक का उपयोग कैसे किया जाता है। IFF संरचना के बाद एक 4byte शीर्षलेख है। DjVu फ़ाइल के पहले चार बाइट्स 0x41 0x54 0x26 0x54 हैं। इस खंड में विभिन्न प्रकार के DjVu दस्तावेज़ों और उनके संगत भागों पर चर्चा की गई है।
चंक आईडी | उपयोग |
---|---|
FORM | समग्र खंड में FORM चंक के पहले चार डेटा बाइट्स होते हैं जो द्वितीयक पहचानकर्ता होते हैं। |
फॉर्म:डीजेवीएम | एक मल्टीपेज डीजेवीयू दस्तावेज। समग्र खंड जिसमें डीआईआरएम खंड होता है। |
फॉर्म:डीजेवीयू | सिंगल पेज डीजेवीयू डॉक्युमेंट। समग्र खंड जिसमें वे भाग होते हैं जो एक djvu दस्तावेज़ में एक पृष्ठ बनाते हैं। |
FORM:DJVI | एक “साझा” DjVu फ़ाइल जो INCL खंड के माध्यम से शामिल है। साझा एनोटेशन और आकार शब्दकोश। |
FORM:THUM | समग्र खंड जिसमें TH44 भाग होते हैं जो एम्बेडेड थंबनेल होते हैं। |
DIRM | बहु-पृष्ठ दस्तावेज़ों के लिए पृष्ठ नाम की जानकारी। |
एनएवीएम | बुकमार्क जानकारी |
ANTa, ANTz | प्रारंभिक दृश्य सेटिंग्स और ओवरलेड हाइपरलिंक्स, टेक्स्ट बॉक्स आदि दोनों सहित एनोटेशन। |
TXTa, TXTz | यूनिकोड टेक्स्ट और लेआउट जानकारी। |
Djbz | साझा आकार तालिका। |
Sjbz | BZZ संपीड़ित JB2 बिटोनल डेटा मास्क को स्टोर करने के लिए उपयोग किया जाता है। |
FG44 | IW44 डेटा अग्रभूमि को स्टोर करने के लिए प्रयोग किया जाता है |
BG44 | IW44 डेटा पृष्ठभूमि को स्टोर करने के लिए उपयोग किया जाता है |
TH44 | IW44 डेटा एम्बेडेड थंबनेल छवियों को संग्रहीत करने के लिए उपयोग किया जाता है |
WMRM | JB2 डेटा वॉटरमार्क हटाने के लिए आवश्यक है |
FGbz | रंग JB2 डेटा। संबंधित Sjbz खंड में प्रत्येक (ब्लिट या आकार?) के लिए एक रंग प्रदान करता है। |
जानकारी | डीजेवीयू पेज के बारे में जानकारी |
INCL | शामिल FORM:DJVI चंक की आईडी। |
बीजीजेपी | जेपीईजी एन्कोडेड बैकग्राउंड |
FGjp | JPEG एन्कोडेड अग्रभूमि |
Smmr | G4 एन्कोडेड मास्क |
डीजेवीयू संपीड़न
एकल छवि को कई अलग-अलग छवियों में विभाजित किया जाता है, और फिर प्रत्येक छवि को अलग से संपीड़ित किया जाता है। DjVu फ़ाइल के निर्माण के लिए छवि को पहले तीन छवियों, एक पृष्ठभूमि, अग्रभूमि और एक मुखौटा छवि में विभाजित किया जाता है। आम तौर पर पृष्ठभूमि और अग्रभूमि छवियां कम-रिज़ॉल्यूशन रंगीन छवियां होती हैं; लेकिन मुखौटा छवि एक उच्च-रिज़ॉल्यूशन छवि है और आमतौर पर पाठ वहां संग्रहीत होता है। अलगाव के बाद अग्रभूमि और पृष्ठभूमि की छवियों को एक तरंगिका आधारित संपीड़न एल्गोरिथ्म IW44 के माध्यम से संकुचित किया जाता है, जबकि मुखौटा छवि को JB2 नामक एक अन्य विधि का उपयोग करके संकुचित किया जाता है।
JB2 एन्कोडिंग विधि पृष्ठ पर समान आकृतियों की पहचान करके पाठ छवि में बहुत अधिक अतिरेक को समाप्त करती है, जैसे कि किसी विशेष फ़ॉन्ट में वर्ण की कई आवृत्तियाँ। JB2 पहले समान आकृतियों के बीच अतिरेक का लाभ उठाकर प्रत्येक अद्वितीय आकार के बिटमैप को कोड करता है। इसके बाद यह उन स्थानों को कोड करता है जहां पृष्ठ पर प्रत्येक आकृति दिखाई देती है। JB2 और IW44 दोनों एक नए प्रकार के अनुकूली बाइनरी अंकगणितीय कोडर पर भरोसा करते हैं जिसे ZP-कोडर कहा जाता है जो शैनन सीमा के कुछ प्रतिशत के भीतर किसी भी शेष अतिरेक को निचोड़ता है। ZP-कोडर अनुकूली है, और अन्य अनुमानित बाइनरी अंकगणितीय कोडर की तुलना में तेज़ है।