Τι είναι ένα αρχείο DJVU;
Το DjVu, προφέρεται ως “déjà vu”, είναι μια μορφή αρχείου γραφικών που προορίζεται για σαρωμένα έγγραφα και βιβλία, ειδικά εκείνα που περιέχουν συνδυασμό κειμένου, σχεδίων, εικόνων και φωτογραφιών. Αναπτύχθηκε από την AT&T Labs. Χρησιμοποιεί πολλαπλές τεχνικές όπως διαχωρισμό στρώσης εικόνας εικόνων κειμένου και φόντου, προοδευτική φόρτωση, αριθμητική κωδικοποίηση και συμπίεση με απώλειες για bitonal εικόνες. Επειδή το αρχείο DJVU μπορεί να περιέχει συμπιεσμένες αλλά υψηλής ποιότητας έγχρωμες εικόνες, φωτογραφίες, κείμενο και σχέδια και μπορεί να αποθηκευτεί σε λιγότερο χώρο, επομένως, χρησιμοποιείται στον ιστό ως ηλεκτρονικά βιβλία, εγχειρίδια, εφημερίδες, αρχαία έγγραφα κ.λπ.
Το DjVu μπορεί να ταξινομηθεί ως ανώτερη εναλλακτική του PDF. Οι επεκτάσεις αρχείων που σχετίζονται με το DjVu είναι .DJVU ή .DJV. Το DjVu μπορεί να επιτύχει αναλογίες συμπίεσης περίπου 5 – 10 καλύτερες από τις υπάρχουσες μεθόδους όπως JPEG & GIF για έγχρωμα έγγραφα και 3 – 8 φορές καλύτερες από TIFF σε ασπρόμαυρα έγγραφα. Τα σαρωμένα έγγραφα στα 300 DPI με έγχρωμα έως 25 MB μπορούν να συμπιεστούν σε 30 έως 100 KB. Ομοίως, τα ασπρόμαυρα έγγραφα μπορούν να συμπιεστούν έως και 5 έως 30 KB. Η μέση σελίδα HTML μπορεί να είναι έως και 50 KB, επομένως, αυτά τα έγγραφα μπορούν να μεταφορτωθούν στο δίκτυο χωρίς κανένα πρόβλημα.
Σύντομη Ιστορία
Η τεχνολογία DjVu αναπτύχθηκε στα εργαστήρια AT&T από τους Yann LeCun, Léon Bottou, Patrick Haffner και Paul G από το 1996 έως το 2001. Η μορφή αρχείου DjVu έχει περάσει από διάφορες αναθεωρήσεις, η πιο πρόσφατη από το 2005.
Έκδοση | Ημερομηνία κυκλοφορίας | Σημειώσεις |
---|---|---|
1–19 | 1996–1999 | Αυτές είναι οι εκδόσεις ανάπτυξης. |
20 | Απρίλιος 1999 | Η μονή σελίδα άλλαξε σε μορφή πολλαπλών σελίδων. |
23 | Ιούλιος 2002 | Τμήμα CID |
24 | Φεβρουάριος 2003 | LTAnno chunk |
21 | Σεπτέμβριος 1999 | Η μορφή έμμεσης αποθήκευσης αντικαταστάθηκε. Προστέθηκε επίπεδο αναζήτησης κειμένου. |
22 | Απρίλιος 2001 | Προσανατολισμός σελίδας, χρώμα JB2 |
25 | Μάιος 2003 | τμήμα NAVM. Προστέθηκε υποστήριξη για σελιδοδείκτες DjVu. |
26 | Απρίλιος 2005 | Σχολιασμοί κειμένου/γραμμών |
Μορφή αρχείου DjVu
Τα έγγραφα DjVu είναι αρχεία IFF85. Η δομή παρέχει μια ιεραρχία κοντέινερ που περιέχει πληροφορίες σε ένα αρχείο DjVu. Αυτά τα δοχεία ονομάζονται επίσης “κομμάτια”. Ο τύπος κομματιού και το αναγνωριστικό τεμαχίου περιγράφουν πώς χρησιμοποιείται το κομμάτι. Υπάρχει μια κεφαλίδα 4 byte ακολουθούμενη από δομή IFF. Τα πρώτα τέσσερα byte ενός αρχείου DjVu είναι 0x41 0x54 0x26 0x54. Αυτή η ενότητα συζητά τα διάφορα είδη εγγράφων DjVu και τα αντίστοιχα κομμάτια από τα οποία αποτελούνται.
Αναγνωριστικό τμήματος | Χρήση |
---|---|
FORM | Το σύνθετο κομμάτι που έχει τα πρώτα τέσσερα byte δεδομένων του τμήματος FORM που είναι δευτερεύον αναγνωριστικό. |
FORM:DJVM | Ένα πολυσέλιδο έγγραφο DjVu. Σύνθετο κομμάτι που περιέχει το κομμάτι DIRM. |
FORM:DJVU | Μονοσέλιδο έγγραφο DjVu. Σύνθετο κομμάτι που περιέχει τα κομμάτια που συνθέτουν μια σελίδα σε ένα έγγραφο djvu. |
FORM:DJVI | Ένα “κοινόχρηστο” αρχείο DjVu που περιλαμβάνεται μέσω του τμήματος INCL. Κοινόχρηστοι σχολιασμοί και λεξικό σχημάτων. |
FORM:THUM | Σύνθετο κομμάτι που περιέχει τα κομμάτια TH44 που είναι οι ενσωματωμένες μικρογραφίες. |
DIRM | Πληροφορίες ονόματος σελίδας για έγγραφα πολλών σελίδων. |
NAVM | Πληροφορίες σελιδοδεικτών |
ANTa, ANTz | Σχολιασμοί που περιλαμβάνουν τόσο τις αρχικές ρυθμίσεις προβολής όσο και τους υπερσυνδέσμους, τα πλαίσια κειμένου κ.λπ. |
TXTa, TXTz | Unicode Κείμενο και πληροφορίες διάταξης. |
Djbz | Πίνακας κοινού σχήματος. |
Sjbz | BZZ συμπιεσμένα JB2 bitonal δεδομένα που χρησιμοποιούνται για την αποθήκευση της μάσκας. |
FG44 | Δεδομένα IW44 που χρησιμοποιούνται για την αποθήκευση προσκηνίου |
BG44 | Δεδομένα IW44 που χρησιμοποιούνται για την αποθήκευση φόντου |
TH44 | Δεδομένα IW44 που χρησιμοποιούνται για την αποθήκευση ενσωματωμένων μικρογραφιών |
WMRM | JB2 δεδομένα που απαιτούνται για την αφαίρεση ενός υδατογραφήματος |
FGbz | Χρωματικά δεδομένα JB2. Παρέχει ένα χρώμα για καθένα (blit ή σχήμα;) στο αντίστοιχο κομμάτι Sjbz. |
INFO | Πληροφορίες σχετικά με τη σελίδα a DjVu |
INCL | Το αναγνωριστικό ενός περιλαμβανόμενου τμήματος FORM:DJVI. |
BGjp | Κωδικοποιημένο φόντο JPEG |
FGjp | Προσκηνίου με κωδικοποίηση JPEG |
Smmr | Κωδικοποιημένη μάσκα G4 |
Συμπίεση DJVU
Η μεμονωμένη εικόνα χωρίζεται σε πολλές διαφορετικές εικόνες και, στη συνέχεια, κάθε εικόνα συμπιέζεται ξεχωριστά. Για τη δημιουργία ενός αρχείου DjVu η εικόνα αρχικά χωρίζεται σε τρεις εικόνες, ένα φόντο, ένα προσκήνιο και μια εικόνα μάσκας. Συνήθως οι εικόνες φόντου και προσκηνίου είναι έγχρωμες εικόνες χαμηλότερης ανάλυσης. αλλά η εικόνα μάσκας είναι μια εικόνα υψηλότερης ανάλυσης και συνήθως το κείμενο αποθηκεύεται εκεί. Μετά τον διαχωρισμό, οι εικόνες προσκηνίου και φόντου συμπιέζονται μέσω ενός αλγόριθμου συμπίεσης βασισμένο σε wavelet, ενώ η εικόνα μάσκας συμπιέζεται χρησιμοποιώντας μια άλλη μέθοδο που ονομάζεται JB2.
Η μέθοδος κωδικοποίησης JB2 εξαλείφει μεγάλο μέρος του πλεονασμού στην εικόνα κειμένου προσδιορίζοντας πανομοιότυπα σχήματα στη σελίδα, όπως πολλαπλές εμφανίσεις ενός χαρακτήρα σε μια συγκεκριμένη γραμματοσειρά. Το JB2 κωδικοποιεί πρώτα το bitmap κάθε μοναδικού σχήματος εκμεταλλευόμενος τον πλεονασμό μεταξύ παρόμοιων σχημάτων. Στη συνέχεια κωδικοποιεί τις τοποθεσίες στις οποίες εμφανίζεται κάθε σχήμα στη σελίδα. Τόσο το JB2 όσο και το IW44 βασίζονται σε έναν νέο τύπο προσαρμοστικού δυαδικού αριθμητικού κωδικοποιητή που ονομάζεται κωδικοποιητής ZP, ο οποίος αποσπά κάθε εναπομένον πλεονασμό εντός μερικών τοις εκατό του ορίου Shannon. Ο κωδικοποιητής ZP είναι προσαρμοστικός και ταχύτερος από άλλους κατά προσέγγιση δυαδικούς αριθμητικούς κωδικοποιητές.