ไฟล์ DJVU คืออะไร??
DjVu ออกเสียงว่า “เดจาวู” เป็นรูปแบบไฟล์กราฟิกที่มีไว้สำหรับเอกสารและหนังสือที่สแกน โดยเฉพาะที่มีการผสมผสานระหว่างข้อความ ภาพวาด รูปภาพ และภาพถ่าย ได้รับการพัฒนาโดย AT&T Labs มันใช้เทคนิคหลายอย่าง เช่น การแยกชั้นรูปภาพของข้อความและภาพพื้นหลัง การโหลดแบบก้าวหน้า การเข้ารหัสเลขคณิต และการบีบอัดแบบสูญเสียสำหรับภาพบิตัล เนื่องจากไฟล์ DJVU สามารถบรรจุรูปภาพสี ภาพถ่าย ข้อความ และภาพวาดที่มีการบีบอัดแต่มีคุณภาพสูง และสามารถบันทึกได้ในพื้นที่น้อย ดังนั้นจึงใช้บนเว็บเป็น eBooks คู่มือ หนังสือพิมพ์ เอกสารโบราณ ฯลฯ
DjVu สามารถให้คะแนนทางเลือกที่ดีกว่าสำหรับ PDF นามสกุลไฟล์ที่เกี่ยวข้องกับ DjVu คือ .DJVU หรือ .DJV DjVu สามารถรับอัตราการบีบอัดได้ดีกว่าวิธีที่มีอยู่ประมาณ 5 – 10 วิธี เช่น JPEG & GIF สำหรับเอกสารสี และดีกว่า [TIFF]3 – 8 เท่า( /image/tiff/) ในเอกสารขาวดำ เอกสารที่สแกนที่ 300 DPI พร้อมสีสูงสุด 25 MB สามารถบีบอัดได้ถึง 30 ถึง 100 KB ในทำนองเดียวกันเอกสารขาวดำสามารถบีบอัดได้สูงสุด 5 ถึง 30 KB หน้า HTML โดยเฉลี่ยสามารถมีขนาดได้ถึง 50 KB ดังนั้น เอกสารเหล่านี้สามารถอัปโหลดทางเน็ตได้โดยไม่มีปัญหาใดๆ
ประวัติย่อ
เทคโนโลยี DjVu ได้รับการพัฒนาในห้องปฏิบัติการของ AT&T โดย Yann LeCun, Léon Bottou, Patrick Haffner และ Paul G ตั้งแต่ปี 1996 ถึง 2001 รูปแบบไฟล์ DjVu ได้ผ่านการแก้ไขหลายครั้ง ล่าสุดคือตั้งแต่ปี 2005
เวอร์ชัน | วันที่วางจำหน่าย | หมายเหตุ |
---|---|---|
1–19 | 1996–1999 | นี่คือเวอร์ชันที่กำลังพัฒนา |
20 | เมษายน 2542 | หน้าเดียวเปลี่ยนเป็นรูปแบบหลายหน้า |
23 | กรกฎาคม 2545 | CID |
24 | กุมภาพันธ์ 2546 | LTAnno chunk |
21 | กันยายน 1999 | เปลี่ยนรูปแบบการจัดเก็บทางอ้อมแล้ว เพิ่มเลเยอร์การค้นหาข้อความแล้ว |
22 | เมษายน 2544 | การวางแนวหน้า, สี JB2 |
25 | พฤษภาคม 2546 | ชิ้น NAVM เพิ่มการรองรับบุ๊กมาร์ก DjVu แล้ว |
26 | เมษายน 2548 | ข้อความ/บรรทัดคำอธิบายประกอบ |
รูปแบบไฟล์ DjVu
เอกสาร DjVu เป็นไฟล์ IFF85 โครงสร้างมีลำดับชั้นของคอนเทนเนอร์ที่เก็บข้อมูลในไฟล์ DjVu ภาชนะเหล่านี้เรียกอีกอย่างว่า “ก้อน” ประเภทก้อนและรหัสก้อนอธิบายวิธีการใช้ก้อน มีส่วนหัว 4 ไบต์ตามด้วยโครงสร้าง IFF สี่ไบต์แรกของไฟล์ DjVu คือ 0x41 0x54 0x26 0x54 ส่วนนี้กล่าวถึงเอกสาร DjVu ประเภทต่างๆ และส่วนประกอบที่เกี่ยวข้องกัน
Chunk ID | การใช้งาน |
---|---|
FORM | ก้อนผสมที่มีสี่ไบต์ข้อมูลแรกของก้อน FORM ซึ่งเป็นตัวระบุรอง |
แบบฟอร์ม:DJVM | เอกสาร DjVu หลายหน้า ชิ้นคอมโพสิตที่มีชิ้น DIRM |
แบบฟอร์ม:DJVU | เอกสาร DjVu หน้าเดียว ชิ้นคอมโพสิตที่มีชิ้นซึ่งสร้างหน้าในเอกสาร djvu |
FORM:DJVI | ไฟล์ DjVu “ที่ใช้ร่วมกัน” ซึ่งรวมอยู่ในก้อน INCL คำอธิบายประกอบที่ใช้ร่วมกันและพจนานุกรมรูปร่าง |
FORM:THUM | ก้อนคอมโพสิตที่มี TH44 ซึ่งเป็นภาพขนาดย่อที่ฝังอยู่ |
DIRM | ข้อมูลชื่อหน้าสำหรับเอกสารหลายหน้า |
NAVM | ข้อมูลบุ๊กมาร์ก |
ANTa, ANTz | คำอธิบายประกอบรวมทั้งการตั้งค่ามุมมองเริ่มต้นและไฮเปอร์ลิงก์ที่วางซ้อน กล่องข้อความ ฯลฯ |
TXTa, TXTz | ข้อความ Unicode และข้อมูลเค้าโครง |
Djbz | ตารางรูปร่างที่ใช้ร่วมกัน |
Sjbz | BZZ บีบอัดข้อมูลบิตัล JB2 ที่ใช้เก็บมาสก์ |
FG44 | ข้อมูล IW44 ใช้เพื่อเก็บข้อมูลเบื้องหน้า |
BG44 | ข้อมูล IW44 ใช้เพื่อจัดเก็บพื้นหลัง |
TH44 | ข้อมูล IW44 ใช้เพื่อเก็บภาพขนาดย่อที่ฝังไว้ |
WMRM | ต้องใช้ข้อมูล JB2 เพื่อลบลายน้ำ |
FGbz | ข้อมูลสี JB2 ระบุสีสำหรับแต่ละรายการ (blit หรือ shape?) ในกลุ่ม Sjbz ที่สอดคล้องกัน |
INFO | ข้อมูลเกี่ยวกับหน้า DjVu |
INCL | ID ของ FORM:DJVI chunk ที่รวมอยู่ |
BGjp | พื้นหลังเข้ารหัส JPEG |
FGjp | เบื้องหน้าเข้ารหัส JPEG |
Smmr | มาสก์เข้ารหัส G4 |
การบีบอัด DJVU
ภาพเดียวจะถูกแบ่งออกเป็นหลายๆ ภาพ จากนั้นภาพทุกภาพจะถูกบีบอัดแยกจากกัน สำหรับการสร้างไฟล์ DjVu ภาพจะถูกแยกออกเป็นสามภาพก่อน ได้แก่ พื้นหลัง พื้นหน้า และภาพหน้ากาก โดยทั่วไปแล้วภาพพื้นหลังและพื้นหน้าจะเป็นภาพสีที่มีความละเอียดต่ำ แต่ภาพมาสก์เป็นภาพที่มีความละเอียดสูงกว่า และโดยทั่วไปแล้วข้อความจะถูกเก็บไว้ที่นั่น หลังจากแยกส่วนแล้ว ภาพเบื้องหน้าและพื้นหลังจะถูกบีบอัดผ่านอัลกอริทึมการบีบอัดที่ใช้เวฟเล็ต IW44 ในขณะที่ภาพมาสก์ถูกบีบอัดโดยใช้วิธีอื่นที่เรียกว่า JB2
วิธีการเข้ารหัส JB2 ช่วยลดความซ้ำซ้อนในรูปภาพข้อความโดยการระบุรูปร่างที่เหมือนกันบนหน้า เช่น อักขระหลายตัวในฟอนต์หนึ่งๆ JB2 เข้ารหัสบิตแมปของแต่ละรูปร่างที่ไม่ซ้ำกันก่อนโดยใช้ประโยชน์จากความซ้ำซ้อนระหว่างรูปร่างที่คล้ายกัน จากนั้นจะเข้ารหัสตำแหน่งที่แต่ละรูปร่างปรากฏบนหน้า ทั้ง JB2 และ IW44 พึ่งพาตัวเข้ารหัสเลขฐานสองแบบปรับได้ชนิดใหม่ที่เรียกว่า ZP-coder ซึ่งจะบีบความซ้ำซ้อนที่เหลืออยู่ภายในไม่กี่เปอร์เซ็นต์ของขีดจำกัดแชนนอน ZP-coder สามารถปรับเปลี่ยนได้และเร็วกว่าตัวเข้ารหัสเลขฐานสองโดยประมาณอื่นๆ