.DJVU 파일이란?
“déjà vu"로 발음되는 DjVu는 특히 텍스트, 그림, 이미지 및 사진의 조합을 포함하는 스캔 문서 및 책을 위한 그래픽 파일 형식입니다. AT&T Labs에서 개발했습니다. 텍스트 및 배경 이미지의 이미지 레이어 분리, 프로그레시브 로딩, 산술 코딩 및 비트 이미지에 대한 손실 압축과 같은 여러 기술을 사용합니다. DJVU 파일은 압축된 고품질의 컬러 이미지, 사진, 텍스트, 그림 등을 담을 수 있어 적은 공간에 저장할 수 있어 웹상에서 eBook, 매뉴얼, 신문, 고대문서 등으로 활용되고 있습니다.
DjVu는 PDF에 대한 우수한 대안으로 평가될 수 있습니다. DjVu와 관련된 파일 확장자는 .DJVU 또는 .DJV입니다. DjVu는 컬러 문서의 경우 JPEG 및 GIF와 같은 기존 방법보다 약 5~10배, TIFF 흑백 문서. 최대 25MB의 풀 컬러로 300DPI로 스캔한 문서를 30~100KB까지 압축할 수 있습니다. 마찬가지로 흑백 문서는 최대 5~30KB까지 압축할 수 있습니다. 평균 HTML 페이지는 최대 50KB이므로 이러한 문서는 문제 없이 인터넷에 업로드할 수 있습니다.
간략한 역사
DjVu 기술은 AT&T 연구소에서 Yann LeCun, Léon Bottou에 의해 개발되었습니다., Patrick Haffner 및 Paul G(1996년부터 2001년까지). DjVu 파일 형식은 2005년부터 최신 버전까지 다양한 개정을 거쳤습니다.
버전 | 출시일 | 참고 |
---|---|---|
1–19 | 1996–1999 | 이것은 개발 버전입니다. |
20 | 1999년 4월 | 단일 페이지가 다중 페이지 형식으로 변경되었습니다. |
23 | 2002년 7월 | CID 청크 |
24 | 2003년 2월 | LTAnno 청크 |
21 | 1999년 9월 | 간접 저장 형식이 대체되었습니다. 텍스트 검색 레이어가 추가되었습니다. |
22 | 2001년 4월 | 페이지 방향, 색상 JB2 |
25 | 2003년 5월 | NAVM 청크. DjVu 책갈피에 대한 지원이 추가되었습니다. |
26 | 2005년 4월 | 텍스트/줄 주석 |
DjVu 파일 형식
DjVu 문서는 IFF85 파일입니다. 이 구조는 DjVu 파일에 정보를 보유하는 컨테이너 계층을 제공합니다. 이러한 컨테이너를 “청크"라고도 합니다. 청크 유형 및 청크 ID는 청크가 사용되는 방식을 설명합니다. 4바이트 헤더 다음에 IFF 구조가 있습니다. DjVu 파일의 처음 4바이트는 0x41 0x54 0x26 0x54입니다. 이 섹션에서는 다양한 종류의 DjVu 문서와 해당 문서를 구성하는 청크에 대해 설명합니다.
청크 ID | 사용 |
---|---|
FORM | 2차 식별자인 FORM 청크의 처음 4개 데이터 바이트를 갖는 복합 청크. |
FORM:DJVM | 다중 페이지 DjVu 문서. DIRM 청크를 포함하는 복합 청크. |
FORM:DJVU | 단일 페이지 DjVu 문서. djvu 문서에서 페이지를 구성하는 청크를 포함하는 합성 청크. |
FORM:DJVI | INCL 청크를 통해 포함된 “공유” DjVu 파일. 공유 주석 및 모양 사전. |
FORM:THUM | 임베디드 썸네일인 TH44 청크를 포함하는 복합 청크. |
DIRM | 여러 페이지 문서에 대한 페이지 이름 정보. |
NAVM | 북마크 정보 |
ANTa, ANTz | 초기 보기 설정과 오버레이된 하이퍼링크, 텍스트 상자 등을 모두 포함하는 주석 |
TXTa, TXtz | 유니코드 텍스트 및 레이아웃 정보. |
Djbz | 공유 모양 테이블. |
Sjbz | BZZ는 마스크를 저장하는 데 사용되는 압축된 JB2 비트 데이터입니다. |
FG44 | 포그라운드를 저장하는 데 사용되는 IW44 데이터 |
BG44 | IW44 데이터는 배경을 저장하는 데 사용됩니다. |
TH44 | 포함된 축소판 이미지를 저장하는 데 사용되는 IW44 데이터 |
WMRM | 워터마크를 제거하는 데 필요한 JB2 데이터 |
FGbz | 색상 JB2 데이터. 해당 Sjbz 청크에서 각각(blit 또는 shape?)에 대한 색상을 제공합니다. |
INFO | DjVu 페이지에 대한 정보 |
INCL | 포함된 FORM:DJVI 청크의 ID입니다. |
BGjp | JPEG 인코딩 배경 |
FGjp | JPEG 인코딩 전경 |
Smmr | G4로 인코딩된 마스크 |
DJVU 압축
단일 이미지를 여러 이미지로 분할한 다음 모든 이미지를 개별적으로 압축합니다. DjVu 파일 생성을 위해 이미지는 먼저 배경, 전경 및 마스크 이미지의 세 가지 이미지로 분리됩니다. 일반적으로 배경 및 전경 이미지는 저해상도 컬러 이미지입니다. 그러나 마스크 이미지는 고해상도 이미지이며 일반적으로 텍스트가 거기에 저장됩니다. 분리 후 전경 이미지와 배경 이미지는 웨이블릿 기반 압축 알고리즘 IW44를 통해 압축되고 마스크 이미지는 JB2라는 다른 방법을 사용하여 압축됩니다.
JB2 인코딩 방법은 특정 글꼴에서 문자가 여러 번 나타나는 것과 같이 페이지에서 동일한 모양을 식별하여 텍스트 이미지의 많은 중복성을 제거합니다. JB2는 먼저 유사한 모양 간의 중복성을 활용하여 각 고유한 모양의 비트맵을 코딩합니다. 그런 다음 페이지에서 각 모양이 나타나는 위치를 코딩합니다. JB2와 IW44는 모두 Shannon 한계의 몇 퍼센트 내에서 남아 있는 중복성을 짜내는 ZP 코더라고 하는 새로운 유형의 적응형 이진 산술 코더에 의존합니다. ZP 코더는 적응형이며 다른 근사 이진 산술 코더보다 빠릅니다.