Какво е DOCX файл?
DOCX е добре познат формат за документи на Microsoft Word. Въведен от 2007 г. с пускането на Microsoft Office 2007, структурата на този нов формат на документа беше променена от обикновен двоичен към комбинация от XML и двоични файлове. Docx файловете могат да се отварят с Word 2007 и страничните версии, но не и с по-ранните версии на MS Word, които поддържат DOC файлови разширения.
Кратка история
След като Microsoft отвори спецификациите за файловия формат DOC, за неговите конкуренти беше лесно да направят обратен инженеринг на формата и да осигурят същата поддръжка в собствените си приложения. В допълнение, конкуренцията на Open Office под формата на неговия Open Document Format принуди Microsoft да приеме по-отворени и широки стандарти. Беше в началото на 2000 г., когато Microsoft реши да направи промяната, за да приспособи стандарта за Office Open XML. Документите съгласно този нов стандарт получиха .docx разширение, „X“ е за XML. До 2007 г. този нов файлов формат стана част от Office 2007 и се поддържа и в новите версии на Microsoft Office. Новият тип файл има добавени предимства на малки размери на файлове, по-малко промени на повреди и добре форматирано представяне на изображения.
Спецификации на DOCX файловия формат - повече информация
Docx файлът се състои от колекция от XML файлове, които се съдържат в ZIP архив. Съдържанието на нов документ на Word може да се види, като се разархивира съдържанието му. Колекцията съдържа списък с XML файлове, които са категоризирани като:
- MetaData Files - съдържа информация за други налични файлове в архива
- Документ - съдържа действителното съдържание на документа
Файлове с метаданни
Microsoft Word използва тези файлове, за да намери връзката между файловете и да намери съдържанието на документа. Когато се извлече архив на документ на Word, той съдържа редица такива файлове, както е описано по-долу.
Връзки - _rels/.rels
Този файл съдържа информация, която казва на MS Word къде да търси съдържанието на документа и други препратки. Всяка релация се идентифицира с уникален идентификатор на релация и посочва посочения XML файл като цел. Примерен файл за връзка е показан както следва:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
Типове съдържание
Един документ може да съдържа няколко типа медии вътре като изображения, теми, текстово изкуство и т.н. [Content_Types].xml съдържа информация за такива типове медии, налични в документа. Съдържанието на такъв XML файл е показано, както следва:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
Препратки към ресурси - _rels/document.xml.rels
Информацията за ресурси, като например изображения, вградени в документа, е посочена в този XML файл.
Основно съдържание на документа
Това се отнася до основния XML файл на архива, който съдържа текстовото съдържание на документа. Това съдържание е представено от различни възли според XML спецификациите на OpenOffice. Най-вече съдържанието на този файл се състои от параграфи и таблици, въпреки че те могат да бъдат и други възли.
Възли на файлов формат
Основният файл document.xml е колекция от възли за представяне на цялостното съдържание на файл. Всеки възел има начало и край, които капсулират или други възли, или съдържанието. Опростен пример за такъв xml файл е както следва:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
Следва информация за някои от възлите, съдържащи се в DOCX файл за представяне на съдържанието.
<w:document>
- Представлява основния елемент на основното съдържание на файла.
<w:body>
- Представлява тялото на документа, което може да се състои от много други елементни възли, като параграфи, таблици и секции.
Параграфи
Абзацът е основното съдържание в документа. Той е представен от **<w:p> ** елемент в документ. Освен това параграфът се състои от едно или повече изпълнения **<w:r> **, който съдържа действителния текст на параграфа. В допълнение към сериите, абзаците могат да съдържат и други елементи на документа, като хипервръзки, коментари и т.н. Примерна структура на абзац е както е показано по-долу:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>