.DOCX вариант №
DOCX — широко известный формат документов Microsoft Word. Представленный в 2007 году с выпуском Microsoft Office 2007, структура этого нового формата документа была изменена с простого двоичного файла на комбинацию XML и двоичных файлов. Файлы Docx можно открывать в Word 2007 и его более поздних версиях, но не в более ранних версиях MS Word, которые поддерживают расширения файлов DOC.
Краткая история
После того, как Microsoft открыла спецификации для формата файла DOC, ее конкурентам было легко реконструировать формат и обеспечить такую же поддержку в своих собственных приложениях. Кроме того, конкуренция со стороны Open Office в форме формата Open Document Format вынудила Microsoft принять более открытые и широкие стандарты. Это было в начале 2000 года, когда Microsoft решила внести изменения, чтобы приспособить стандарт для Office Open XML. Документы в соответствии с этим новым стандартом получили расширение .docx, символ «X» для XML. К 2007 году этот новый формат файлов стал частью Office 2007 и поддерживается также в новых версиях Microsoft Office. В новом типе файлов добавлены преимущества небольших размеров файлов, меньшего количества изменений повреждения и хорошо отформатированного представления изображений.
Спецификации формата файлов DOCX — дополнительная информация
Файл Docx состоит из набора XML-файлов, содержащихся в ZIP-архиве. Содержимое нового документа Word можно просмотреть, разархивировав его содержимое. Коллекция содержит список файлов XML, которые классифицируются как:
- Файлы метаданных - содержит информацию о других файлах, имеющихся в архиве
- Документ - содержит фактическое содержание документа
Файлы метаданных
Microsoft Word использует эти файлы, чтобы найти взаимосвязь между файлами и найти содержимое документа. Когда архив документа Word извлекается, он содержит ряд таких файлов, как описано ниже.
Отношения - _rels/.rels
Этот файл содержит информацию, которая сообщает MS Word, где искать содержимое документа и другие ссылки. Каждая связь идентифицируется уникальным идентификатором связи и указывает XML-файл, на который делается ссылка, в качестве цели. Пример файла отношений показан ниже:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
Типы контента
Документ может содержать внутри несколько типов мультимедиа, например изображения, темы, текстовые рисунки и т. д. Файл [Content_Types].xml содержит информацию о таких типах мультимедиа, присутствующих в документе. Содержимое такого XML-файла показано ниже:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
Ссылки на ресурсы — _rels/document.xml.rels
Информация о ресурсах, таких как изображения, встроенные в документ, упоминается в этом XML-файле.
Содержание основного документа
Это относится к основному XML-файлу архива, содержащему текстовое содержимое документа. Это содержимое представлено множеством узлов в соответствии со спецификациями OpenOffice XML. В основном содержимое этого файла состоит из абзацев и таблиц, хотя они могут быть и другими узлами.
Узлы форматов файлов
Основной файл document.xml представляет собой набор узлов для представления всего содержимого файла. Каждый узел имеет начало и конец, которые инкапсулируют либо дальнейшие узлы, либо содержимое. Упрощенный пример такого XML-файла выглядит следующим образом:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
Ниже приводится информация о некоторых узлах, содержащихся в файле DOCX для представления содержимого.
<w:document>
— представляет корневой элемент основного содержимого файла.
<w:body>
— представляет тело документа, которое может состоять из многих других узлов элементов, таких как абзацы, таблицы и разделы.
Пункты
Абзац является основным держателем содержимого в документе. Он представлен **<w:p> ** элемент в документе. Абзац далее состоит из одного или нескольких прогонов **<w:r> **, который содержит фактический текст абзаца. Помимо строк, абзацы могут также содержать другие элементы документа, такие как гиперссылки, комментарии и т. д. Пример структуры абзаца показан ниже:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>