ما هو ملف DOCX؟
DOCX هو تنسيق معروف لمستندات Microsoft Word. تم تقديمه من عام 2007 مع إصدار Microsoft Office 2007 ، تم تغيير هيكل تنسيق المستند الجديد هذا من ثنائي عادي إلى مجموعة من ملفات XML والملفات الثنائية. يمكن فتح ملفات Docx باستخدام Word 2007 والإصدارات الجانبية ولكن ليس بالإصدارات السابقة من MS Word التي تدعم امتدادات ملفات DOC.
نبذة تاريخية
بعد أن فتحت Microsoft مواصفات تنسيق ملف DOC ، كان من السهل على منافسيها إجراء هندسة عكسية للتنسيق وتقديم نفس الدعم في تطبيقاتهم. بالإضافة إلى ذلك ، أجبرت المنافسة من Open Office في شكل Open Document Format ، Microsoft على اعتماد معايير أكثر انفتاحًا واتساعًا. كان ذلك في أوائل عام 2000 عندما قررت Microsoft إجراء التغيير لاستيعاب معيار ** Office Open XML **. تم تقديم المستندات بموجب هذا المعيار الجديد .docx extension ، “X” يجري ل XML. بحلول عام 2007 ، أصبح تنسيق الملف الجديد هذا جزءًا من Office 2007 ويتم تشغيله أيضًا في الإصدارات الجديدة من Microsoft Office. لقد أضاف نوع الملف الجديد مزايا ذات أحجام ملفات صغيرة ، وتغييرات أقل في التلف وتمثيل صور جيدة التنسيق.
مواصفات تنسيق ملف DOCX - مزيد من المعلومات
يتكون ملف Docx من مجموعة من ملفات XML المضمنة داخل أرشيف ZIP. يمكن عرض محتويات مستند Word الجديد عن طريق فك ضغط محتوياته. تحتوي المجموعة على قائمة بملفات XML التي تم تصنيفها على أنها:
- ملفات MetaData - تحتوي على معلومات حول الملفات الأخرى المتوفرة في الأرشيف
- المستند - يحتوي على المحتويات الفعلية للوثيقة
ملفات البيانات الوصفية
يستخدم Microsoft Word هذه الملفات للبحث عن العلاقة بين الملفات وتحديد موقع محتويات المستند. عندما يتم استخراج أرشيف مستند Word ، فإنه يحتوي على عدد من هذه الملفات كما هو مفصل أدناه.
العلاقات - \ _ البراميل / البراميل
يحتوي هذا الملف على معلومات تخبر برنامج MS Word بمكان البحث عن محتويات المستند والمراجع الأخرى. يتم تعريف كل علاقة بواسطة معرف علاقة فريد وتحدد ملف XML المشار إليه كهدف. يتم عرض نموذج لملف العلاقة على النحو التالي:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
أنواع المحتوى
يمكن أن يحتوي المستند على العديد من أنواع الوسائط الداخلية مثل الصور والموضوعات وفن الكلمات وما إلى ذلك. يحتوي [Content_Types] .xml على معلومات حول أنواع الوسائط الموجودة في المستند. يتم عرض محتويات ملف XML هذا على النحو التالي:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
مراجع إلى الموارد - \ _براميل / document.xml.rels
تتم الإشارة إلى معلومات حول الموارد ، مثل الصور المضمنة في المستند ، في ملف XML هذا.
محتويات المستند الأساسية
يشير هذا إلى ملف XML الرئيسي للأرشيف الذي يحتوي على محتوى نص المستند. يتم تمثيل هذا المحتوى من خلال مجموعة متنوعة من العقد وفقًا لمواصفات OpenOffice XML. تتكون محتويات هذا الملف في الغالب من فقرات وجداول ، على الرغم من أنها يمكن أن تكون عقدًا أخرى أيضًا.
عقد تنسيق الملف
ملف document.xml الرئيسي هو مجموعة من العقد لتمثيل المحتويات العامة للملف. كل عقدة لها بداية ونهاية تضم إما المزيد من العقد أو المحتويات. مثال مبسط لملف xml هو كما يلي:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
فيما يلي معلومات حول بعض العقد الموجودة في ملف DOCX لتمثيل المحتويات.
“<w:document> “- يمثل العنصر الجذر للمحتوى الرئيسي للملف.
“<w:body> “- يمثل نص المستند الذي يمكن أن يتكون من العديد من عقد العناصر الأخرى مثل الفقرات والجداول والأقسام.
الفقرات
الفقرة هي صاحب المحتوى الرئيسي داخل المستند. يمثلها **<w:p> ** عنصر داخل المستند. تتكون الفقرة كذلك من تشغيل واحد أو أكثر **<w:r> ** التي تحتوي على النص الفعلي للفقرة. بالإضافة إلى عمليات التشغيل ، قد تحتوي الفقرات أيضًا على عناصر أخرى في المستند مثل الارتباطات التشعبية والتعليقات وما إلى ذلك. مثال على بنية الفقرة كما هو موضح أدناه:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>