DOCX फाइल क्या है?
DOCX Microsoft Word दस्तावेज़ों के लिए एक प्रसिद्ध प्रारूप है। Microsoft Office 2007 की रिलीज़ के साथ 2007 से पेश किया गया, इस नए दस्तावेज़ प्रारूप की संरचना को सादे बाइनरी से XML और बाइनरी फ़ाइलों के संयोजन में बदल दिया गया था। Docx फाइलें Word 2007 और पार्श्व संस्करणों के साथ खोली जा सकती हैं लेकिन MS Word के पुराने संस्करणों के साथ नहीं जो DOC फ़ाइल एक्सटेंशन का समर्थन करते हैं।
संक्षिप्त इतिहास
Microsoft द्वारा DOC फ़ाइल स्वरूप के लिए विनिर्देशों को खोले जाने के बाद, इसके प्रतिस्पर्धियों के लिए प्रारूप को रिवर्स इंजीनियर करना और अपने स्वयं के अनुप्रयोगों में समान समर्थन प्रदान करना आसान हो गया। इसके अलावा, ओपन ऑफिस से इसके ओपन डॉक्यूमेंट फॉर्मेट के रूप में प्रतिस्पर्धा ने माइक्रोसॉफ्ट को अधिक खुले और व्यापक मानकों को अपनाने के लिए मजबूर किया। यह 2000 की शुरुआत में था जब माइक्रोसॉफ्ट ने ऑफिस ओपन एक्सएमएल के मानक को समायोजित करने के लिए बदलाव के लिए जाने का फैसला किया। इस नए मानक के तहत दस्तावेज़ दिए गए थे .docx एक्सटेंशन, “X” एक्सएमएल के लिए जा रहा है। 2007 तक, यह नया फ़ाइल स्वरूप Office 2007 का हिस्सा बन गया और इसे Microsoft Office के नए संस्करणों में भी जारी रखा गया। नए फ़ाइल प्रकार ने छोटे फ़ाइल आकार, भ्रष्टाचार के कम परिवर्तन और अच्छी तरह से स्वरूपित छवियों के प्रतिनिधित्व के फायदे जोड़े हैं।
DOCX फ़ाइल स्वरूप निर्दिष्टीकरण - अधिक जानकारी
एक Docx फ़ाइल में XML फ़ाइलों का एक संग्रह होता है जो एक ज़िप संग्रह के अंदर समाहित होता है। एक नए Word दस्तावेज़ की सामग्री को उसकी सामग्री को अनज़िप करके देखा जा सकता है। संग्रह में XML फ़ाइलों की एक सूची होती है जिन्हें इस प्रकार वर्गीकृत किया जाता है:
- मेटाडेटा फ़ाइलें - संग्रह में उपलब्ध अन्य फ़ाइलों के बारे में जानकारी शामिल है
- दस्तावेज़ - दस्तावेज़ की वास्तविक सामग्री शामिल है
मेटाडेटा फ़ाइलें
Microsoft Word इन फ़ाइलों का उपयोग फ़ाइलों के बीच संबंध खोजने और दस्तावेज़ सामग्री का पता लगाने के लिए करता है। जब कोई Word दस्तावेज़ संग्रह निकाला जाता है, तो इसमें ऐसी कई फ़ाइलें शामिल होती हैं, जिनका विवरण नीचे दिया गया है।
रिश्ते - _rels/.rels
इस फ़ाइल में ऐसी जानकारी है जो एमएस वर्ड को बताती है कि दस्तावेज़ सामग्री और अन्य संदर्भों को कहाँ देखना है। प्रत्येक संबंध को एक विशिष्ट संबंध आईडी द्वारा पहचाना जाता है और संदर्भित XML फ़ाइल को लक्ष्य के रूप में निर्दिष्ट करता है। एक नमूना संबंध फ़ाइल निम्नानुसार दिखाई गई है:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
सामग्री प्रकार
एक दस्तावेज़ में छवियों, विषयों, शब्द कला इत्यादि जैसे कई मीडिया प्रकार हो सकते हैं। [Content_Types].xml में दस्तावेज़ में मौजूद ऐसे मीडिया प्रकारों के बारे में जानकारी शामिल है। ऐसी XML फ़ाइल की सामग्री को निम्नानुसार दिखाया गया है:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
संसाधनों के संदर्भ - _rels/document.xml.rels
संसाधनों के बारे में जानकारी, जैसे दस्तावेज़ में एम्बेड की गई छवियां, इस XML फ़ाइल में संदर्भित हैं।
मुख्य दस्तावेज़ सामग्री
यह संग्रह की मुख्य XML फ़ाइल को संदर्भित करता है जिसमें दस्तावेज़ की पाठ्य सामग्री होती है। यह सामग्री ओपनऑफिस एक्सएमएल विनिर्देशों के अनुसार विभिन्न प्रकार के नोड्स द्वारा प्रस्तुत की जाती है। अधिकतर इस फाइल की सामग्री में पैराग्राफ और टेबल्स शामिल हैं, हालांकि उनके अन्य नोड भी हो सकते हैं।
फ़ाइल स्वरूप नोड्स
मुख्य दस्तावेज़.एक्सएमएल फ़ाइल फ़ाइल की समग्र सामग्री के प्रतिनिधित्व के लिए नोड्स का संग्रह है। प्रत्येक नोड का प्रारंभ और अंत होता है जो या तो आगे के नोड्स या सामग्री को समाहित करता है। ऐसी xml फ़ाइल का एक सरलीकृत उदाहरण इस प्रकार है:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
सामग्री के प्रतिनिधित्व के लिए DOCX फ़ाइल में निहित कुछ नोड्स के बारे में जानकारी निम्नलिखित है।
<w:document>
- फ़ाइल की मुख्य सामग्री के मूल तत्व का प्रतिनिधित्व करता है।
<w:body>
- दस्तावेज़ के मुख्य भाग का प्रतिनिधित्व करता है जिसमें पैराग्राफ, टेबल और सेक्शन जैसे कई अन्य तत्व नोड शामिल हो सकते हैं।
पैराग्राफ
दस्तावेज़ में अनुच्छेद मुख्य सामग्री धारक है। इसे ** द्वारा दर्शाया गया है<w:p> ** तत्व एक दस्तावेज़ के भीतर। एक पैराग्राफ में एक या एक से अधिक रन होते हैं **<w:r> ** जिसमें पैराग्राफ का वास्तविक पाठ है। रन के अलावा, पैराग्राफ में अन्य दस्तावेज़ तत्व भी हो सकते हैं जैसे हाइपरलिंक्स, टिप्पणियाँ, आदि। एक उदाहरण पैराग्राफ संरचना नीचे दी गई है:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>