Τι είναι ένα αρχείο DOCX;
Το DOCX είναι μια πολύ γνωστή μορφή για έγγραφα του Microsoft Word. Παρουσιάστηκε από το 2007 με την κυκλοφορία του Microsoft Office 2007, η δομή αυτής της νέας μορφής Εγγράφου άλλαξε από απλό δυαδικό σε συνδυασμό XML και δυαδικών αρχείων. Τα αρχεία Docx μπορούν να ανοίξουν με το Word 2007 και τις πλευρικές εκδόσεις, αλλά όχι με τις προηγούμενες εκδόσεις του MS Word που υποστηρίζουν επεκτάσεις αρχείων DOC.
Σύντομη Ιστορία
Αφού η Microsoft άνοιξε τις προδιαγραφές για τη μορφή αρχείου DOC, ήταν εύκολο για τους ανταγωνιστές της να αναθεωρήσουν τη μορφή και να παρέχουν την ίδια υποστήριξη στις δικές τους εφαρμογές. Επιπλέον, ο ανταγωνισμός από το Open Office με τη μορφή του Open Document Format, ανάγκασε τη Microsoft να υιοθετήσει πιο ανοιχτά και ευρύτερα πρότυπα. Ήταν στις αρχές του 2000 όταν η Microsoft αποφάσισε να προχωρήσει στην αλλαγή για να καλύψει το πρότυπο για το Office Open XML. Τα έγγραφα βάσει αυτού του νέου Προτύπου δόθηκαν .docx extension, το “X” είναι για XML. Μέχρι το 2007, αυτή η νέα μορφή αρχείου έγινε μέρος του Office 2007 και εφαρμόζεται και στις νέες εκδόσεις του Microsoft Office. Ο νέος τύπος αρχείου έχει προσθέσει πλεονεκτήματα μικρών μεγεθών αρχείων, λιγότερων αλλαγών φθοράς και καλής μορφοποίησης αναπαράστασης εικόνων.
Προδιαγραφές μορφής αρχείου DOCX - Περισσότερες πληροφορίες
Ένα αρχείο Docx αποτελείται από μια συλλογή αρχείων XML που περιέχονται μέσα σε ένα αρχείο ZIP. Τα περιεχόμενα ενός νέου εγγράφου του Word μπορούν να προβληθούν αποσυμπιέζοντας τα περιεχόμενά του. Η συλλογή περιέχει μια λίστα αρχείων XML που κατηγοριοποιούνται ως:
- Αρχεία Μεταδεδομένων - περιέχει πληροφορίες για άλλα αρχεία που είναι διαθέσιμα στο αρχείο
- Έγγραφο - περιέχει το πραγματικό περιεχόμενο του εγγράφου
Αρχεία μεταδεδομένων
Το Microsoft Word χρησιμοποιεί αυτά τα αρχεία για να βρει τη σχέση μεταξύ των αρχείων και να εντοπίσει τα περιεχόμενα του εγγράφου. Όταν εξάγεται ένα αρχείο εγγράφων του Word, περιέχει έναν αριθμό τέτοιων αρχείων όπως περιγράφεται παρακάτω.
Σχέσεις - _rels/.rels
Αυτό το αρχείο περιέχει πληροφορίες που λένε στο MS Word πού να αναζητήσει τα περιεχόμενα του εγγράφου και άλλες αναφορές. Κάθε σχέση προσδιορίζεται από ένα μοναδικό αναγνωριστικό σχέσης και προσδιορίζει το αναφερόμενο αρχείο XML ως στόχο. Ένα δείγμα αρχείου σχέσης εμφανίζεται ως εξής:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
Τύποι περιεχομένου
Ένα έγγραφο μπορεί να περιέχει διάφορους τύπους πολυμέσων μέσα, όπως εικόνες, θέματα, word art, κ.λπ. Το [Content_Types].xml περιέχει πληροφορίες σχετικά με τέτοιους τύπους μέσων που υπάρχουν στο έγγραφο. Τα περιεχόμενα ενός τέτοιου αρχείου XML εμφανίζονται ως εξής:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
Αναφορές σε πόρους - _rels/document.xml.rels
Πληροφορίες σχετικά με πόρους, όπως εικόνες που είναι ενσωματωμένες στο έγγραφο, αναφέρονται σε αυτό το αρχείο XML.
Περιεχόμενα κύριου εγγράφου
Αυτό αναφέρεται στο κύριο αρχείο XML του αρχείου που περιέχει το περιεχόμενο κειμένου του εγγράφου. Αυτό το περιεχόμενο αντιπροσωπεύεται από ποικιλία κόμβων σύμφωνα με τις προδιαγραφές του OpenOffice XML. Κυρίως τα περιεχόμενα αυτού του αρχείου αποτελούνται από Παραγράφους και Πίνακες, αν και μπορεί να είναι και άλλοι κόμβοι.
Κόμβοι μορφής αρχείου
Το κύριο αρχείο document.xml είναι μια συλλογή κόμβων για την αναπαράσταση του συνολικού περιεχομένου ενός αρχείου. Κάθε κόμβος έχει μια αρχή και ένα τέλος που ενσωματώνει είτε άλλους κόμβους είτε τα περιεχόμενα. Ένα απλοποιημένο παράδειγμα ενός τέτοιου αρχείου xml είναι το ακόλουθο:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
Ακολουθούν οι πληροφορίες σχετικά με ορισμένους από τους κόμβους που περιέχονται σε ένα αρχείο DOCX για την αναπαράσταση των περιεχομένων.
<w:document>
- Αντιπροσωπεύει το ριζικό στοιχείο του κύριου περιεχομένου του αρχείου.
<w:body>
- Αντιπροσωπεύει το σώμα του εγγράφου που μπορεί να αποτελείται από πολλούς άλλους κόμβους στοιχείων όπως παραγράφους, πίνακες και ενότητες.
Παράγραφοι
Μια παράγραφος είναι ο κύριος κάτοχος περιεχομένου σε ένα έγγραφο. Αντιπροσωπεύεται από **<w:p> ** στοιχείο σε ένα έγγραφο. Μια παράγραφος αποτελείται περαιτέρω από μία ή περισσότερες εκτελέσεις **<w:r> ** που περιέχει το πραγματικό κείμενο της παραγράφου. Εκτός από τις εκτελέσεις, οι παράγραφοι μπορεί επίσης να περιέχουν άλλα στοιχεία εγγράφου, όπως υπερσυνδέσμους, σχόλια, κ.λπ. Ένα παράδειγμα δομής παραγράφου είναι όπως φαίνεται παρακάτω:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>