ไฟล์ DOCX คืออะไร??
DOCX เป็นรูปแบบที่รู้จักกันดีสำหรับเอกสาร Microsoft Word เปิดตัวตั้งแต่ปี 2550 พร้อมกับการเปิดตัว Microsoft Office 2007 โครงสร้างของรูปแบบเอกสารใหม่นี้เปลี่ยนจากไบนารีธรรมดาเป็นไฟล์ XML และไบนารีรวมกัน ไฟล์ Docx สามารถเปิดได้ด้วย Word 2007 และเวอร์ชันด้านข้าง แต่ไม่ใช่กับ MS Word เวอร์ชันก่อนหน้าซึ่งรองรับนามสกุลไฟล์ DOC
ประวัติย่อ
หลังจากที่ Microsoft เปิดข้อกำหนดสำหรับรูปแบบไฟล์ DOC แล้ว คู่แข่งก็สามารถทำวิศวกรรมย้อนกลับรูปแบบและให้การสนับสนุนแบบเดียวกันในแอปพลิเคชันของตนเองได้อย่างง่ายดาย นอกจากนี้ การแข่งขันจาก Open Office ในรูปแบบของ Open Document Format ทำให้ Microsoft ต้องใช้มาตรฐานที่เปิดกว้างและกว้างขวางมากขึ้น ในช่วงต้นปี 2000 Microsoft ตัดสินใจทำการเปลี่ยนแปลงเพื่อรองรับมาตรฐานสำหรับ Office Open XML เอกสารภายใต้มาตรฐานใหม่นี้มี นามสกุล .docx ตัว “X” เป็น XML ภายในปี 2550 รูปแบบไฟล์ใหม่นี้กลายเป็นส่วนหนึ่งของ Office 2007 และใช้ใน Microsoft Office เวอร์ชันใหม่ด้วย ไฟล์ประเภทใหม่ได้เพิ่มข้อดีของขนาดไฟล์ที่เล็ก การเปลี่ยนแปลงความเสียหายน้อยลง และการแสดงรูปภาพที่มีรูปแบบเหมาะสม
ข้อมูลจำเพาะรูปแบบไฟล์ DOCX - ข้อมูลเพิ่มเติม
ไฟล์ Docx ประกอบด้วยชุดไฟล์ XML ที่มีอยู่ในไฟล์ ZIP เนื้อหาของเอกสาร Word ใหม่สามารถดูได้โดยการคลายซิปเนื้อหา คอลเลกชันประกอบด้วยรายการไฟล์ XML ที่จัดประเภทเป็น:
- ไฟล์ MetaData - มีข้อมูลเกี่ยวกับไฟล์อื่น ๆ ที่มีอยู่ในไฟล์เก็บถาวร
- เอกสาร - มีเนื้อหาจริงของเอกสาร
ไฟล์ข้อมูลเมตา
Microsoft Word ใช้ไฟล์เหล่านี้เพื่อค้นหาความสัมพันธ์ระหว่างไฟล์และค้นหาเนื้อหาของเอกสาร เมื่อแยกเอกสารที่เก็บถาวรของเอกสาร Word จะมีไฟล์ดังกล่าวจำนวนหนึ่งตามรายละเอียดด้านล่าง
ความสัมพันธ์ - _rels/.rels
ไฟล์นี้มีข้อมูลที่บอก MS Word ว่าจะค้นหาเนื้อหาเอกสารและข้อมูลอ้างอิงอื่นๆ ได้ที่ไหน แต่ละความสัมพันธ์จะถูกระบุด้วยรหัสความสัมพันธ์ที่ไม่ซ้ำกัน และระบุไฟล์ XML ที่อ้างอิงเป็นเป้าหมาย ไฟล์ความสัมพันธ์ตัวอย่างแสดงดังต่อไปนี้:
<Relationship Id#"rId1" Type#"http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target#"word/document.xml"/>.
ประเภทเนื้อหา
เอกสารสามารถมีสื่อหลายประเภทอยู่ภายใน เช่น รูปภาพ ธีม อักษรศิลป์ ฯลฯ [Content_Types].xml มีข้อมูลเกี่ยวกับประเภทสื่อดังกล่าวที่มีอยู่ในเอกสาร เนื้อหาของไฟล์ XML ดังกล่าวแสดงดังต่อไปนี้:
<Override PartName#"/word/document.xml" ContentType#"application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
การอ้างอิงถึงทรัพยากร - _rels/document.xml.rels
ข้อมูลเกี่ยวกับทรัพยากร เช่น รูปภาพที่ฝังอยู่ในเอกสาร จะถูกอ้างอิงในไฟล์ XML นี้
เนื้อหาเอกสารหลัก
ซึ่งอ้างอิงถึงไฟล์ XML หลักของไฟล์เก็บถาวรที่มีเนื้อหาข้อความของเอกสาร เนื้อหานี้แสดงโดยโหนดต่างๆ ตามข้อกำหนด OpenOffice XML เนื้อหาส่วนใหญ่ของไฟล์นี้ประกอบด้วยย่อหน้าและตาราง แม้ว่าจะเป็นโหนดอื่นๆ ก็ได้
โหนดรูปแบบไฟล์
ไฟล์ document.xml หลักคือชุดของโหนดสำหรับการแสดงเนื้อหาโดยรวมของไฟล์ แต่ละโหนดมีจุดเริ่มต้นและจุดสิ้นสุดที่ห่อหุ้มโหนดเพิ่มเติมหรือเนื้อหา ตัวอย่างอย่างง่ายของไฟล์ xml ดังกล่าวมีดังต่อไปนี้:
<w:document>
<w:body>
<w:p w:rsidR#"005F670F" w:rsidRDefault#"005F79F5">
<w:r><w:t>Example Document</w:t></w:r>
</w:p>
<w:sectPr w:rsidR#"005F670F">
<w:pgSz w:w#"12240" w:h#"15840"/>
<w:pgMar w:top#"1440" w:right#"1440" w:bottom#"1440" w:left#"1440" w:header#"720" w:footer#"720"
w:gutter#"0"/>
<w:cols w:space#"720"/>
<w:docGrid w:linePitch#"360"/>
</w:sectPr>
</w:body>
</w:document>
ต่อไปนี้เป็นข้อมูลเกี่ยวกับโหนดบางส่วนที่มีอยู่ในไฟล์ DOCX สำหรับการแสดงเนื้อหา
<w:document>
- แสดงถึงองค์ประกอบรากของเนื้อหาหลักของไฟล์
<w:body>
- แสดงถึงเนื้อหาของเอกสารซึ่งอาจประกอบด้วยโหนดองค์ประกอบอื่นๆ มากมาย เช่น ย่อหน้า ตาราง และส่วนต่างๆ
ย่อหน้า
ย่อหน้าเป็นผู้ถือเนื้อหาหลักภายในเอกสาร แสดงโดย **<w:p> ** องค์ประกอบภายในเอกสาร ย่อหน้าเพิ่มเติมประกอบด้วยการเรียกใช้อย่างน้อยหนึ่งรายการ **<w:r> ** ที่มีข้อความจริงของย่อหน้า นอกจากการเรียกใช้แล้ว ย่อหน้ายังอาจมีองค์ประกอบอื่นๆ ของเอกสาร เช่น ไฮเปอร์ลิงก์ ข้อคิดเห็น เป็นต้น โครงสร้างย่อหน้าตัวอย่างมีดังต่อไปนี้:
<w:p>
<w:pPr>
<w:pStyle> w:val#"MyStyle"/>
<w:spacing w:before#"120" w:after#"120"/>
</w:pPr>
<w:r>
<w:t xml"space#"preserve">A paragraph is main container in a document that further consists of a one or more runs where the text of paragraph is actually contained.</w:t>
</w:r>
</w:p>