Tệp TXT là gì?
Một tệp có phần mở rộng .TXT đại diện cho một tài liệu văn bản chứa văn bản thuần túy ở dạng dòng. Các đoạn văn trong tài liệu văn bản được nhận dạng bằng dấu xuống dòng và được sử dụng để sắp xếp nội dung tệp tốt hơn. Một tài liệu văn bản tiêu chuẩn có thể được mở trong bất kỳ trình soạn thảo văn bản hoặc ứng dụng xử lý văn bản nào trên các hệ điều hành khác nhau. Tất cả văn bản chứa trong một tệp như vậy ở định dạng con người có thể đọc được và được biểu thị bằng chuỗi ký tự.
Các tệp văn bản có thể lưu trữ một lượng lớn dữ liệu vì không có giới hạn về kích thước của nội dung. Tuy nhiên, trình soạn thảo văn bản mở các tệp lớn như vậy cần phải thông minh để tải và hiển thị các tệp này. Hầu như tất cả các hệ điều hành đều có trình soạn thảo văn bản cho phép bạn tạo và chỉnh sửa tệp văn bản. Ví dụ: HĐH Windows đi kèm với Notepad và Wordpad cho mục đích này. Tương tự, MacOS đi kèm với TextEdit để tạo và chỉnh sửa Tài liệu văn bản. Tuy nhiên, có những trình soạn thảo văn bản miễn phí khác cũng như trên internet cung cấp cho bạn khả năng làm việc với Tài liệu văn bản như Notepad++ tiên tiến hơn nhiều về mặt chức năng.
Thông số kỹ thuật định dạng tệp
Định dạng tệp văn bản không có bất kỳ thông số định dạng tệp đặc biệt nào. Các tệp văn bản có loại MIME “văn bản/thuần túy” và có rất ít hoặc không có định dạng nào cả. Điều này cho phép người soạn thảo văn bản mở các tệp như vậy mà không cần bất kỳ yêu cầu nào khác. Bộ ký tự mặc định của tệp văn bản là ASCII được sử dụng để tạo và hiển thị nội dung tệp văn bản. Các ký tự được mã hóa bằng bộ ký tự ASCII, nhưng điều này áp đặt giới hạn sử dụng đối với các ký tự như ký hiệu Pound, đô la và ký hiệu Euro không thể được biểu diễn bằng bộ ký tự ASCII. Do đó, các tệp văn bản cũng có thể được lưu ở định dạng Unicode, với UTF-8 được sử dụng nhiều nhất.
Định dạng tệp văn bản Windows
Các tệp văn bản trên HĐH Windows bao gồm một số dòng trong đó mỗi dòng được tạo thành từ một chuỗi ký tự. Mỗi dòng ngụ ý của người dùng được xác định bằng sự kết hợp của hai ký tự, tức là ký tự xuống dòng (CR) và Nguồn cấp dữ liệu (LF). Các tệp văn bản Windows có thể ở dạng mã hóa ANSI, OEM, Unicode hoặc UTF-8. Mã hóa UTF-16 giúp lưu thông tin trong tệp văn bản yêu cầu hai byte để biểu diễn. Các tệp như vậy thường bắt đầu bằng Dấu thứ tự byte (BOM) cho biết độ bền của nội dung tệp. Cần lưu ý rằng các ứng dụng khác trên HĐH Windows có thể lưu trữ thông tin ở định dạng tệp văn bản nhưng với các phần mở rộng tệp khác nhau để thể hiện văn bản cụ thể của ứng dụng. Ví dụ, các ngôn ngữ lập trình thường lưu mã trong tệp văn bản nhưng có phần mở rộng riêng.
Định dạng tệp văn bản Unix
Tất cả các hệ thống như vậy xử lý tệp văn bản dưới dạng tệp có các ký tự được sắp xếp thành 0 hoặc nhiều dòng. Mỗi dòng là một chuỗi gồm 0 hoặc nhiều ký tự không phải dòng mới và ký tự dòng mới kết thúc, thường là LF.