Μορφή αρχείου PDF - Τι είναι ένα αρχείο PDF;
Το Portable Document Format (PDF) είναι ένας τύπος εγγράφου που δημιουργήθηκε από την Adobe στη δεκαετία του 1990. Ο σκοπός αυτής της μορφής αρχείου ήταν να εισαγάγει ένα πρότυπο για την αναπαράσταση εγγράφων και άλλου υλικού αναφοράς σε μορφή που να είναι ανεξάρτητη από το λογισμικό εφαρμογής, το υλικό καθώς και το λειτουργικό σύστημα. Η μορφή αρχείου PDF έχει πλήρη δυνατότητα να περιέχει πληροφορίες όπως κείμενο, εικόνες, υπερσυνδέσμους, πεδία φόρμας, εμπλουτισμένα μέσα, ψηφιακές υπογραφές, συνημμένα, μεταδεδομένα, γεωχωρικά χαρακτηριστικά και τρισδιάστατα αντικείμενα σε αυτήν που μπορούν να γίνουν μέρος του εγγράφου προέλευσης.
Στις περισσότερες περιπτώσεις, τα υπάρχοντα έγγραφα μετατρέπονται σε PDF αντί να δημιουργούν ένα νέο PDF από την αρχή. Αλλά αυτό δεν σημαίνει ότι δεν υπάρχει λογισμικό για τη δημιουργία ή τον χειρισμό αρχείων PDF.
(Πρέπει να μοιραστείτε κάτι σχετικά με τη μορφή αρχείου PDF; Μπορείτε να δημοσιεύσετε τα ευρήματά σας στην ενότητα Ειδήσεις μορφής αρχείου PDF.)
Μορφή αρχείου PDF - Σύντομο ιστορικό
Μια γρήγορη ανάλυση του χρονοδιαγράμματος σχετικά με το σχηματισμό αρχείου PDF όσον αφορά το χρονοδιάγραμμα έχει ως εξής:
1993 - Η Adobe Systems έκανε τις προδιαγραφές PDF διαθέσιμες δωρεάν
2008 - Το PDF κυκλοφόρησε ως ανοιχτό πρότυπο την 1η Ιουλίου 2008 και δημοσιεύτηκε από τον Διεθνή Οργανισμό Τυποποίησης ως ISO 32000-1:2008.
2008 - Η Adobe δημοσίευσε μια άδεια δημόσιας ευρεσιτεχνίας για δικαιώματα χωρίς δικαιώματα σε μορφή ISO 32000-1 για όλες τις πατέντες που ανήκουν στην Adobe και είναι απαραίτητες για τη δημιουργία, τη χρήση, την πώληση και τη διανομή υλοποιήσεων συμβατών με PDF.
Η πρώτη έκδοση του PDF ορίστηκε ως PDF 1.0, η οποία αργότερα υποβλήθηκε σε αναθεωρήσεις έως το PDF 1.7. Το PDF 1.7, το οποίο έγινε το ISO 32000-1, περιλαμβάνει ορισμένες μη τυποποιημένες αποκλειστικές τεχνολογίες, όπως το Adobe XML Forms Architecture (XFA) και την επέκταση JavaScript για Acrobat. Ήταν στις 28 Ιουλίου 2017 όταν δημοσιεύτηκε το PDF 2.0, γνωστό ως ISO 32000-2:2017, το οποίο δεν περιλαμβάνει μη τυποποιημένες τεχνολογίες.
Προδιαγραφές μορφής αρχείου PDF
Ένα αρχείο PDF είναι ένα σύνολο byte που μπορούν να ομαδοποιηθούν σε διακριτικά σύμφωνα με κανόνες σύνταξης που ορίζονται από τις προδιαγραφές PDF. Μία ή περισσότερες μάρκες συνδυάζονται για να σχηματίσουν συντακτικές οντότητες υψηλότερου επιπέδου, κυρίως αντικείμενα, που είναι οι βασικές τιμές δεδομένων από τις οποίες δημιουργείται ένα έγγραφο PDF.
Δομή αρχείου αρχείων PDF
Τα περιεχόμενα του αρχείου PDF ταξινομούνται με την ακόλουθη σειρά μέσα στο αρχείο.
|Κεφαλίδα | Σώμα |Πίνακας διασταυρούμενης αναφοράς |Τρέιλερ
Κεφαλίδα αρχείου PDF
Ανεξάρτητα από την έκδοση PDF, ένα αρχείο PDF ξεκινά με μια κεφαλίδα που περιέχει μοναδικό αναγνωριστικό για PDF και την έκδοση της μορφής, όπως %PDF-1.x όπου το x κυμαίνεται από 1-7.
Σώμα αρχείου
Το σώμα ενός αρχείου PDF αποτελείται από μια ακολουθία έμμεσων αντικειμένων που αντιπροσωπεύουν τα περιεχόμενα ενός εγγράφου. Τα αντικείμενα, όπως περιγράφεται παραπάνω, αντιπροσωπεύουν στοιχεία του εγγράφου, όπως γραμματοσειρές, σελίδες και δείγματα εικόνων. Ξεκινώντας με το PDF 1.5, το σώμα μπορεί επίσης να περιέχει ροές αντικειμένων, καθένα από τα οποία περιέχει μια ακολουθία έμμεσων αντικειμένων.
Πίνακας διασταυρώσεων
Ο πίνακας παραπομπής περιέχει πληροφορίες που επιτρέπουν την τυχαία πρόσβαση σε έμμεσα αντικείμενα μέσα στο αρχείο, έτσι ώστε να μην χρειάζεται να διαβαστεί ολόκληρο το αρχείο για να εντοπιστεί κάποιο συγκεκριμένο αντικείμενο. Ο πίνακας θα περιέχει μια καταχώρηση μιας γραμμής για κάθε έμμεσο αντικείμενο, προσδιορίζοντας τη μετατόπιση byte αυτού του αντικειμένου εντός του σώματος του αρχείου. (Ξεκινώντας με το PDF 1.5, ορισμένες ή όλες οι πληροφορίες διασταύρωσης μπορεί εναλλακτικά να περιέχονται σε ροές διασταυρούμενης αναφοράς.
Τρέιλερ αρχείου
Το τρέιλερ ενός αρχείου PDF δίνει τη δυνατότητα σε έναν συμβατό αναγνώστη να βρει γρήγορα τον πίνακα παραπομπών και ορισμένα ειδικά αντικείμενα. Οι συμμορφούμενοι αναγνώστες θα πρέπει να διαβάσουν ένα αρχείο PDF από το τέλος του. Η τελευταία γραμμή του αρχείου θα περιέχει μόνο τον δείκτη τέλους του αρχείου, %%EOF. Οι δύο προηγούμενες γραμμές περιέχουν, μία ανά γραμμή και με τη σειρά, τη λέξη-κλειδί startxref και τη μετατόπιση byte στην αποκωδικοποιημένη ροή από την αρχή του αρχείου έως την αρχή της λέξης-κλειδιού xref στην τελευταία ενότητα διασταύρωσης.
Αντικείμενα PDF
Ένα αρχείο PDF περιλαμβάνει πολλούς διαφορετικούς τύπους αντικειμένων που είναι των παρακάτω τύπων
- Τιμές Boolean - που αντιπροσωπεύουν αληθές ή ψευδές υπό όρους
- Αριθμοί - Ακέραιες και Πραγματικές τιμές
- Συμβολοσειρές - περιέχει χαρακτήρες μέσα σε παρένθεση
- Ονόματα - ξεκινήστε με ένα προς τα εμπρός / χαρακτήρα π.χ. /ASomewhatLongerName καταλήγει σε ASomewhatLongerName
- Πίνακες - Το PDF υποστηρίζει μονοδιάστατους πίνακες. Πίνακες υψηλότερων διαστάσεων μπορούν να κατασκευαστούν χρησιμοποιώντας πίνακες ως ένθετα στοιχεία
- Λεξικά - συλλογή αντικειμένων ως ζεύγη κλειδιών-τιμών. Μπορεί να έχει μηδενικές καταχωρήσεις.
- Ροές - αντιπροσωπεύει μια ακολουθία byte που μπορεί επίσης να είναι απεριόριστου μήκους
- Null Object - αντιπροσωπεύει μια μηδενική τιμή
Μπορεί να υπάρχουν άλλα αντικείμενα όπως σχόλια που εισάγονται με το σύμβολο % και μπορεί να περιέχουν χαρακτήρες 8 bit.
Έμμεσα αντικείμενα
Οποιοδήποτε αντικείμενο σε ένα αρχείο PDF μπορεί να χαρακτηριστεί ως έμμεσο αντικείμενο. Στα έμμεσα αντικείμενα δίνεται μοναδικό αναγνωριστικό αντικειμένου με το οποίο άλλα αντικείμενα μπορούν να αναφέρονται σε αυτό. Οι παραπομπές σε αυτά διατηρούνται σε έναν πίνακα ευρετηρίου και σημειώνονται με τη λέξη-κλειδί xref που ακολουθεί το κύριο σώμα και δίνει τη μετατόπιση byte για κάθε έμμεσο αντικείμενο από την αρχή του αρχείου.
Γραμμικές και μη γραμμικές διατάξεις PDF
Οι διατάξεις PDF κατηγοριοποιούνται ως Llnear και μη γραμμικές ανάλογα με τις εφαρμογές-στόχους και άλλους παράγοντες.
Μη γραμμικό - Τα μη γραμμικά αρχεία PDF χρησιμοποιούν λιγότερο χώρο στο δίσκο σε σύγκριση με τα γραμμικά αρχεία PDF. Οι σελίδες PDF του εγγράφου βρίσκονται σε διάσπαρτη μορφή στο αρχείο PDF και αυτός είναι ο λόγος που τα μη γραμμικά αρχεία είναι πιο αργά σε σύγκριση με τα γραμμικά αρχεία.
Γραμμικό PDF - Στόχευση διαδικτυακών προγραμμάτων προβολής PDF, τα γραμμικά αρχεία PDF είναι κατασκευασμένα με τέτοιο τρόπο ώστε να εγγράφονται στο δίσκο με γραμμικό τρόπο. Αυτό δεν απαιτεί πρόσθετα προγράμματος περιήγησης για να φορτώσει πρώτα ολόκληρο το έγγραφο πριν από την εμφάνιση.
Επισκόπηση αντικειμένων
Όπως αναφέρθηκε, το σώμα PDF είναι μια συλλογή αντικειμένων που αναφέρονται παραπάνω. Το PDF βασίζεται σε μεγάλο βαθμό στο PostScript χωρίς τα χαρακτηριστικά ελέγχου των γλωσσών προγραμματισμού όπως οι εντολές if και loop. Οι εντολές που εκδίδονται από τον Postscript κώδικα για τη δημιουργία γραφικών περιεχομένων συλλέγονται και κωδικοποιούνται επιπλέον των αρχείων, γραφικών ή γραμματοσειρών που αναφέρονται από το έγγραφο. Όλα αυτά τα περιεχόμενα συγκεντρώνονται σε ένα μόνο αρχείο, με αποτέλεσμα την έξοδο PostScript με σύνθεση.
Κείμενο
Το κείμενο σε PDF αντιπροσωπεύεται από στοιχεία κειμένου που στην πραγματικότητα εμφανίζονται με γλυφές από γραμματοσειρές. Η γλυφή είναι ένα γραφικό σχήμα και υπόκειται σε όλους τους γραφικούς χειρισμούς, όπως ο μετασχηματισμός συντεταγμένων. Λόγω της σημασίας του κειμένου στις περισσότερες περιγραφές σελίδων, το PDF παρέχει ευκολίες υψηλότερου επιπέδου για την περιγραφή, την επιλογή και την απόδοση των γλυφών εύκολα και αποτελεσματικά.
Γραφικά
Οι τελεστές γραφικών που χρησιμοποιούνται σε ροές περιεχομένου PDF περιγράφουν την εμφάνιση των σελίδων που πρόκειται να αναπαραχθούν σε μια συσκευή εξόδου ράστερ. Οι εγκαταστάσεις προορίζονται τόσο για εφαρμογές εκτυπωτή όσο και για εφαρμογές οθόνης. Οι τελεστές γραφικών αποτελούν έξι κύριες ομάδες:
- Οι τελεστές κατάστασης γραφικών χειρίζονται τη δομή δεδομένων που ονομάζεται κατάσταση γραφικών, το παγκόσμιο πλαίσιο εντός του οποίου εκτελούν οι άλλοι τελεστές γραφικών. Η κατάσταση γραφικών περιλαμβάνει τον τρέχοντα πίνακα μετασχηματισμού (CTM), ο οποίος αντιστοιχίζει τις συντεταγμένες του χώρου χρήστη που χρησιμοποιούνται σε μια ροή περιεχομένου PDF σε συντεταγμένες συσκευής εξόδου. Περιλαμβάνει επίσης το τρέχον χρώμα, την τρέχουσα διαδρομή αποκοπής και πολλές άλλες παραμέτρους που είναι σιωπηροί τελεστές των τελεστών ζωγραφικής.
- Οι χειριστές κατασκευής μονοπατιών καθορίζουν μονοπάτια, τα οποία ορίζουν σχήματα, τροχιές γραμμής και περιοχές διαφόρων ειδών. Περιλαμβάνουν τελεστές για την έναρξη μιας νέας διαδρομής, την προσθήκη τμημάτων γραμμής και καμπυλών σε αυτήν και το κλείσιμό της.
- Οι χειριστές Path-painting γεμίζουν μια διαδρομή με ένα χρώμα, ζωγραφίζουν μια διαδρομή κατά μήκος της ή τη χρησιμοποιούν ως όριο αποκοπής.
- Άλλοι χειριστές ζωγραφικής ζωγραφίζουν συγκεκριμένα αντικείμενα γραφικών που αυτοπεριγραφούν. Αυτά περιλαμβάνουν δειγματοληπτικές εικόνες, γεωμετρικά καθορισμένες σκιάσεις και ολόκληρες ροές περιεχομένου που με τη σειρά τους περιέχουν ακολουθίες τελεστών γραφικών.
- Οι χειριστές κειμένου επιλέγουν και εμφανίζουν γλυφές χαρακτήρων από γραμματοσειρές (περιγραφές γραμματοσειρών για την αναπαράσταση χαρακτήρων κειμένου). Επειδή το PDF αντιμετωπίζει τα γλυφά ως γενικά γραφικά σχήματα, πολλοί από τους τελεστές κειμένου θα μπορούσαν να ομαδοποιηθούν με τους τελεστές κατάστασης γραφικών ή ζωγραφικής. Ωστόσο, οι δομές δεδομένων και οι μηχανισμοί για την αντιμετώπιση των περιγραφών γλυφών και γραμματοσειρών είναι επαρκώς εξειδικευμένοι.
- Οι χειριστές επισημασμένου περιεχομένου συσχετίζουν λογικές πληροφορίες υψηλότερου επιπέδου με αντικείμενα στη ροή περιεχομένου. Αυτές οι πληροφορίες δεν επηρεάζουν την εμφάνιση του περιεχομένου. Είναι χρήσιμο σε εφαρμογές που χρησιμοποιούν PDF για ανταλλαγή εγγράφων.