Τι είναι ένα αρχείο SAV;
Το αρχείο SAV είναι ένα αρχείο δεδομένων που δημιουργήθηκε από το Statistical Package for the Social Sciences (SPSS), το οποίο είναι μια εφαρμογή που χρησιμοποιείται ευρέως από ερευνητές αγοράς, ερευνητές υγείας, εταιρείες ερευνών, κυβερνήσεις, εκπαιδευτικούς ερευνητές, οργανισμούς μάρκετινγκ, εξορύκτες δεδομένων για στατιστική ανάλυση. Το SAV αποθηκεύτηκε σε ιδιόκτητη δυαδική μορφή και αποτελείται από ένα σύνολο δεδομένων καθώς και από ένα λεξικό που αντιπροσωπεύει το σύνολο δεδομένων, αποθηκεύει δεδομένα σε σειρές και στήλες.
Μορφή αρχείου SAV
Η μορφή αρχείου SAV έχει γίνει σχετικά σταθερή, αλλά δεν μπορούμε να πούμε ότι είναι στατική. Η συμβατότητα προς τα πίσω και προς τα εμπρός είναι προαιρετικά διαθέσιμη όπου χρειάζεται, αλλά δεν διατηρείται σωστά. Τα δεδομένα σε ένα αρχείο SAV κατηγοριοποιούνται στις ακόλουθες ενότητες:
Κεφαλίδα αρχείου
Αποτελείται από 176 byte. Τα πρώτα 4 byte υποδεικνύουν τη συμβολοσειρά $FL2 ή $FL3 στην κωδικοποίηση χαρακτήρων που χρησιμοποιείται για το αρχείο. Τα τελευταία τρία byte αντιπροσωπεύουν ότι τα δεδομένα στο αρχείο συμπιέζονται χρησιμοποιώντας ZLIB. Η επόμενη συμβολοσειρά των 60 byte ξεκινά @(#) SPSS DATA FILE και προσδιορίζει επίσης το λειτουργικό σύστημα και την έκδοση SPSS που δημιούργησε το αρχείο. Στη συνέχεια, η κεφαλίδα συνεχίζει με πεδία έξι ψηφίων, που περιέχουν τον αριθμό των μεταβλητών ανά παρατήρηση και έναν κωδικό ψηφίου για συμπίεση, και τελειώνει με δεδομένα χαρακτήρων που υποδεικνύουν την ημερομηνία και την ώρα δημιουργίας και μια ετικέτα αρχείου.
Εγγραφές μεταβλητής περιγραφής
Η εγγραφή περιέχει μια σταθερή ακολουθία πεδίων, ταξινομώντας τον τύπο και το όνομα της μεταβλητής μαζί με τις πληροφορίες μορφοποίησης που χρησιμοποιούνται από το SPSS. Κάθε εγγραφή μεταβλητής μπορεί προαιρετικά να περιέχει μια ετικέτα μεταβλητής έως 120 χαρακτήρες και έως και τρεις προδιαγραφές τιμής που λείπουν.
Ετικέτες τιμών
Οι ετικέτες τιμών είναι προαιρετικές και αποθηκεύονται σε ζεύγη εγγραφών με ακέραιες ετικέτες 3 και 4. Η πρώτη εγγραφή που είναι η ετικέτα 3 έχει μια ακολουθία ζευγών πεδίων, κάθε ζεύγος περιέχει μια τιμή και τη σχετική ετικέτα τιμής. Η δεύτερη εγγραφή που είναι η ετικέτα 4, αντιπροσωπεύει ποιες μεταβλητές ισχύει το σύνολο τιμών/ετικέτες.
Έγγραφα
Μεμονωμένες ή πολλαπλές εγγραφές με ακέραια ετικέτα 6. Προαιρετική τεκμηρίωση. περιέχει γραμμές 80 χαρακτήρων.
Εγγραφές επέκτασης
Μεμονωμένες ή πολλαπλές εγγραφές με ακέραια ετικέτα 7. Οι εγγραφές επέκτασης παρέχουν πληροφορίες που μπορούν να αγνοηθούν με ασφάλεια, αλλά η διατήρησή τους, σε πολλές περιπτώσεις, επιτρέπει στα αρχεία που έχουν γραφτεί από νεότερο λογισμικό να διατηρήσουν τη συμβατότητα προς τα πίσω. Οι εγγραφές επεκτάσεων έχουν ετικέτες υποτύπου ακέραιου αριθμού.
Λεξικό τερματισμού
Εγγραφή μόνο με ακέραια ετικέτα 999. Διαχωρίζει το λεξικό από τις παρατηρήσεις δεδομένων.
Παρατηρήσεις δεδομένων
Θεωρείται ότι τα δεδομένα είναι σε σειρά παρατήρησης, π.χ. όλες οι τιμές μεταβλητών για την πρώτη παρατήρηση, ακολουθούμενες από όλες τις τιμές για τη δεύτερη παρατήρηση, κ.λπ. Η μορφή της εγγραφής δεδομένων ποικίλλει ανάλογα με τον κώδικα συμπίεσης στην εγγραφή κεφαλίδας αρχείου. Το τμήμα δεδομένων ενός αρχείου .sav μπορεί να αποσυμπιεστεί:
- κωδικός 0: συμπιεσμένος κατά bytecode
- κωδικός 1: συμπιέζεται με συμπίεση ZLIB