מהו קובץ SAV?
קובץ SAV הוא קובץ נתונים שנוצר על ידי החבילה הסטטיסטית למדעי החברה (SPSS), שהוא יישום בשימוש נרחב על ידי חוקרי שוק, חוקרי בריאות, חברות סקרים, ממשלה, חוקרי חינוך, ארגוני שיווק, כורי נתונים לניתוח סטטיסטי. ה-SAV נשמר בפורמט בינארי קנייני ומורכב ממערך נתונים וכן ממילון המייצג את מערך הנתונים, שומר נתונים בשורות ובעמודות.
פורמט קובץ SAV
פורמט הקובץ SAV הפך ליציב יחסית, אבל אנחנו לא יכולים לומר שהוא סטטי. תאימות אחורה וקדימה זמינה באופן אופציונלי במידת הצורך, אך אינה מתוחזקת כראוי. הנתונים בקובץ SAV מסווגים לסעיפים הבאים:
כותרת הקובץ
הוא מורכב מ-176 בתים. 4 הבתים הראשונים מציינים את המחרוזת $FL2 או $FL3 בקידוד התווים המשמש לקובץ. שלושת הבייטים האחרונים מייצגים שהנתונים בקובץ דחוסים באמצעות ZLIB. המחרוזת הבאה של 60 בתים מתחילה @(#) SPSS DATA FILE וקובעת גם את מערכת ההפעלה וגרסת ה-SPSS שיצרה את הקובץ. לאחר מכן הכותרת ממשיכה עם שש שדות ספרות, המכילים את מספר המשתנים לכל תצפית וקוד ספרתי לדחיסה, ומסתיימת בנתוני תווים המציינים תאריך ושעה של יצירה ותווית קובץ.
רשומות מתאר משתנים
הרשומה מכילה רצף קבוע של שדות, המסווגת את הסוג והשם של המשתנה יחד עם מידע עיצוב המשמש את SPSS. כל רשומת משתנה עשויה להכיל תווית משתנה של עד 120 תווים ועד שלושה מפרטי ערכים חסרים.
תוויות ערך
תוויות הערך הן אופציונליות ומאוחסנות בזוגות של רשומות עם תגיות שלמים 3 ו-4. לרשומה הראשונה שהיא תג 3 יש רצף של זוגות של שדות, כל זוג מכיל ערך ותווית הערך המשויכת. הרשומה השנייה שהיא תג 4, מייצגת על אילו משתנים חלה מערכת הערכים/התוויות.
מסמכים
רשומות בודדות או מרובות עם תג שלם 6. תיעוד אופציונלי. מכיל שורות של 80 תווים.
רשומות הרחבה
רשומות בודדות או מרובות עם תג שלם 7. רשומות הרחבה מספקות מידע שניתן להתעלם ממנו בבטחה, אך נשמר, במצבים רבים, מאפשר לקבצים שנכתבו על ידי תוכנות חדשות יותר לשמור על תאימות לאחור. לרשומות הרחבה יש תגי משנה שלמים.
מסיים מילון
הקלט רק עם תג שלם 999. זה מפריד בין מילון לתצפיות נתונים.
תצפיות נתונים
זה נחשב כנתונים בסדר תצפית, למשל כל ערכי המשתנים עבור התצפית הראשונה, ואחריהם כל הערכים עבור התצפית השנייה וכו’. הפורמט של רשומת הנתונים משתנה בהתאם לקוד הדחיסה ברשומת כותרת הקובץ. ניתן לבטל את הדחיסה של חלק הנתונים של קובץ .sav:
- קוד 0: דחוס על ידי bytecode
- קוד 1: דחוס באמצעות דחיסת ZLIB