Hva er en SAV-fil?
SAV-fil er en datafil opprettet av Statistical Package for the Social Sciences (SPSS), som er en applikasjon som er mye brukt av markedsforskere, helseforskere, undersøkelsesselskaper, myndigheter, utdanningsforskere, markedsføringsorganisasjoner, dataminere for statistisk analyse. SAV lagret i et proprietært binært format og består av et datasett samt en ordbok som representerer datasettet, lagrer data i rader og kolonner.
SAV-filformat
SAV-filformatet har blitt relativt stabilt, men vi kan ikke si det statisk. Bakover- og foroverkompatibilitet er valgfritt tilgjengelig der det er nødvendig, men vedlikeholdes ikke riktig. Dataene i en SAV-fil er kategorisert i følgende seksjoner:
Filoverskrift
Den består av 176 byte. De første 4 bytene indikerer strengen $FL2 eller $FL3 i tegnkodingen som brukes for filen. De tre siste bytene representerer at dataene i filen er komprimert med ZLIB. Den neste 60-byte strengen begynner @(#) SPSS DATA FILE og bestemmer også operativsystemet og SPSS-versjonen som opprettet filen. Overskriften fortsetter deretter med sekssifrede felt, som inneholder antall variabler per observasjon og en sifferkode for komprimering, og avsluttes med tegndata som indikerer opprettelsesdato og -klokkeslett og en filetikett.
Variable deskriptorposter
Posten inneholder en fast sekvens av felt, som klassifiserer typen og navnet på variabelen sammen med formateringsinformasjon brukt av SPSS. Hver variabelpost kan valgfritt inneholde en variabeletikett på opptil 120 tegn og opptil tre spesifikasjoner for manglende verdier.
Verdietiketter
Verdietikettene er valgfrie og lagret i par av poster med heltallsmerker 3 og 4. Den første posten som er tag 3 har en sekvens av par med felt, hvor hvert par inneholder en verdi og den tilhørende verdietiketten. Den andre posten som er tag 4, representerer hvilke variabler settet med verdier/etiketter gjelder for.
Dokumenter
Enkelt eller flere poster med heltallskode 6. Valgfri dokumentasjon. inneholder 80-tegnslinjer.
Utvidelsesposter
Enkelt eller flere poster med heltallskode 7. Utvidelsesposter gir informasjon som trygt kan ignoreres, men som i mange situasjoner bevares, gjør det mulig for filer skrevet av nyere programvare å bevare bakoverkompatibilitet. Utvidelsesposter har heltallsundertype-tagger.
Ordbokterminator
Registrer kun med heltallskode 999. Den skiller ordbok fra dataobservasjoner.
Dataobservasjoner
Det anses som data er i observasjonsrekkefølge, f.eks. alle variabelverdier for den første observasjonen, etterfulgt av alle verdiene for den andre observasjonen osv. Formatet på dataposten varierer avhengig av komprimeringskoden i filoverskriftsposten. Datadelen av en .sav-fil kan være ukomprimert:
- code 0: compressed by bytecode
- code 1: compressed using ZLIB compression