什么是一 .sav 文件?
SAV 文件是由社会科学统计软件包 (SPSS) 创建的数据文件,该应用程序被市场研究人员、健康研究人员、调查公司、政府、教育研究人员、营销组织、数据挖掘人员广泛用于统计分析。 SAV 以专有二进制格式保存,由数据集和表示数据集的字典组成,以行和列的形式保存数据。
SAV 文件格式
SAV 文件格式已经变得相对稳定,但我们不能说它是静态的。必要时可以选择向后和向前兼容性,但未正确维护。 SAV 文件中的数据分为以下几部分:
文件头
它由 176 个字节组成。前 4 个字节表示文件使用的字符编码中的字符串 $FL2 或 $FL3。最后三个字节表示文件中的数据是使用ZLIB压缩的。下一个 60 字节字符串以 @(#) SPSS DATA FILE 开头,还确定了创建该文件的操作系统和 SPSS 版本。然后,标题以六位数字字段继续,包含每次观察的变量数和用于压缩的数字代码,并以指示创建日期和时间的字符数据和文件标签结束。
变量描述符记录
该记录包含固定的字段序列,将变量的类型和名称以及 SPSS 使用的格式信息分类。每个变量记录可以选择包含最多 120 个字符的变量标签和最多三个缺失值规范。
值标签
值标签是可选的,并存储在具有整数标签 3 和 4 的记录对中。标签 3 的第一条记录具有一系列字段对,每对包含一个值和相关的值标签。第二条记录是标签 4,表示该组值/标签适用于哪些变量。
文件
带有整数标签的单个或多个记录 6. 可选文档。包含 80 个字符的行。
扩展记录
带有整数标记的单个或多个记录 7. 扩展记录提供的信息可以安全地忽略,但在许多情况下会被保留,从而使新软件编写的文件能够保持向后兼容性。扩展记录具有整数子类型标签。
字典终止符
仅记录带有整数标签 999。它将字典与数据观察分开。
数据观察
它被认为是数据按观察顺序排列,例如第一次观察的所有变量值,其次是第二次观察的所有值等。数据记录的格式根据文件头记录中的压缩代码而有所不同。 .sav 文件的数据部分可以解压缩:
- code 0:按字节码压缩
- 代码 1:使用 ZLIB 压缩进行压缩