无损数据压缩是一种计算机方法,用于存储文件并将其合并到档案中,这种方法比文件在内存中占用的物理空间要少,而在此过程中数据所包含的任何信息都不会丢失。相比之下,有损压缩通过近似数据来减小文件大小,无损数据压缩的算...
无损数据压缩是一种计算机方法,用于存储文件并将其合并到档案中,这种方法比文件在内存中占用的物理空间要少,而在此过程中数据所包含的任何信息都不会丢失。相比之下,有损压缩通过近似数据来减小文件大小,无损数据压缩的算法本质上是一套简化的规则或指令,它使用较少的内存位对信息进行编码,同时仍能保持不经修改就将数据还原为其原始格式的能力。

无损数据压缩是一种在不丢失数据过程中包含的任何信息的情况下压缩文件的计算机方法。
包括国际商用机器公司(IBM)基于计算机的zip和基于Unix计算机的gzip文件存档。还使用图像文件格式,如图形交换格式(GIF)、可移植网络图形(PNG)和位图(BMP)文件。数据压缩算法也因压缩的文件类型而异,对于文本、音频和可执行程序文件,这两种主要的无损数据压缩算法基于输入数据的统计模型和数据文件中位串的映射模型。使用的常规统计算法是Burrows-Wheeler变换(BWT)、1977年发表的Abraham-Lempel和Jacob-Ziv(LZ77)算法以及部分匹配预测(PPM)方法,常用的映射算法包括Huffman编码算法和算术编码
有些算法是开源工具,有些是专利和专利,尽管有些算法的专利已经过期。这可能导致压缩方法有时应用于错误的文件格式。由于某些数据压缩方法彼此不兼容,存储混合文件通常会降低文件的一个组件。例如,压缩文本的图像文件一旦恢复,文本的可读性就会下降。使用语法归纳的扫描仪和软件可以通过应用所谓的潜在语义分析(LSA)从与图像文件一起存储的文本中提取含义。
无损数据的另一种映射算法方法压缩是使用通用代码。它比哈夫曼编码更灵活,它不需要提前知道最大整数值。然而,哈夫曼编码和算术编码确实能产生更好的数据压缩率。此外,还正在努力开发通用数据压缩方法,以产生算法这对各种来源都有效。