数据冗余是发生在数据库系统中的一种情况,包括无意中创建数据库功能所不需要的重复数据。虽然在某些情况下,冗余通常是一种理想的特性,但当涉及到数据库的功能时,这是不正确的。重复数据的存在可以经常对系统的功能产生不...
数据冗余是发生在数据库系统中的一种情况,包括无意中创建数据库功能所不需要的重复数据。虽然在某些情况下,冗余通常是一种理想的特性,但当涉及到数据库的功能时,这是不正确的。重复数据的存在可以经常对系统的功能产生不利影响,数据管理的关键功能之一是识别重复数据并删除这些重复数据。

有些系统会标记重复数据的输入,这样就可以很容易地检查感知到的重复并决定是删除还是允许它。
几乎所有类型的数据库程序都存在数据冗余的可能性。被认为是平面的程序,如电子表格,而且依靠人工输入数据特别容易出现重复信息,这可能导致在检索所需信息时出现复杂情况。关系型数据库,如销售联系人数据库,通常包括有助于将无意重复的机会降至最低的过程,例如,在同一公司的同一联系人上创建两个不同的联系人文件。即使使用系统检查来帮助减少数据冗余的发生率,仍然有可能发生问题,因此有必要定期在数据库中执行数据清理任务。
充其量,数据冗余意味着数据库中充斥着不必要的信息,但对在需要时查找数据的能力没有真正的威胁最坏的情况是,重复数据的存在会减慢数据库的基本功能,并可能使使用数据库管理某些任务的过程复杂化。例如,使用一个被冗余信息阻塞的客户数据库来生成邮件标签,将导致创建多个重复级别,在使用标签之前必须对重复项进行排序和处理,或者在尝试生成标签之前花时间清理数据库。
幸运的是,监控和纠正数据冗余是许多数据管理系统可以相对轻松地完成的工作。有些系统会标记重复数据的输入,从而便于检查感知到的重复,并决定是删除还是允许它保留。甚至还有一些软件程序可用于扫描一个用于复制的现有数据库,并相对容易地自动删除那些多余的条目。