数据仓库存储了大量的数据,供不同领域使用。数据仓库的设计主要有两种:自顶向下和自下而上。这两种设计各有优缺点。自下而上实现起来更容易,成本更低,但不太完整,在自上而下的设计中,数据之间的连接是显而易见的,而且已经很...
数据仓库存储了大量的数据,供不同领域使用。数据仓库的设计主要有两种:自顶向下和自下而上。这两种设计各有优缺点。自下而上实现起来更容易,成本更低,但不太完整,在自上而下的设计中,数据之间的连接是显而易见的,而且已经很好地建立起来了,但是数据可能已经过时,系统的实现成本很高。

结构良好的数据仓库可以在以后挖掘并获得有价值的见解。数据集市是数据仓库设计的中心人物。数据集市是基于单个概念的数据集合。每个数据集市都是一个独特且完整的数据集市数据子集。这些集合中的每一个都在内部完全相关,通常与外部数据集市有连接。

数据仓库设计有两种主要类型:自顶向下和自下而上。数据集市的处理方式是这两种数据仓库设计风格的主要区别,数据集市是在数据被放入系统时自然产生的。在自下而上的设计中,数据集市是直接建立并连接在一起形成仓库的。虽然这看起来是一个微小的区别,但却有着截然不同的设计自顶向下的方法是原始的数据仓库设计,通过这种方法,组织所掌握的所有信息都被放入系统中,每个大的主题在数据库中都有自己的通用区域,当数据被使用时,相关数据点之间会出现连接,数据集市也会出现,系统中的任何数据都将永远保留在那里,即使这些数据被后来的信息所取代或忽略,它将作为过去事件的记录留在系统中。自下而上的数据仓库设计方法与此相反。一家公司将信息作为一个独立的数据集市。随着时间的推移,其他数据集被添加到系统中,要么作为它们自己的数据集市,要么作为已经存在的数据集市的一部分,它们合并成一个单元。两个数据仓库的设计各有优缺点。自顶向下的方法对于更小的数据集是一个巨大的项目。因为大项目的成本也更高,从资金和人力而言,这是最昂贵的。如果完成并维护数据仓库,它将是一个庞大的集合,包含公司所知道的一切。自下而上的过程更快、更便宜,但由于数据如果按需输入,则数据库将永远不会完整。此外,数据集市之间的关联性只有在使用时才足够强。如果存在强相关性,但没有用户看到,则该关联将断开。