首页 >> 企业数据质量管理解决方案 >> 数据仓库的数据质量
about-us

《企业数据质量管理解决方案》相关方案

数据仓库项目遭遇失败最根本的原因还是数据质量。

数据质量问题所表现出来的几种典型情况:
1.数据不完整。这种情况比较多,例如记录的缺失、字段信息的缺失、记录不完整等。最明显的例子就是用户入网登记的证件号码没有输入到系统。
2.数据不一致。这种情况主要指由于系统之间或者功能模块之间记录不一致、编码不一致、引用不一致等。例如在97系统、计费系统、网管系统中由于业务受理处理流程不规范,或者系统之间同步时间不一致导致了不同系统中用户记录数不一致。
3.数据有错误。这种情况主要是指数据中存在各种不合法的情况,例如数据类型错误、数据范围越界、数据违反业务规则等。

除了第三种情况是明显的数据错误之外,其他两种都不能简单地认为是错误,这两种情况在数据仓库建设中是比较普遍遇到的,关键是对数据质量的状况有深入的认识,在应用上加以注意。而关于数据仓库体系流程的三个可能出现数据质量问题的环节,如下所述:

数据源

不可否认,数据质量问题有些是从生产系统带入到数据仓库的。在生产系统长期运作的过程中,很可能会引入一些噪音数据,直到有一天被数据仓库采集,并且被加工使用得出意外的结果之后,才发现有这个问题存在,这种情况在生产系统中并不少见。

ETL过程

  • 数据抽取:从源系统中抽取数据,一般要编制数据抽取代码或者借助一些工具配置进行数据抽取,在这个过程,可能会出现编码错误或者工具配置不当,导致原始数据正确而抽取出来的数据不正确。
  • 数据转换:数据抽取完成之后,如果数据形式不一样还需要做形式的一致化处理,一致化处理如果不当就会引入数据质量问题
  • 数据加载:数据转换完成之后要进行数据加载,在系统运作时可能会出现重复加载或者加载失败的情况,会导致数据量异常。

数据应用

在数据经过ETL之后,进入系统的应该是规范化的数据,用户一般是通过应用界面来访问数据,如果应用访问逻辑有误,输出的结果也会有问题,最常见的就是多表连接时,关联条件不正确,导致结果也不对。

在了解了数据质量的分类情况和可能产生数据质量问题的各个关键点和原因后,下一步是针对不同情况采取不同的措施,从而提升数据质量。

Trillium软件系统可以通过改善企业所有数据质量,从根本上解决数据问题来防止数据仓库作用降低:
1.在所有数据集成操作之前解析并挖掘数据问题、结构及整体适用性
2.匹配所有记录包括客户、产品、供应商、财务及其他数据领域的数据并识别相互关系
3.测评数据感知质量及其业务规则相关性,以评估整体数据质量,为数据质量处理工具及关键绩效评估提供依据
4.实时批量地利用网络服务重复应用数据质量规则及处理程序于各种数据源、应用程序及系统
5.修正错放、错拼及疏漏数据以获取信息价值
6.利用详细、一致的可靠数据获得更准确的运营模型、预测及分析


 充分了解源数据中的数据,包括所有不一致和异常情况,是任何集成项目中包括数据仓库中最重要的一环,直接决定了企业数据仓库项目的成败。

更多关于“数据仓库的数据质量解决方案”,即刻注册下载白皮书了解更多。

 

 


Copyright © 2003-2017 HuaJu. All rights reserved. 粤ICP备13073666号       联系我们:020-38103015(广州)    +(852) 3106-4316(香港)

数据仓库项目遭遇失败最根本的原因还是数据质量。

数据质量问题所表现出来的几种典型情况:
1.数据不完整。这种情况比较多,例如记录的缺失、字段信息的缺失、记录不完整等。最明显的例子就是用户入网登记的证件号码没有输入到系统。
2.数据不一致。这种情况主要指由于系统之间或者功能模块之间记录不一致、编码不一致、引用不一致等。例如在97系统、计费系统、网管系统中由于业务受理处理流程不规范,或者系统之间同步时间不一致导致了不同系统中用户记录数不一致。
3.数据有错误。这种情