存储库中数据的质量是获取有价值信息的重要前提。 从长远来看,质量差会导致负面的连锁反应。
首先,对提供的信息失去信心。 人们开始较少使用商业智能应用程序,而应用程序的潜力却无人能及。
结果,对分析项目的进一步投资受到质疑。
数据质量责任
在BI项目中,与提高数据质量相关的方面很重要。 但是,这不仅仅是技术专家的特权。
数据质量还受以下方面的影响:
企业文化- 工人自己是否对生产高质量感兴趣?
- 如果没有,为什么? 可能存在利益冲突。
- 也许有定义质量责任者的公司规则?
流程- 在这些链的末尾会创建什么数据?
- 也许配置了操作系统,以便您需要“退出”以反映现实中的这种情况。
- 操作系统是否自己执行数据验证和验证?
组织中的每个人都对报告系统中数据的质量负责。
定义和意义
质量是对客户期望的肯定满意。
但是数据的质量不包含定义。 它始终反映使用的上下文。 数据仓库和BI系统执行的目的与获取数据的操作系统不同。
例如,在操作系统上,客户端属性可能不是必填字段。 在存储库中,此属性可用作维度,并且必须填写。 而这又导致需要填充默认值。
数据仓库的需求在不断变化,通常高于操作系统。 但是,当不需要将来自操作系统的详细信息存储在存储器中时,可以采用另一种方法。
为了使数据质量可测量,必须描述其标准。 使用信息和编号进行工作的人员应该参与描述过程。 这种参与的结果可能是一条规则,遵循该规则,您可以一目了然地判断是否存在错误。 该规则需要以脚本/代码的形式发布,以进行后续验证。
数据质量改善
在将数据加载到存储库的过程中,不可能清除和修复所有假设的错误。 高质量的数据质量只有通过所有参与者的密切合作才能实现。 将数据输入操作系统的人们应该找出导致错误的行为。
数据质量是一个过程。 不幸的是,在许多组织中,没有持续改进的策略。 许多人只限于保存数据而没有充分利用分析系统的全部潜力。 通常,在开发数据仓库时,预算的70-80%用于数据集成。 控制和改进的过程甚至还没有完成。
工具
使用软件工具可以帮助自动化改进和监视数据质量的过程。 例如,他们可以完全自动化存储结构的技术验证:字段格式,默认值的存在,符合表字段名称的要求。
检查内容可能会更加困难。 随着存储需求的变化,数据解释可能会变化。 该工具本身可以变成一个需要支持的庞大项目。
小费
通常在其中设计存储库的关系数据库具有创建视图(视图)的出色能力。 如果您知道内容的功能,它们可以用于快速检查数据。 发现数据错误或问题的每种情况都可以以查询的形式记录到数据库中。
因此,将形成内容知识库。 当然,这样的请求应该很快。 通常,为视图提供服务比在表上组织的工具花费的人力更少。 该视图始终可以显示检查结果。
对于重要报告,该视图可能包含带有收件人的列。 使用相同的BI工具来报告存储库中数据质量的状态是有意义的。
例子
该请求是针对Oracle数据库编写的。 在此示例中,测试返回一个可以根据需要解释的数值。 值T_MIN和T_MAX可用于调整警报程度。 REPORT字段曾经在不知道如何充分发送电子邮件的商业ETL产品中用作消息,因此rpad是“拐杖”。
对于大表,您可以添加例如AND ROWNUM <= 10,即 如果有10个错误,则足以发出警报。
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (
出版物使用过的教材
罗纳德·巴赫曼(Ronald Bachmann)博士 吉多·肯珀
Raus aus der BI-Falle
Wie商业智能专家erfolg wird