1.数据质量的基本概念
1.1准确性(Accuracy)
1.2精度(Precision)
1.3空间分辨率(Spatial Resolution)
1.4比例尺(Scale)
1.5误差(Error)
1.6不确定性(Uncertainty)
2.空间数据质量问题的来源
2.1空间现象自身存在的不稳定性
2.2空间现象的表达
2.3空间数据处理中的误差
2.4空间数据使用中的误差
表1:数据的主要误差来源
数据处理过程 误差来源
数据搜集
野外测量误差:仪器误差、记录误差
遥感数据误差:辐射和几何纠正误差、信息提取误差
地图数据误差:原始数据误差、坐标转换、制图综合及印刷
数据输入
数字化误差:仪器误差、操作误差
不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换
数据存储
数值精度不够
空间精度不够:每个格网点太大、地图最小制图单元太大
数据处理
分类间隔不合理
多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差
比例尺太小引起的误差
数据输出
输出设备不精确引起的误差
输出的媒介不稳定造成的误差
数据使用
对数据所包含的信息的误解
对数据信息使用不当
3.空间数据质量控制
数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有:
3.1传统的手工方法
质量控制的人工方法主要是将数字化数据与数据源进行比较,图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比或其他比较方法。
3.2元数据方法
数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。
3.3地理相关法
用空间数据的地理特征要素自身的相关性来分析数据的质量。如从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,如河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将它们分别与其它质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。
亿信数据质量管理平台(EsDataClean)智能纠错减少数据异常,让数据清澈如水。
亿信数据质量管理平台(EsDataClean)智能纠错减少数据异常,让数据清澈如水
EsDataClean 亿信数据质量管理平台智能高效的数据超级医生
图形化操作界面,全程零编码
采用全导航交互式设计界面,技术门槛低。不管是规则定义还是流程管理都无需编写sql或代码,通过图形化界面进行简单配置即可,使得非技术用户也能对定义过程和定义结果一目了然。
一站式轻松搞定质检全过程
亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。
智能推进问题数据整改
智能数据质量检查调度;通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。
重大问题及时告警;对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
一键生成质量报告和评估结果;系统通过数理统计、数据分析等技术,根据事先定义好的模板,自动生成质量报告和绩效考评结果。
领先业界的数据质量评估体系
亿信数据质量管理平台(EsDataClean)包含丰富的质量评价方法,并且易于扩展。系统支持数十种质量评价算法技术,满足业务系统运行、数据中心建设、数据治理过程中各类规则的定义,并可实现跨数据源的对比分析;支持通过XML扩展,可完全适应企业未来的数据质量管理需求的变化。
全方位的数据体检报告
多维度质量分析报表,辅助用户对问题数据进行质量分析,以便用户进行有针对性的质量改进;
内置丰富的统计分析报告及多种质检结果主题,同时支持自定义扩展符合行业需求的质检结果主题,满足各行业用户的个性化需求。
多角度质量绩效评分,EsDataClean支持用户定义评分依据和权重,并可按照字段、表、规则类别、关键字等粒度生成质量评估结果。
卓越的质检性能
数据质量管理平台具有出色的跨平台运行能力,兼容多种操作系统,支持所有符合JDBC2.0规范的数据库。系统的质量规则检查支持多线程并发执行,百万级数据20条规则的质量检查只需2分30秒即可完成。