您当前的位置:首页 >  讲话致辞 >  领导讲话 > 内容

浅析海洋数据成果质量问题与清洗方法

材料写作网    时间: 2020-12-31 04:11:16     阅读:

摘要:随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据。针对这些不同源端数据存在的一些结构问题、格式问题、缺失问题、噪点问题等,进行了技术清洗和规范整合。

关键词:海洋;数据治理;数据清洗

中图分类号:P285.7 文献标识码:A 文章编号:1007-9416(2019)08-0222-02

0 引言

随着信息时代的发展,各类海洋数据成果的数量也呈现几何级别的增长趋势,海洋数据目前主要可以分类为海洋基础地理数据、海洋基础资料数据、海洋管理专题信息、海洋业务运行数据、海洋综合信息产品和海洋元数据等,这些数据集合的存储结构模式存在着结构化数据、半结构化数据以及非结构化数据,其中非结构化数据所占的比例巨大。由于存在着大量的数据质量问题,这些数据在进行整合應用分析前需要进行清洗以保证正确的分析结果,本文主要探讨了当前海洋数据成果中存在的质量问题以及对应这些问题的清洗方法。

1 海洋数据成果存在的质量问题

目前海洋数据成果存在的问题类型主要可以分为以下八种情况:

1.1 海洋数据结构存在问题

指的是某些海洋数据集合中的海洋对象数据结构不满足关系型数据库的范式定义。比如:在航道对象中定义的宽度属性存在上下限的范围,根据数据库的第一范式规则应该定义两个字段分别用于填写宽度上限和宽度下限,而某些数据源中则把航道的宽度数据使用一个字段进行表示上下限'10-20“。

这类问题通常发生在半结构化和非结构化类型的数据源中,数据管理单位没有把海洋对象的属性进行完全区分,导致原本是两种或以上的属性字段被记录在一个属性字段中。

1.2 海洋数据属性字段格式规范不统一

指的是某些数据源中海洋对象的属性字段格式存在随意性,标准规范不统一。比如:在非结构化数据源中对于日期格式的定义有些是年月日,有些是日月年。

这类问题通常发生在非结构化类型的数据源中,因为非结构化数据缺乏一些必要的数据类型,导致存储相关数据时根据输入者的习惯确定相关格式,导致出现了很多不符合规范格式的数据。

1.3 海洋数据属性单位不规范

指的是海洋数据属性在单位上不统一,不规范。比如:在深度的计量上有些使用'米“作为单位,有些使用'千米“作为单位。

这类问题在结构化、半结构化和非结构化的数据源中常见,因为缺乏相关的数据标准,数据的管理者通常按照自身习惯自由选择...

== 试读已结束,如需继续阅读敬请充值会员 ==
本站文章均为原创投稿,仅供下载参考,付费用户可查看完整且有格式内容!
(费用标准:38元/2月,98元/2年,微信支付秒开通!)
升级为会员即可查阅全文 。如需要查阅全文,请 免费注册登录会员
《浅析海洋数据成果质量问题与清洗方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式

相关热搜

《浅析海洋数据成果质量问题与清洗方法.doc》

VIP请直接点击按钮下载本文的Word文档下载到电脑,请使用最新版的WORD和WPS软件打开,如发现文档不全可以联系客服申请处理。

文档下载
VIP免费下载文档

浏览记录