结构化数据医院——融合材料领域知识的结构化数据质量治理平台

结构化数据医院平台图片
高性能功能材料领域在数据方面“重积累,轻质量”,存在来源广、噪音大、样本少、维度高等数据质量问题,亟需一套数据质量治理的理论、方法、技术和工具。因此,本课题组提出一种新的融合领域知识的材料数据品质治理通用框架MAT-DQG,包含数据质量维度、生命周期模型和处理模型,为数据质量治理提供了理论指导和实施方案。基于此,研发了 “数据医院—融合材料领域知识的结构化数据质量治理系统”。具体包括:(1)数据挂号模块,实现数据集和元信息上传;(2)数据体检模块:从可溯源性、时间敏感性、完整性、一致性、准确性、均衡性、规范性、冗余性、洞察力等九大维度对数据进行质量评估,生成面向机器学习的数据画像报告和数据体检报告,用于反映数据在上述九大维度中的表现情况及是否存在问题,为数据质量诊治提供量化依据;(3)数据诊治阶段模块,针对上述九大维度,内置多种课题组研发的材料领域知识嵌入的数据质量治理新算法(如领域知识嵌入的特征选择方法、融合领域知识的数据正确性治理方法等),实现数据的“品质”和“数量”齐升。课题组委托上海计算机软件技术开发中心对该系统进行了验收测试。系统在4 类(金属材料、无机非金属材料、高分子材料、复合材 料)11 种(有色金属材料、黑色金属材料、玻璃材料、陶瓷材料、水泥材料、有机 溶剂、其他无机非金属材料、生物燃料化合物、有机小分子材料、基体材料、其他复合材料)共计 74 个材料数据集上均通过了软件质量(功能性、性能效率、兼容性、易用性、可靠性、信息安全性、维护性、可移植性)和用户文档集两个方面测试。该系统为应用于材料领域的机器学习方法提供获取高质量数据的有效工具。
点击下载
点击下载
点击下载
点击下载
参考文献
作者:刘悦,马舒畅,杨正伟,邹欣欣,施思齐
面向材料领域机器学习的数据质量治理
期刊名称:硅酸盐学报, 2023, 第51卷第2期
论文下载
作者:Yue Liu, Zhengwei Yang, Xinxin Zou, Shuchang Ma, Dahui Liu, Maxim Avdeev, Siqi Shi
Data quantity governance for machine learning in materials science
期刊名称:National Science Review, 2023, 10(7): nwad125
论文下载
作者:Yue Liu, Zhengwei Yang, Xinxin Zou, Yuxiao Lin, Shuchang Ma, Wei Zuo , Zheyi Zou, Hong Wang, Maxim Avdeev, Siqi Shi
A general framework to govern machine learning oriented materials data quality
期刊名称:Materials Science and Engineering: R: Reports, 2025, 166: 101050
论文下载
作者:Yue Liu, Shuchang Ma, Zhengwei Yang, Duo Wu , Yali Zhao, Maxim Avdeev, Siqi Shi
Domain knowledge-assisted materials data anomaly detection towards constructing high-performance machine learning models
期刊名称:Journal of Materiomics, 2025: 101066
论文下载
软件著作权
软著编号:软著登字第16575452号
结构化数据医院——融合材料领域知识的结构化数据质量治理平台V1.0
点击下载