检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome 、Edge、Firefox 。 X
高价值数据集(High-value datasets,HVDs)是人工智能等高度竞争领域进行创新的关键性因素,其核心在于其蕴含的高价值性特征,意指其具有较高的使用价值、交易价值和附加价值,能够为数据用户带来直接收益或预期的积极效果,在数据价值体系中处于战略性支撑地位。目前,高质量训练数据集缺乏已成为全球产业人工智能发展的共性制约,各国纷纷出台高价值数据集开放与再利用的政策,促进数据的开放和再利用,下文简要介绍欧盟的政策及实践。
高价值数据集相关政策
2016年,欧盟发布《通用数据保护条例》和《个人数据处理和数据自由流动方面保护自然人的条例》。《通用数据保护条例》适用范围广泛,任何收集、传输、保留或处理涉及到欧盟成员国内的个人信息的机构组织均受该条例的约束。如果提供高价值数据集以供重复使用时需要处理个人数据,则应根据欧盟关于个人数据处理方面保护个人的法律,特别是《个人数据处理和数据自由流动方面保护自然人的条例》进行处理。
2019年,欧盟制定的《开放数据与公共部门信息再利用指令》明确定义了高价值数据集的概念,对高价值数据集作出新规定,包括高价值数据集的专题类别与高价值数据集发布和再利用的安排。其中,列出了6类高价值数据集合的范围: 1) 地理空间;2)地球观测与环境;3)气象;4)统计;5)公司及公司所有权;6)流动性。按照规定,欧盟成员国须在2024年6月之前实施相关的高价值数据集条例。
2020年,《欧洲数据战略》提出将高价值数据集作为欧盟未来数据开放立法的重点之一,在发展公共欧洲数据空间和互连云基础设施部分,提出将支持成员国的有关当局鼓励高价值数据集在不同公共数据空间中重复使用。
2023年,《特定高价值数据集清单及其发布和再利用安排》第五条明确指出该条例生效后2年内,成员国应向委员会提交一份报告,该报告每两年提交一次,报告应包括成员国层面的具体高价值数据集清单、成员国发布的关于其高价值数据集的指导文件等。
欧盟成员国的实践
从数据类别来看,欧盟成员国在地理空间和统计数据集方面取得的进展最大,在识别和盘点高价值数据集以及解决法律障碍方面取得的进展最快,在与技术进步相关的方面例如元数据质量、标准化结构和机器可读格式方面取得的进展较慢。在欧盟成员国中,爱沙尼亚、芬兰、丹麦和拉脱维亚在准备高价值数据集方面走在前列。
提前准备:欧盟成员国在条例发布之前就开始了高价值数据集的工作:96%的欧盟国家在Open Data Maturity (ODM) Report 2022中表示他们已经确定高价值数据集,其中 93%正在准备持有高价值数据集的公共机构,以在其元数据中表示这些数据集。例如,波兰总理办公厅开始与波兰各部委、下属单位和波兰统计局就实施条例草案进行磋商;奥地利联邦数字和经济事务部内部成立了公共部门信息和开放数据工作组,负责实施 2019/1024 号开放数据和公共部门信息指令并确定高价值数据集。
突出高价值数据集:在国家开放数据门户上更加突出显示高价值数据集是一项关键做法。 例如,保加利亚开放数据门户计划将高价值数据集设置到专用类别,或通过可用数据集的过滤器进行选择;芬兰国家数据门户团队设计了一个符号作为图标来突出显示高价值数据集,并帮助用户将其与其他开放数据区分开来。在门户上突出显示高价值数据集有助于跟踪已识别的高价值数据集,进一步从数据提供者和数据(再利用)用户社区中收集数据。
监测和展示(再)使用: 85% 的欧盟国家表示他们还准备监测高数据的再利用。例如,捷克共和国将各个数据集(包括那些标记为高价值数据集的数据集)直接链接到其国家开放数据门户(也将采用开放数据格式)上的再利用示例列表。因此,当阅读标记为高价值数据集的元数据时,将有可能看到它们实际再利用的示例。这使得更广泛的受众能够更好地理解和交流此类数据集的(潜在)影响,并通过开放数据刺激进一步的再利用。
确保互操作性和元数据质量: 63% 的成员国称他们正在准备确保高价值数据集与其他国家可用数据集的互操作性。以德国为例,为了能够更好地引用高价值数据集,元数据标准DCAT-AP.de 2.0 版本中的一个属性已经被实现。瑞典为常用的高价值数据集引入了互操作性框架。数据质量和互操作性是释放数据共享全部潜力的关键方面,对于对社会和经济产生重大影响的数据集更是如此。
参考文献:
EU. High-value datasets – an overview through
visualization[EB/OL].[2022-11-23]. https://data.europa.eu/en/publications/datastories/high-value-datasets-overview-through-visualisation.
EU. Document C(2022)9562[EB/OL].[2022-12-21].
https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562.
EU. Estonia, Slovenia & Ukraine Open Data Best Practices
in Europe[EB/OL].[2022-12-21].
https://data.europa.eu/sites/default/files/report/Open_Data_Best_Practices_in_Europe_Estonia_Slovenia_and_Ukraine.pdf.
Eline
Lincklaen Arriëns.The European Commission is striving to make the EU a data-driven
global powerhouse. To achieve this ambition, it recognizes the huge importance
of high-value datasets and is mandating their publication by all EU Member
States under an open license[EB/OL].[2023-04-13]. https://www.capgemini.com/insights/expert-perspectives/the-eu-rules-for-high-value-datasets-have-changed-how-are-european-countries-keeping-up/.