检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome 、Edge、Firefox 。 X
CORD-19数据集由艾伦人工智能研究所(AI2)与白宫科技政策办公室(OSTP)、国家医学图书馆(NLM)、陈扎克伯格倡议(CZI)、微软研究院、数据科学家代码分析平台Kaggle牵头,在乔治城大学安全与新兴技术中心(CSET)的协调下,于2020年3月发布第一个版本,之后定期更新,供用户随时下载。
数据集的资源主要来自WHO、PMC、bioRxiv等数据库,由艾伦人工智能研究所的语义学者团队筛选,组成COVID-19和相关历史冠状病毒(如SARS和MERS)的出版物和预印本集合,数据经过清洗和规范,统一将pdf等文献格式整理为易于自然语言处理的JSON数据格式。
CORD-19数据集的初衷是希望将机器学习社区、生物医学领域专家与政策制定者连接起来,为抗击新冠疫情提供有效的治疗方法和管理政策。数据集发布后,立刻在生物医药、人工智能、语义学等跨界的团体和社区获得了积极反馈。CORD-19发布的第一个月,被查看超过150万次,下载超过75,000次。
CORD-19数据集作为一种新型的开放知识网络“基础设施”,被各类团队研究使用,谷歌学术上能检索到2020至2022年间以CORD-19数据集为研究对象的大量文献,同时衍生出如上文COVID-19 Literature Q&A这样的平台。此前,官方还曾发布过两项竞赛以推动对数据集的研究与利用。CORD-19 Research Challenge开放式文本挖掘竞赛,由Kaggle和白宫科技政策办公室、艾伦人工智能研究所共同主办,参与者的比赛任务是从CORD-19数据集的论文中提取有关COVID-19关键科学问题的答案。TREC-COVID信息检索共享任务,由艾伦人工智能研究所、美国国家标准与技术研究所 (NIST)、国家医学图书馆(NLM)、俄勒冈健康与科学大学 (OHSU) 和德克萨斯大学健康科学中心 (UTHealth)共同组织。参与者的任务是评估检索系统对CORD-19数据集中的论文进行相关性排名的能力。两项比赛都由生物医学领域的专家来评估结果,评选出的最优代码会被置顶供所有人使用和分享。
基于该数据集,IBM结合人工智能技术建设了COVID-19 Literature Q&A(新冠知识你问我答)的一键式检索平台,只要在网站检索页面上(https://covid-19-literature-qna.mybluemix.net)用自然语言提出自己新冠相关的疑问,网站就能从海量学术文献中提取并呈现相关问题的答案。输入问题“如何降低人群接触新冠病毒的风险?”,可以获得“隔离管控措施、疫苗接种、7日居家感染管理、冠状病毒创伤后痛苦指数(CPDI)……”12个相关答案,每个答案都能展开查看答案原文所在的上下文,同时显示答案的文献出处与作者信息,支持一键跳转文献来源并阅读全文。每个答案下方有选项让用户选择该答案是否与问题相关,用户可以通过这一功能来提供反馈,让检索平台的答案更加精准。
IBM基于相同的数据集,还建设了深度检索服务平台(deep search service),仅面向科学家和高校学者开放,允许用户对论文集进行特定查询并提取关键的 COVID-19 知识——包括嵌入的文本、表格和图形。
传统的情报平台建设往往需要长时间的前期准备、搭建、测试、优化与数据积累。IBM能够在短时间内推出两个面向不同群体的情报服务产品,除了其本身AI团队的实力,也离不开重要的“基础设施”——CORD-19开放数据集。
参考文献:
1. HORVITZ E.Aiming advances in AI at biomedical search[EB/OL].[2022-05-22]. https://blogs.microsoft.com/ai-for-business/biomedical-search/.
2. WANG L L,LO K, CHANDRESEKHAR Y, et al.CORD-19: The COVID-19 Open Research Dataset[EB/OL].[2022-05-22]. https://aclanthology.org/2020.nlpcovid19-acl.1.pdf.