利用公平数据原则构建CCC冠状病毒作者图

,

这是我为内容速度写的两个帖子中的第一个,都是关于将数据转化为可操作的信息。这是改编自我在NISO加2021.2月会议并侧重于公平数据在分析中的作用。(有关我参加的会议的更多信息,请点击这个链接。)第二篇帖子提供了更深的介绍,即一个人的数据对创建知识产品的准确性和质量,例如知识图表。

在这篇文章中,我将讨论作用合理的数据在建立复杂的分析产品时,使用CCC的Covid作者图表作为示例。这个特定的知识图形是您可以在高质量和高质量时可以执行的分析类型的示例公平的数据。然后,我将强调公平数据如何实现高质量知识产品;然后,我将通过描述在构建此图表时遇到的一些数据挑战来完成。

什么是(元数据)问题?

让我们首先谈谈我们试图解决和CCC对它的回应。整个2020年,作为Covid-19流行的蔓延,全球研究界进入高档,研究这种病毒(以及它导致的严重健康状况)并分享他们的研究希望找到解决方案。这种研究产出增加影响了CCC的右士哥方面的客户 - 在这种情况下,科学出版商 - 就像他们一样万博体育待处理遇到加速需求以便快速找到能够审阅所有这些新冠肺炎手稿的专家。

图1:COVID - 19疫情发布情况。图表来源:国家医学图书馆

上面的图表由国家医学图书馆(NLM)维护,它显示了每周新冠病毒出版物的数量。作为自2020年初开始的NLM通信倡议的一部分,LitCovid一份被策划的出版物清单是关于SARS-CoV-2及其相关的疾病。可以从图表中看到,从5月初开始,存在平均值2000个新出版物一周。如果我们暂时采用​​出版商监督同行评审期刊的角度,我们拥有的巨额令人震惊,编辑和发布出版物。

为满足这一需求,CCC创建了COVID作者图免费工具,我们的发行商合作伙伴。我们从一个经过管理的、特别关注冠状病毒的病毒学领域已发表科学文章的数据集开始,使用书目引文元数据提取作者、文章和期刊以及它们之间的关系。在该数据集的基础上,我们构建了一个可视化工具,允许用户探索这些实体和关系。该应用程序背后的想法是,快速识别合格专家的最佳解决方案是为用户提供方便的可视化方法,以了解COVID研究人员及其相互联系。这种类型的图表提供了一种非常自然的方式来与描述实体及其关系的数据交互。

在FAIR数据的背景下……

当我指的是知识图表时,我正在谈论的产品或输出知识体系或者知识供应链。知识供应链将数据作为输入,并将数据转换为信息,然后再转换为知识。知识在这里被理解为,在信息层次的意义上,作为“可操作的信息”。

数据作为知识供应链的主要输入,输出的质量和价值高度依赖于源数据(输入)的质量。换句话说,就是“垃圾输入,垃圾输出”。此外,您可以通过在整个系统中迭代地识别、度量、管理和改进数据质量来提高输出的总体质量。在这方面,这些系统和过程突出了FAIR数据的作用和价值。我们的数据越好(质量越高)、越公平,我们就能(更快)从中获得更多价值。在这里,信心是关键:只有用户对信息有信心,信息才是真正可行的。

例如,考虑我们通过COVID作者图解决的信息需求:

  • 我们帮助出版商确万博体育待处理定Covid的合格专家。
  • 我们让用户能够探索COVID - 19研究人员的出版关系。

但是发生了后续问题:我们如何从可用数据和信心地提取这些作者及其与可用数据的关系?

表格来源:CCC

尽管对于COVID - 19作者图,我们使用来自各种来源的数据,但我们主要依赖这些数据是公平的。当然,这些数据及其格式中的许多都可以以多种方式找到、访问、互操作和可重用。数据的公平程度直接决定了输出图表的准确性,我们需要在管道中构建多少工作和复杂性,以及用户对最终结果的信心程度。

上面的表格描述了FAIR数据的四个维度以及一些度量标准或成熟度指标。右边是我们所使用数据的例子,这些例子让我们能够进行更复杂的分析。例如:

  • F1:数据和元数据分配单独的全局标识符。
    • 由于出现了大量标识符,例如PMID,我们可以准确地消除关于期刊文章的数据的歧义
  • A1.1分辨率协议是开放的,普遍可实现的
    • 我们使用的大部分数据都可以通过已知的协议和公共访问下载

最后,我们使用的大部分数据都来自于良好描述的XML结构和本体,使解释和表示更容易。

总结:数据的现实

数据质量问题深入了解。根本不是这种情况可以进行一下数据,然后保持静态。数据不仅在一个数据级别的公平。数据质量,数据求解性,数据辅助功能(等等)是必须维护的迭代过程。数据的现实是问题是常见的,它们呈现了从数据中提取知识的障碍。虽然肯定没有难以克服,但这些是重要的问题,要求我们的注意力。

我们在构建作者图中学到的主课程是您的数据在源中更公平和更高的质量,您可以从中获得的价值越多,就可以从中获得知识系统的一部分。

对于我的下一个帖子,我们将深入了解数据质量方面,提供了我们所观察到的示例,并讨论它们如何推动CCC作者图等工具的准确性和可靠性。

斯蒂芬豪索

作者:斯蒂芬豪索

他的职业生涯涉及出版、教育和技术领域,在销售、销售管理、生产、项目管理、数字出版、数字编辑和产品管理等领域担任过职务。他受过文科传统教育,拥有哲学学士和硕士学位,管理学MBA学位和分析学硕士学位。Stephen目前担任版权清理中心高级产品经理-分析,并在布兰代斯大学战略分析硕士项目顾问委员会任职。万博手机客户端苹果版

不要错过一个帖子

通过电子邮件订阅

有关此博客相关的查询,请发送电子邮件万博充值存款问题万博充值存款问题blog@copyright.com.或者加入社交媒体上的对话@Copytigleclear