知识管理者利用科学文献进行文本和数据挖掘的考虑

了解企业界的开放访问研究内容

新研究表明提交率对学术期刊的提交率在2020年期间呈指数级增长。随着可用信息的数量不断增长,研发集约化公司越来越多地转向全文科学文学的文本和数据挖掘 - 既规模和离散的背景项目 - 提取信息并为其知识供应链提供权力。自然而然,这些举措在公司到公司甚至项目项目的范围和要求中变化。

当使用全文内容时,当知识管理人员试图开发适合其组织需求的最佳工作流时,应该考虑许多因素。这里有一些。

1)端到端的工作流程

作为知识经理,必须了解您公司的预期挖掘全文文学的预期最终工作流程。将预期的输入和输出映射在工作流程的每个阶段以及澄清期望的时间表和业务临界性中,它很有用。这适用于任何后端数据处理流水线以及依赖最终用户的工作流程。通过将此工作流程视为一个连续流,知识管理器可以确保上游调整不会在下游中断流程。

2)语料库参数

定义科学文献全文语料库的参数将根据组织的端到端工作流程而变化。例如,应用于特定项目的文本挖掘过程中所使用的语料库的维度——如药物警戒工作流——将不同于更广泛的项目中用于大规模处理科学信息、应用机器学习或人工智能能力、或者构造知识图表示。在较窄的用例中,特定查询可能依赖于关键字或与主题相关的元数据(如医学主题标题,又名MeSH或其他索引辅助工具),这些元数据将基于项目规范提取相关内容。用例的范围越广,组织能够预先筛选特定主题的可能性就越小;在这些情况下,需要应用基于时间或日志的内容或其他更广泛的内容类别。基于所设想的端到端工作流,知识管理人员可以帮助他们的涉众识别关键问题,这些问题将定义创建有用的语料库的方法,例如:

  • 处理全文内容所需的输出是什么?
  • 是否有持续对新文学的需求,或者将历史研究的背部足够?
  • 文本和数据挖掘努力的预期结果是多少?
  • 什么期刊、时间表和研究领域与项目最相关?

3)体积

如上所述,定义科学文献语料库有不同的方法。这些参数自然会影响内容的数量。回顾上面提到的两个用例,为特定项目进行文本挖掘的组织可能在给定的时间内只使用几篇、几十篇或数百篇文章进行询问。具有更广泛语料库参数的更大规模的项目可能导致处理数十万甚至数百万篇文章。而且,除了目前的项目需求外,还需要考虑项目在一段时间内的维护和未来可能的内容需求。预测未来文本挖掘所需的内容量是一项重要的工作,但也可能是一项挑战。帮助进行这种评估的一种方法是分析当前或备份需求,然后使用这个度量来预测未来的需求。这种计算可以帮助知识管理人员选择使用内容和预测成本的适当方法。

4)及时性

对于一些组织来说,及时性是一个重要的因素,对于支持他们的文本挖掘用例是必不可少的。作为一名知识管理人员,了解涉众对某一篇发布的文章何时从文本和数据挖掘处理管道中产生输出的期望非常重要。从发布到出现在数据提要中的文章延迟时间、公共API的可访问性、任何批处理或异步处理规则等等都可能引入延迟,从而影响业务承诺、服务水平协议和期望。

5)许可

出版的科学文学是一个珍贵的资产和对组织的重要投资。基于预期的端到端工作流程和语料库参数,知识管理器应通过现有订阅/许可证确定是否满足内容需求,或者是否应通过扩展许可或通过事务步骤来增强这些需求。任何预期的交易影响都同样应考虑在工作流程中,并在及时性要求下测量其影响。

考虑到这五个因素将有助于知识经理揭示其组织的最佳工作流程,以消耗全文内容。许多文本挖掘是一种新的和令人兴奋的技术,可以大大提高组织内的研究和创新。通过了解和分析这五个考虑,开发新工作流程的潜在艰巨任务将变得明显更可管理。

有兴趣学习更多吗?查看:

加勒特·邓丹

作者:加勒特·邓丹

Garrett Dintaman是CCC的助理产品经理和产品所有者,用于挖掘挖掘XML。他专注于客户需求和与文本和数据挖掘相关的案例,数据处理管道和分析。在他的空闲时间,Garrett在大学篮球之后享有大自然的时间。

不要错过帖子

通过电子邮件订阅

有关此博客相关的查询,请发送电子邮件万博充值存款问题万博充值存款问题blog@copyright.com或者加入社交媒体上的对话@Copytigleclear