文本挖掘的演变——我们在研发组织中看到的趋势

,

这不是秘密信息可用在里面数字生态系统正在迅速扩大。每年有300万篇论文发表在学术期刊上,而这仅仅是一种高价值的研发内容类型- - - - - -密集的组织这可能还需要快速、简单地合成专利、临床和其他类型的内容

在过去的十年里,研发密集型企业越来越依赖文本挖掘从大量发布的挖掘到来的重要见解材料当我们考虑文本挖掘时,我们真的在思考关于处理更大量的数据。毕竟,对特定商业功能中可以作为研究人员的定性分析存在自然限制在处理丰富的信息

n多年来,我们大街观察更多一个基于项目的方法对文本和数据进行挖掘。会有特定的“要求”由业务的某些领域赞助,并通过机器分析来应用文本挖掘来提供特定的结果,答案或响应。尽管文本挖掘应用程序或工具可能已被使用,它是特定项目的临时,其使用经常减弱d项目后完整离子

作为随着时间的推移,数据越来越多产生,文本和数据挖掘的应用程序越来越多-包括那些文本挖掘是“烘烤”到最终用户的信息体验,文本挖掘是作为一个正在进行的数据处理管道的一部分应用。T这里有很多不同的因素可以考虑当你看不同的选择如何它可能在组织中实现。

根据我们所看到的趋势客户,我们建议考虑以下内容:

用户体验

业务问题和问题正在寻址的用户是对是否可以应用文本挖掘的关键输入。例如,日常终端用户 - 例如研究科学家 - 可能不想与一个人一起参与重型文本挖掘工具。但是,通过向用户提供直观的自动建议、基于同义词和类的搜索以及其他辅助功能,即使是一个简单的终端用户搜索和发现工具也可以从底层的文本挖掘中获益。相反,一个dat科学家或文本挖掘专家可能需要更多的粒度控制,或者也可以寻求程序化方法,例如API,以与文本挖掘工具进行交互。

数据源数据的维度

选择哪些内容/数据以及使用哪些格式也将与您正在处理的业务目标相关。迪影响文本挖掘是否适合的数据包括:容量、频率、类型和格式。例如,sc的体积科学文献的内容是高,和内容随时可用的数字格式与适当的权利文本矿山。然而,即使容量很低,如果手工流程中存在可以解决的效率低下的问题自动化的机器分析——比如药物警戒的专家评审——它可能提出一个可以从文本挖掘中获益的过程。

我们知道组织内部的人,从早期研究到药物安全再到竞争情报,都在处理内容和内容格式的激增问题。这意味着利用各种格式的大量内容,而又不使其势不挡,是主要目标。在CCC,我们开发了集成的解决方案,使授权、访问、语义丰富和索引全文 XML文章变得简单,这些文章来自各种各样的 科学出版商。万博体育待处理了解更多关于RightFind XML for Mining 这里

迈克Iarrobino

作者:迈克Iarrobino

Mike Iarrobino是CCC的内容和权利工作流解决方案RightFind®XML挖掘和RightFind音乐的产品经理。他曾在freshdress, Inc.和HCPro, Inc.管理营销技术和内容发现产品。他在网络研讨会和会议上发表关于内容发现和数据管理的演讲,并喜欢参与关于自由意志本质的对话。

不要错过一个帖子

通过电子邮件订阅

有关此博客相关的查询,请发送电子邮件万博充值存款问题万博充值存款问题blog@copyright.com或者加入社交媒体上的对话@copyrightclear