知识提取是利用各种信息源建立一个有凝聚力的知识库的过程。作为这种方法的一部分,知识提取通常会利用一系列结构化和非结构化的资源。当成功时,知识提取会产生可靠的数据,这些数据可以由给定的程序,允许最终用户将这些形...
知识提取是利用各种信息源建立一个有凝聚力的知识库的过程。作为这种方法的一部分,知识提取通常会利用一系列结构化和非结构化的资源。当成功时,知识提取会产生可靠的数据,这些数据可以由给定的程序,允许最终用户将这些形式化的知识用于他或她想要的任何目的。在知识提取过程中,可能会使用几种不同的源。在结构化源的范围内,可以从各种类型的关系数据库或某种可扩展的数据库中提取数据标记语言或XML源。非结构化源,如图像、不同形式的文字处理文档、电子表格,甚至记事本式程序中捕获的文本,都可以用作提取过程的一部分。只要用于管理知识提取过程的程序能读懂这些源,它们就可以作为一种资源,它扩展了通过提取而推进的项目的潜力,并允许最终生成的知识可用。在知识提取过程中,有几种常见的应用程序。一个常见的例子是从非结构化源捕获数据并将其合并到一些结构化知识源的类型。提取关系数据库中的数据并使用它创建新文档,或使用电子文档将数据导入关系数据库中,这是另一个例子,说明了这种类型的提取可以加快正式知识的共享,而不需要手动输入从其他来源获得的数据这种以某种新格式重用现有知识在许多场景中通常非常有用,这使得以现有源可能无法使用的方式利用这些知识。通过这种方式,用户可以为许多不同的应用程序创建理想的源,而不仅仅是那些与形式知识的原始家园。使用数据提取,可以利用庞大的数据仓库,轻松导入和导出数据,以创建可用于特定用途的新源。这些新创建的源也会在数据仓库中找到一个位置,最终可用于创建新的提取,以满足新的使用需求。记住这一点,可以查看知识提取作为一个非常有用的工具,它有助于充分利用现有的所有资源,简化与共享正式知识有关的许多任务
-
发表于 2020-08-07 14:41
- 阅读 ( 2438 )
- 分类:电脑网络