语义,又称语意,指的是话语所包含的意义,在计算机科学领域,可以称之为数据对应现实世界中事物所代表概念的含义。简单来说,语义分析的根本目的是为了让计算机理解自然语言,一旦计算机拥有了这种能力,就可以从文本信息中识别并抽取出知识。
当前知识获取主要有三种方式:非自动知识获取、知识抽取、机器学习知识。非自动知识获取常采用直接编辑知识、利用大众智慧等手段,效率较低,无法应用于大规模的知识获取;完全机器学习的难度较大;知识抽取是目前最有效的方式。
所谓知识抽取,指的是通过对文本资料进行内容分析处理,对蕴含于文本中的知识进行识别、理解和筛选,抽取出每个知识点,并以一定的形式存入知识库中。那么如何通过对文本资料进行内容分析从而达到识别并抽取出知识的目的呢语义分析就是有效的手段和方法。
目前,这种基于语义的半自动抽取技术在特定产业领域商业化、工程化应用较少,这是因为如果想获得高质量的语言分析结构,就需要构建面向特定领域的成熟语料。
灵玖LJParser搜索与挖掘系统依托基于语义的知识抽取技术及其知识工程平台在出版、科研等特定领域的应用,是目前为数不多的领域化应用。灵玖LJParser搜索与挖掘系统将“业务对象”和“业务主题”作为文本中的抽取点,编写该产业领域不同知识类型的知识模板框架,在文本分析挖掘时首先进行知识类别识别,根据类别调用相应的框架。灵玖LJParser搜索与挖掘系统其中摘要是半自动提取,关键词、分类、业务主题、知识来源、提供者等为自动提取。
LJParser开发平台指的是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。可以进行非结构化文本分析、智能提取、机器学习等功能。