首页 供应 求购 产品 公司 登陆

自然语言处理:灵玖NLPIR中文分词系统

  • 发布时间:2016-11-03 14:58:36
    报价:面议
    地址:北京,海淀,北京市海淀区苏州街49-3号盈智大厦5层(总部)
    公司:灵玖中科软件(北京)有限公司
    手机:15801695527
    微信:bigdatasaas
    电话:010-62648216
    用户等级:普通会员 已认证

      中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

      在中文信息检索中,如果不分词,用作标引的就是单个的汉字或是按N元切分法进行切分后得到的切分单位。那么,是否需要按语言学意义上对词进行切分­文档和查询二者的切分方法是否需要一致­对于基于字的检索和基于词的检索哪个性能更好­不同的研究者都有不同的实验结果。

      在检索系统中,通常是按“字切分”和“词切分”。对于基于字切分的检索系统来说,在查询表达式比较长且二字词较少的情况下,检索效率要比基于词切分的检索系统低很多。比如查询“清华大学”,如果是基于词的切分,在倒排索引中只需要查找“清华大学”这一个词的所有记录;而如果是基于交叉二元切分,该查询被切分成“清华\华大\大学”三个词,在倒排索引中需要查这三个词的所有记录,然后再进行合并。这样基于字切分的查询和结果处理时间相当于基于词切分的三倍,当数据规模比较大的时候,这个时间差距会更加明显。

      所以,综合检索精度和时间性能,具备较高精度的词切分方法要比字切分方法对检索性能的贡献更大。而灵玖NLPIR中文分词系统是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

      NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。

      1)中英文混合分词功能

      自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

      2)关键词提取功能

      采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。

      3)新词识别与自适应分词功能

      从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

      4)用户专业词典功能

      可以单条导入用户词典,也可以批量导入用户词典。

      5)微博分词功能

      对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。

    中文分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。而灵玖NLPIR中文分词系统为大家提供了很好的技术参考。

    提醒:联系时请说明是从志趣网看到的。

免责申明:志趣网所展示的信息由用户自行提供,其真实性、合法性、准确性由信息发布人负责。使用本网站的所有用户须接受并遵守法律法规。志趣网不提供任何保证,并不承担任何法律责任。 志趣网建议您交易小心谨慎。

关于我们 | 联系我们 | 免责声明 |@2025 bestb2b.com

©志趣网