自然语言处理：灵玖NLPIR中文分词系统

　　中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

　　在中文信息检索中，如果不分词，用作标引的就是单个的汉字或是按N元切分法进行切分后得到的切分单位。那么，是否需要按语言学意义上对词进行切分文档和查询二者的切分方法是否需要一致对于基于字的检索和基于词的检索哪个性能更好不同的研究者都有不同的实验结果。

　　在检索系统中，通常是按“字切分”和“词切分”。对于基于字切分的检索系统来说，在查询表达式比较长且二字词较少的情况下，检索效率要比基于词切分的检索系统低很多。比如查询“清华大学”，如果是基于词的切分，在倒排索引中只需要查找“清华大学”这一个词的所有记录;而如果是基于交叉二元切分，该查询被切分成“清华\华大\大学”三个词，在倒排索引中需要查这三个词的所有记录，然后再进行合并。这样基于字切分的查询和结果处理时间相当于基于词切分的三倍，当数据规模比较大的时候，这个时间差距会更加明显。

　　所以，综合检索精度和时间性能，具备较高精度的词切分方法要比字切分方法对检索性能的贡献更大。而灵玖NLPIR中文分词系统是一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

　　NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。

　　1)中英文混合分词功能

　　自动对中文英文信息进行分词与词性标注功能，涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

　　2)关键词提取功能

　　采用交叉信息熵的算法自动计算关键词，包括新词与已知词，下面是对十八届三中全会报告部分内容的关键词提取结果。

　　3)新词识别与自适应分词功能

　　从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

　　4)用户专业词典功能

　　可以单条导入用户词典，也可以批量导入用户词典。

　　5)微博分词功能

　　对博主ID进行nr标示，对转发的会话进行自动分割标示(标示为ssession)，URL以及Email进行自动标引。

中文分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，二者都需要达到很高的要求。而灵玖NLPIR中文分词系统为大家提供了很好的技术参考。