敏感词一般是指带有敏感政治倾向、不文明倾向、不健康色彩的词或不文明用语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。
在网络日益发达的现在,也伴随着有益信息与造成不稳定因素的信息也随之日益泛滥,为了网民的思想健康,也为了社会的和谐,在许多对外公共场合下,有些内容是要经过审查才能显示的。在网络审查初期,都是通过人工审核,这种审核方式虽然准确且智能,但与网络文字产生的速度相比,其效率就显示微不足道了!因此,自动化的系统处理方式的需求越来越强烈……
因此自动化处理的方式自然而然随之如雨后春笋般地迅速产生了一大批!其处理方式都是基于一点:敏感词库!然后基于该词库对目标文本进行敏感词提取操作,因此各自动化处理方式的唯一差别就在于敏感词提取算法的不同,因为算法不同,效率不同、结果也可能不同。而对于敏感词过滤算法来说,要掌握两个关键点:效率和准确率!效率就是对于大批量敏感词和长段的目标文本处理时要能在很短时间内响应;准确率就是对于一个敏感词要尽量区分语境,不能误将非敏感词判断为敏感词而过滤掉!
因此,在这样的背景下灵玖软件研发出来一套灵玖LJKeyScanner敏感关键词扫描系统。灵玖LJKeyScanner敏感关键词扫描系统是以采取先进的NLPIR大数据搜索与挖掘系统,可以针对原始文本关键词集进行处理和加工,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具,同时融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
LJKeyScanner组件是由多位专家经过不断研发和实验,针对敏感关键词搜索业务需求而打造的一套组件系统,具有专业精准、高扩展性和高通用性的特点。可支持文字、数字、特殊符号、繁体字等各种文本关键词的敏感扫描,支持各类数据库实时搜索服务,并支持多语言。
LJKeyScanner组件运用的场景很多,如高亮指定的词、分词(可以指定以最长或最短模式匹配)、拼音与汉字间的转换等等字符串匹配功能,并有十大类敏感词典包括几十万个关键词,适用于各个行业。