您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

NLPIR中文分词系统是人工智能语义识别的精髓

2018/9/24 12:27:02发布86次查看

  随着搜索引擎的发展,分词技术也是运用而生。在早期搜索引擎一直只是用于对英文的检索,而如今搜索引擎已经运用在各个领域,当然其中也有实现对中文的搜索,而要对中文搜索就必须要使用中文分词技术。
  分词技术发展至今,也已经有十几年的历史。目前在中文分词领域,已经有很多成熟的分词技术。中文是由连续文字组成,缺乏有效的间隔,虽然有句、段分隔,但在进行机器语言学习、文本语义理解分析过程中都需以词组为***小单位的。因此实现中文分词相对英语来讲,更加的复杂、困难。这其中对于计算机涉及的技术就是中文分词技术。
  中文分词不仅是各种中文信息处理技术中使用***广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。
  nlpir分词系统是经过多年研究工作积累,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。nlpir系统支持多种编码(gbk编码、utf8编码、big5编码)、多种操作系统、多种开发语言与平台。
  nlpir/ictclas2018分词系统主要功能介绍
  1)中英文混合分词功能
  自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
  2)关键词提取功能
  采用交叉信息熵的算法自动计算关键词,包括新词与已知词,
  3)新词识别与自适应分词功能
  从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
  4)用户专业词典功能
  可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
  nlpir/ictclas2018分词系统是对汉语语言进行拆分处理,是中文信息处理必备的核心部件。采用条件随机场(conditional random field,简称crf)模型,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等,具备准确率高、速度快、可适应性强等优势。
  中文分词应时代的要求应运而生,在很大程度上满足了人们对信息搜索的需要,解决了人和计算机交流中的一些障碍;但分词系统中也存在很多困难,我们相信在未来的几年里,通过nlpir分词系统的不断努力,必将开发出更高质量、多功能的分词功能并促进中文信息过滤系统在更多领域广泛应用。

灵玖中科软件(北京)有限公司
张先生
15801695527
北京 海淀区
该用户其它信息

VIP推荐

15801695527
张先生
 发送短信
免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product