中文分词软件v1.0 开源版

2022-04-24发布者:郝悦皓大小: 下载:0

文件大小:

软件介绍

中文分词软件功能

1.指纹提取

根据文章的内容,结构,词语间的关系,分析出能够表示该文章的语义指纹,使用数字序列表示。

image.png


2.分词粒度可调

可以控制分词结果的粒度。共享版本提供两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。

3.用户词典接口扩展

用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。

4.词性标注功能加强

多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。

5.关键词提取

自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理领域,具有很好的应用价值。

6.新词发现与自适应分词功能

从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

中文分词含义

中文分词(chinese word segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

发表评论(共0条评论)
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,发表审核后显示!

版权声明:

1 本站所有资源(含游戏)均是软件作者、开发商投稿,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!

2 本站将不对任何资源负法律责任,所有资源请在下载后24小时内删除。

3 若有关在线投稿、无法下载等问题,请与本站客服人员联系。

4 如侵犯了您的版权、商标等,请立刻联系我们并具体说明情况后,本站将尽快处理删除,联系QQ:2499894784

返回顶部