【jieba】加载自定义词典注意事项

A：举例说明。

方式一：
以“数据采集”为例，通过add_word添加方式如下：

jieba.add_word("数据采集")
result = jieba.lcut("我正在做数据采集的工作")
print(result)

输出：[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]
毫无疑问，其可以准确的对句子中的出现的“数据采集进行提取”。

方式二：
创建一个词典：其中保存下面的词条

数据采集 1000 None

# 加载公开词典
jieba.load_userdict("dict.txt")

# jieba.add_word("数据采集")
result = jieba.lcut("我正在做数据采集的工作")
print(result)

结果：
[‘我’, ‘正在’, ‘做’, ‘数据’, ‘采集’, ‘的’, ‘工作’]

此时词典中的词条没有生效？是因为词频的原因吗？不是！

原因分析：
add_word添加词条后能直接生效（同时还没有制定词频），说明不是词频的原因导致的；
根本原因是自定义词典中的格式不对：词性不能指定为None，可以不指定，但是要指定则不能为None，此时该词条实际上没有被添加。

扩展：jieba自定义词典个格式注意事项
（1）词语中默认不允许有空格和特殊符号（如-），若一定要有，则可以将整个词语包在双引号中，但此时jieba在分词时可能还是会失败；
（2）默认词语、词频、词性的分隔符为单个空格；
（3）词频可以无，但不能为None

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/767366.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！