【jieba】加载自定义词典注意事项

Q1:为什么add_word添加词可以影响分词效果,而通过加载自定义词典不行?

A:举例说明。

方式一:
以“数据采集”为例,通过add_word添加方式如下:

jieba.add_word("数据采集")
result = jieba.lcut("我正在做数据采集的工作")
print(result)

输出:[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]
毫无疑问,其可以准确的对句子中的出现的“数据采集进行提取”。

方式二:
创建一个词典:其中保存下面的词条

数据采集 1000 None
# 加载公开词典
jieba.load_userdict("dict.txt")

# jieba.add_word("数据采集")
result = jieba.lcut("我正在做数据采集的工作")
print(result)

结果:
[‘我’, ‘正在’, ‘做’, ‘数据’, ‘采集’, ‘的’, ‘工作’]

此时词典中的词条没有生效?是因为词频的原因吗?不是!

原因分析:
add_word添加词条后能直接生效(同时还没有制定词频),说明不是词频的原因导致的;
根本原因是自定义词典中的格式不对:词性不能指定为None,可以不指定,但是要指定则不能为None,此时该词条实际上没有被添加。

扩展:jieba自定义词典个格式注意事项
(1)词语中默认不允许有空格和特殊符号(如-),若一定要有,则可以将整个词语包在双引号中,但此时jieba在分词时可能还是会失败;
(2)默认词语、词频、词性的分隔符为单个空格;
(3)词频可以无,但不能为None

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/767366.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python 编程快速上手——让繁琐工作自动化(第2版)读书笔记01 Python基础快速过关

Python 编程快速上手——让繁琐工作自动化(第2版)读书笔记01 Python基础快速过关 1 python基础概念 Python提供了高效的高级数据结构,还能简单有效地面向对象编程。 python运算符顺序 **——%——//——/——*——-——python中常见的数据…

【085】基于SpringBoot实现的网上音乐商城平台

系统介绍 视频演示 点击查看演示视频 基于SpringBoot实现的网上音乐商城平台分为管理员、用户两个角色,系统实现了用户注册和登陆、用户信息管理、用户加购、下单商品、购物车管理、订单管理、音乐分类、音乐商品管理、退出系统等功能 技术选型 开发工具&#…

大数据基础知识【大数据导论】

各位大佬好 ,这里是阿川的博客,祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 大数据基础知识前 必看 【大数据导论】—大数据序言…

旅游管理系统16021

摘 要 本文旨在设计和实现一个基于Spring Boot框架的旅游管理系统。该系统通过利用Spring Boot的快速开发特性和丰富的生态系统,提供了一个高效、可靠和灵活的解决方案。系统将实现旅游景点信息的管理、线路规划、跟团游玩、旅游攻略、酒店信息管理、订单管理和用户…

【C语言】inline 关键字

在C语言中,inline关键字用于建议编译器对函数进行内联展开,而不是像普通函数一样调用。内联函数的目的是减少函数调用的开销,特别是对于简单的、频繁调用的函数。 内联函数的定义和使用 定义内联函数 要定义一个内联函数,需要在…

PyTorch之nn.Module、nn.Sequential、nn.ModuleList使用详解

文章目录 1. nn.Module1.1 基本使用1.2 常用函数1.2.1 核心函数1.2.2 查看函数1.2.3 设置函数1.2.4 注册函数1.2.5 转换函数1.2.6 加载函数 2. nn.Sequential()2.1 基本定义2.2 Sequential类不同的实现2.3 nn.Sequential()的本质作用 3. nn.ModuleList参考资料 本篇文章主要介绍…

应用密码学—(扩展)欧几里得、DES、RSA、SHA-1算法

1. 欧几里得算法 1.1 分析算法的实现原理 欧几里德(Euclid)算法,也既常说的“辗转相除法”,公式为gcd(m, n) { return gcd(n, m%n); },对于任意两个正整数m、n,每次求的一个数字r m % n,然后把…

sideloadly 苹果自签和sidestore手机续签ipa记录

sideloadly 地址:https://sideloadly.io/#download 直接安装对应系统软件,然后吧ipa 拖到里面续签,缺点每7天需要电脑续签 如果续签保留数据需要对应的位置开启 enable file sharing 勾选 和 bundle id 修改 注意的地方需要电脑和手机appi…

无人机热成像分析图谱原理

一、热成像原理 热成像,也称为红外热成像或红外成像,是一种利用红外辐射(通常指的是热辐射)来获取物体表面温度分布信息的成像技术。在无人机上集成热成像传感器,可以远程捕获并分析目标物体的热特征,不受…

卸载node,下载nvm,下载node过程步骤及错误记录

网上有很多步骤,先跟着网上的步骤来: 卸载node和下载nvm步骤: window下安装并使用nvm(含卸载node、卸载nvm、全局安装npm)-CSDN博客 使用NVM下载和安装NodeJS教程-CSDN博客 出现的问题: 1.nvm配置sett…

ENVI5.6使用笔记

目录 1. ENVI安装扩展2. ENVI绘制高光谱3D数据立体图3. 对本次工作存档,下次打开软件可直接续档 1. ENVI安装扩展 从ENVI App Store下载商店envi_app_store.zip,解压得到ENVI_App_Store.sav,将其复制到ENVI的扩展文件夹下(例如E:…

中国桥梁空间分布数据

2020年中国桥梁空间分布数据,共包含102000余条数据。 数据属性表包括:地级市名、区县名、桥梁名称和经纬度。有shp和EXCEl两种格式数据。目前暂没有广西、广东和台湾三个省份数据。

【js】数组元素拼接、数组元素类型转换

一、数组元素拼接 二、数组元素类型转换 1、字符串数组 转换成 数字型数组 [1, 2, 3].map(Number) // [1,2,3] 2、数字型数组 转换成 字符串数组 [1, 2, 3].map(String) // [1, 2, 3]

干货:js解析url参数的作用、场景、方法和安全策略。

涉及到Web3D开发,Three.js和Babylon.js是两个备受推崇的引擎。它们都是基于WebGL的开源3D引擎,用于创建交互式的3D图形应用程序,但要细论起来,three.js普及度远超Babylon .js. 一、二者的介绍 Three.js: Three.js 是…

GitCode见证:华为云DevUI如何定义下一代前端开发

在当今快速发展的数字时代,前端开发已成为企业数字化转型的关键一环。随着用户对交互体验的期待不断增长,拥有一个强大、灵活且易于使用的前端解决方案变得至关重要。 DevUI的诞生,源于华为对研发工具的深入理解和长期积累,作为一…

【C++】开源:量化金融计算库QuantLib配置与使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍量化交易库QuantLib配置与使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&#…

linux模拟aix盘19c单机asm安装补丁

linux模拟盘aix盘vi /etc/rc.d/rc.local/bin/ln /dev/sda /dev/rhdisk2/bin/ln /dev/sdb /dev/rhdisk3 /bin/chown grid:oinstall /dev/rhdisk*chmod 660 /dev/rhdisk* 一、19c安装GI(Standalone Oracle Restart) su - grid配置环境变量vi .profileex…

红酒与摄影:捕捉酒香与光影的交融

在摄影的世界里,每一个画面都是一段故事,每一束光线都是情感的载体。当红酒遇上摄影,两者之间的交融,仿佛开启了一场关于色彩、光影与情感的视觉盛宴。今天,就让我们一起探索红酒与摄影的奇妙结合,感受雷盛…

为什么我感觉 C 语言在 Linux 下执行效率比 Windows 快得多?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「Linux的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!Windows的终端或者叫控制台…

反射--通俗易懂

一、反射(Reflection) 反射就是:加载类,并允许以编程的方式解剖类中的各种成分(成员变量、方法、构造器等) 动态语言,是一类在运行时可以改变其结构的语言:例如新的函数、对象、甚至代码可以被引进,已有的函数可以被删除或是其他…