如何用python进行中文分词 - IIIFF互动问答平台

如何用python进行中文分词

用python中的第三方库jieba实现对一段中文进行分词。

东西/原料

python 3.8.2（其他版本也可以）
pycharm 2020.01（其他版本也可以）

方式/步调

1
在本次教程中，我们采用pycharm进行编程。起首领会一下jieba库，jieba库是优异的中文分词第三方库。
jeiba库分词的道理：jieba分词依靠中文词库，操纵一个中文词库，确定中文字符之间的联系关系概率，中文字符间概率大的构成词组，形当作分词成果。
2
安装jieba库：
在桌面摁下“win”+“r”，输入cmd，接着输入“pip install jieba”，期待号令交运行完当作，当呈现“successful”就申明jieba库已经安装当作功了。
3
jieba库有三种分词模式，切确模式、全模式、搜刮引擎模式。
切确模式：把文本切确地且分隔，不存在冗余单词。
全模式：把文本中所有可能的词语都扫描出来，词与词之间存在反复部门，有冗余。
搜刮引擎模式：在切确模式根本上，对长词再次切分。
4
jieba库常用函数：
1、jieba.lcut(s) 切确模式，返回一个列表类型的分词成果
2、jieba.lcut(s, cut_all=True) 全模式，返回一个列表类型的分词成果，有冗余
3、jeiba.lcut_for_search(s) 搜刮引擎模式，返回一个列表类型的分词成果，存在冗余
（其他函数操作可以参照官方文档）
5
打开pycharm，点击左上角“File”-“New Project”新建一个项目（图1），选择肆意目次，选择python 3.8诠释器，点击“cerate”，在project处右键点击“New”-“Python File”，肆意取一个名字回车
6
在新建的py文件中输入：

import jieba
txt = "把文本切确地分隔，不存在冗余单词"
# 切确模式
words_lcut = jieba.lcut(txt)
print(words_lcut)
# 全模式
words_lcut_all = jieba.lcut(txt, cut_all=True)
print(words_lcut_all)
# 搜刮引擎模式
words_lcut_search = jieba.lcut_for_search(txt)
print(words_lcut_search)

代码即可实现对字符串txt的分词
END

注重事项

文章利用pycharm进行编程，也可以利用IDLE进行编程。
jieba库在安装时，若频仍呈现timeout，可以过段时候再试，或者运行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 利用清华源进行安装
官网文档请在pypi搜刮jieba

发表于 2020-04-24 19:00
阅读 ( 2359 )
分类：其他类型

作家榜 »

xiaonan123 189 文章
汤依妹儿 97 文章
luogf229 46 文章
jy02406749 45 文章
小凡 34 文章
Daisy萌 32 文章
我的QQ3117863681 24 文章
华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具