如何用python进行中文分词

用python中的第三方库jieba实现对一段中文进行分词。

东西/原料

  • python 3.8.2(其他版本也可以)
  • pycharm 2020.01(其他版本也可以)

方式/步调

  1. 1

    在本次教程中,我们采用pycharm进行编程。起首领会一下jieba库,jieba库是优异的中文分词第三方库。

    jeiba库分词的道理:jieba分词依靠中文词库,操纵一个中文词库,确定中文字符之间的联系关系概率,中文字符间概率大的构成词组,形当作分词成果。

  2. 2

    安装jieba库:

    在桌面摁下“win”+“r”,输入cmd,接着输入“pip install jieba”,期待号令交运行完当作,当呈现“successful”就申明jieba库已经安装当作功了。

  3. 3

    jieba库有三种分词模式,切确模式、全模式、搜刮引擎模式。

    切确模式:把文本切确地且分隔,不存在冗余单词。

    全模式:把文本中所有可能的词语都扫描出来,词与词之间存在反复部门,有冗余。

    搜刮引擎模式:在切确模式根本上,对长词再次切分。

  4. 4

    jieba库常用函数:

    1、jieba.lcut(s) 切确模式,返回一个列表类型的分词成果

    2、jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词成果,有冗余

    3、jeiba.lcut_for_search(s) 搜刮引擎模式,返回一个列表类型的分词成果,存在冗余

    (其他函数操作可以参照官方文档)

  5. 5

    打开pycharm,点击左上角“File”-“New Project”新建一个项目(图1),选择肆意目次,选择python 3.8诠释器,点击“cerate”,在project处右键点击“New”-“Python File”,肆意取一个名字回车

  6. 6

    在新建的py文件中输入:


    import jieba
    txt = "把文本切确地分隔,不存在冗余单词"
    # 切确模式
    words_lcut = jieba.lcut(txt)
    print(words_lcut)
    # 全模式
    words_lcut_all = jieba.lcut(txt, cut_all=True)
    print(words_lcut_all)
    # 搜刮引擎模式
    words_lcut_search = jieba.lcut_for_search(txt)
    print(words_lcut_search)


    代码即可实现对字符串txt的分词

    END

注重事项

  • 文章利用pycharm进行编程,也可以利用IDLE进行编程。
  • jieba库在安装时,若频仍呈现timeout,可以过段时候再试,或者运行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 利用清华源进行安装
  • 官网文档请在pypi搜刮jieba
  • 发表于 2020-04-24 19:00
  • 阅读 ( 2335 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
联系我们:uytrv@hotmail.com 问答工具