Python jieba結(jié)巴分詞原理及用法解析
1、簡(jiǎn)要說明
結(jié)巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典
2、三種分詞模式
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義
精簡(jiǎn)模式:把句子最精確的分開,不會(huì)添加多余單詞,看起來就像是把句子分割一下
搜索引擎模式:在精簡(jiǎn)模式下,對(duì)長(zhǎng)詞再度切分
# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’我去北京天安門廣場(chǎng)跳舞’ a = jieba.lcut(str1, cut_all=True) # 全模式 print(’全模式:{}’.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print(’搜索引擎模式:{}’.format(c))
運(yùn)行
3、某個(gè)詞語不能被分開
# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) # 如果不把桃花俠分開 jieba.add_word(’桃花俠’) d = jieba.lcut(str1) # 默認(rèn)是精簡(jiǎn)模式 print(d)
運(yùn)行
4、 某個(gè)單詞必須被分開
# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: # HMM參數(shù),默認(rèn)為True ’’’HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基于概率的統(tǒng)計(jì)分析模型, 用來描述一個(gè)系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。 在 jieba 中,對(duì)于未登錄到詞庫的詞,使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法, 其大致原理是: 采用四個(gè)隱含狀態(tài),分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結(jié)尾。 通過標(biāo)注好的分詞訓(xùn)練集,可以得到 HMM 的各個(gè)參數(shù),然后使用 Viterbi 算法來解釋測(cè)試集,得到分詞結(jié)果。 ’’’ str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡(jiǎn)模式,且不使用HMM模型 print(’精簡(jiǎn)模式:{}’.format(b)) # 分開大戰(zhàn)為大和戰(zhàn) jieba.suggest_freq((’大’, ’戰(zhàn)’), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print(’分開:{}’.format(e))
運(yùn)行
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. idea設(shè)置自動(dòng)導(dǎo)入依賴的方法步驟2. ASP刪除img標(biāo)簽的style屬性只保留src的正則函數(shù)3. css代碼優(yōu)化的12個(gè)技巧4. 利用ajax+php實(shí)現(xiàn)商品價(jià)格計(jì)算5. 教你如何寫出可維護(hù)的JS代碼6. IDEA版最新MyBatis程序配置教程詳解7. 使用Python和百度語音識(shí)別生成視頻字幕的實(shí)現(xiàn)8. idea不能自動(dòng)補(bǔ)全yml配置文件的原因分析9. phpstudy apache開啟ssi使用詳解10. .NET SkiaSharp 生成二維碼驗(yàn)證碼及指定區(qū)域截取方法實(shí)現(xiàn)
