文章詳情頁

在python下實(shí)現(xiàn)word2vec詞向量訓(xùn)練與加載實(shí)例

瀏覽：3日期：2022-07-22 08:14:49

項(xiàng)目中要對(duì)短文本進(jìn)行相似度估計(jì)，word2vec是一個(gè)很火的工具。本文就word2vec的訓(xùn)練以及加載進(jìn)行了總結(jié)。

word2vec的原理就不描述了，word2vec詞向量工具是由google開發(fā)的，輸入為文本文檔，輸出為基于這個(gè)文本文檔的語料庫訓(xùn)練得到的詞向量模型。

通過該模型可以對(duì)單詞的相似度進(jìn)行量化分析。

word2vec的訓(xùn)練方法有2種，一種是通過word2vec的官方手段，在linux環(huán)境下編譯并執(zhí)行。

在github上下載word2vec的安裝包，然后make編譯。查看demo-word.sh腳本，得到word2vec的執(zhí)行命令：

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

參數(shù)解釋：

1）-train：需要訓(xùn)練的語料庫，text8為語料庫文件名

2）-output：輸出的詞向量文件，vectors.bin為輸出詞向量文件名，.bin后綴為二進(jìn)制文件。若要以文檔的形式查看詞向量文件，需要將-binary參數(shù)的值由1改為0

3）-cbow：是否使用cbow模型進(jìn)行訓(xùn)練。參數(shù)為1表示使用cbow，為0表示不使用cbow

4）-size：詞向量的維數(shù)，默認(rèn)為200維。

5）-window：訓(xùn)練過程中截取上下文的窗口大小，默認(rèn)為8，即考慮一個(gè)詞前8個(gè)和后8個(gè)詞

6）-negative：若參數(shù)非0，表明采樣隨機(jī)負(fù)采樣的方法，負(fù)樣本子集的規(guī)模默認(rèn)為25。若參數(shù)值為0,表示不使用隨機(jī)負(fù)采樣模型。使用隨機(jī)負(fù)采樣比Hierarchical Softmax模型效率更高。

7）-hs：是否采用基于Hierarchical Softmax的模型。參數(shù)為1表示使用，0表示不使用

8）-sample：語料庫中的詞頻閾值參數(shù)，詞頻大于該閾值的詞，越容易被采樣。默認(rèn)為e^-4.

9）-threads：開啟的線程數(shù)目，默認(rèn)為20.

10）-binary：詞向量文件的輸出形式。1表示輸出二進(jìn)制文件，0表示輸出文本文件

11）-iter：訓(xùn)練的迭代次數(shù)。一定范圍內(nèi)，次數(shù)越高，訓(xùn)練得到的參數(shù)會(huì)更準(zhǔn)確。默認(rèn)值為15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例為訓(xùn)練一個(gè)名mytext.txt的文檔。設(shè)置輸出詞向量的格式為.txt文本文檔，所以還需要將-binary參數(shù)設(shè)置為0.

訓(xùn)練模型采用基于隨機(jī)負(fù)采樣的cbow模型。由于短文本字?jǐn)?shù)極為有限，所以-window參數(shù)設(shè)置為5，設(shè)置詞向量的維數(shù)

為200，為了使得到的參數(shù)更準(zhǔn)確，將迭代次數(shù)增加至30.其他參數(shù)使用默認(rèn)值。

訓(xùn)練以后得到一個(gè)txt文本，該文本的內(nèi)容為：每行一個(gè)單詞，單詞后面是對(duì)應(yīng)的詞向量。

gensim加載詞向量：

保存詞向量模型到pkl中（注意：這里是對(duì)詞向量模型進(jìn)行構(gòu)建）

from gensim.models import KeyedVectorsif not os.path.exists(pkl_path): # 如果pickle模型不存在，則構(gòu)建一個(gè) print ’詞向量模型不存在，開始構(gòu)建詞向量模型...’ Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加載詞向量模型 f = file(pkl_path, ’wb’) pickle.dump(Word2Vec, f, True) f.close() print ’詞向量模型構(gòu)建完畢...’f= file(pkl_path, ’rb’)# 打開pkl文件word2vec=pickle.load(f)# 載入pkl

第二種方法是使用gensim模塊訓(xùn)練詞向量：

from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetry: import cPickle as pickleexcept ImportError: import picklesentences = LineSentence(path)# path為要訓(xùn)練的txt的路徑# 對(duì)sentences表示的語料庫進(jìn)行訓(xùn)練，訓(xùn)練200維的詞向量，窗口大小設(shè)置為5，最小詞頻設(shè)置為5model = Word2Vec(sentences, size=200, window=5, min_count=5)model.save(model_path)#model_path為模型路徑。保存模型，通常采用pkl形式保存，以便下次直接加載即可# 加載模型model = Word2Vec.load(model_path)

完整的訓(xùn)練，加載通常采用如下方式：

if not os.path.exists(model_path): sentences = LineSentence(path) model = Word2Vec(sentences, size=200, window=5, min_count=5) model.save(model_path)model = Word2Vec.load(model_path)

這樣一來，就可以通過pkl化的詞向量模型進(jìn)行讀取了。pkl的目的是為了保存程序中變量的狀態(tài)，以便下次直接訪問，

不必重新訓(xùn)練模型。

詳細(xì)內(nèi)容間gensim官方庫

https://radimrehurek.com/gensim/models/word2vec.html

以上這篇在python下實(shí)現(xiàn)word2vec詞向量訓(xùn)練與加載實(shí)例就是小編分享給大家的全部內(nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持好吧啦網(wǎng)。

python

上一條：Python生成隨機(jī)驗(yàn)證碼代碼實(shí)例解析下一條：Python實(shí)現(xiàn)尋找回文數(shù)字過程解析

相關(guān)文章：

1. 使用css實(shí)現(xiàn)全兼容tooltip提示框2. 前端html+css實(shí)現(xiàn)動(dòng)態(tài)生日快樂代碼3. CSS3實(shí)例分享之多重背景的實(shí)現(xiàn)(Multiple backgrounds)4. Vue3使用JSX的方法實(shí)例(筆記自用)5. JavaScript數(shù)據(jù)類型對(duì)函數(shù)式編程的影響示例解析6. 詳解CSS偽元素的妙用單標(biāo)簽之美7. Vue3獲取DOM節(jié)點(diǎn)的3種方式實(shí)例8. 利用CSS3新特性創(chuàng)建透明邊框三角9. vue實(shí)現(xiàn)將自己網(wǎng)站(h5鏈接)分享到微信中形成小卡片的超詳細(xì)教程10. 不要在HTML中濫用div

排行榜

					
					Java基礎(chǔ)之Object類詳解
利用CSS3新特性創(chuàng)建透明邊框三角
python GUI庫圖形界面開發(fā)之PyQt5滑塊條控件QSlider詳細(xì)使用方法與實(shí)例
基于python計(jì)算滾動(dòng)方差(標(biāo)準(zhǔn)差)talib和pd.rolling函數(shù)差異詳解
python使用ctypes庫調(diào)用DLL動(dòng)態(tài)鏈接庫
ASP.NET MVC實(shí)現(xiàn)橫向展示購物車
使用UML編寫Java應(yīng)用程序 (1)
深度思考JDK8中日期類型該如何使用詳解
原生JS實(shí)現(xiàn)pc端輪播圖效果
關(guān)于Python字符串顯示u...的解決方式
python3 通過 pybind11 使用Eigen加速代碼的步驟詳解