亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

算法 - python ahocorasick 從本地文件讀取文本,進行關鍵字匹配,匹配失敗

瀏覽:81日期:2022-07-23 09:06:00

問題描述

使用Python+pyahocorasick,匹配關鍵字,關鍵字大概在10-20個漢字之間。

構建ahocorasick的文本,是從本地文件key_word的讀入。格式如下:

母嬰專區<輔食<面仔/面條:嬰幼兒,幼兒,嬰兒,兒童,寶寶面條,細面,粗面,手工面,蔬菜面,營養面,碎面,掛面,面仔

匹配結果為空。

代碼如下:

import ahocorasickA = ahocorasick.Automaton()title = ’Hello Kitty3色蔬菜細面300克 嬰兒幼兒營養面條寶寶輔食面條’with open(’key_word’, ’r’) as f: for line in f.readlines():line = line.strip()line = str(line.split(’<’)) A.add_word(line, line)A.make_automaton()aa = A.iter(title)for item in aa: print(item) # 打印為空值

請有操作過這種問題的大大,幫忙看看,能提供示例代碼,或者提供處理思路,謝謝!

問題解答

回答1:

研究了兩天,自己實現了這個功能

本地文件有太多重復關鍵字,匹配并不是100%,供參考

參考代碼如下:

import ahocorasickA = ahocorasick.Automaton()titles = [’Hello Kitty3色蔬菜細面300克 嬰兒幼兒營養面條寶寶輔食面條’]word_dict = {}with open(’categories.csv’, ’r’) as f: for line in f.readlines():line = line.strip()word_key = line.split(’:’)[0]word_value = list(line.split(’:’)[1].split(’|’))word_dict[word_key] = word_valueline = (line.split(’:’)[1].split(’|’))for word in line: if word == '':continue A.add_word(word, word)A.make_automaton()for title in titles: category = [] aa = A.iter(title) ret = [] matches = {} for (k,v) in aa:matches[v] = 1 for (k,v) in matches.items():ret.append(k) for value in word_dict.items():if ret[0] in value[1]: category.append(value[0]) #關鍵字太多,所以寫死了一個keyword匹配的結果 #print(ret[0], value[0], value[1]) print(category[0])

打印結果:母嬰專區<輔食<面仔/面條

標簽: Python 編程
主站蜘蛛池模板: 国产免费一级高清淫日本片 | 黄网址大全免费观看免费 | 国产成人免费视频 | 福利一区二区三区视频在线观看 | a级欧美 | 国内精品自在自线视频香蕉 | 五月桃花网婷婷亚洲综合 | 九九九精品视频免费 | 国产一级免费在线观看 | 欧美影院一区二区 | 精品中文字幕在线观看 | 色的视频在线观看免费播放 | 成人au免费视频影院 | 久久97精品久久久久久清纯 | 日本黄色不卡视频 | 我们不能是朋友未删减版在线看 | 狠狠色噜噜狠狠狠狠2022 | 亚洲欧美日本韩国 | 8888四色奇米在线观看免费看 | 欧美一级片毛片免费观看视频 | 亚洲国产精品影院 | 在线看a级片 | 国产一级αv片免费观看 | 伊在人香蕉99久久 | 国产一级一级毛片 | 精品一区二区三区在线观看视频 | 91在线高清视频 | 美国免费三片在线观看 | 97视频免费在线 | 91福利精品老师国产自产在线 | 露脸一二三区国语对白 | 7m凹凸国产刺激在线视频 | 中文字幕亚洲欧美日韩不卡 | 久久久999国产精品 久久久99视频 | 精品美女在线观看 | 免费播放拍拍视频在线观看 | 久久中文字幕美谷朱里 | 免费中文字幕在线 | 欧美专区在线播放 | 日韩亚洲综合精品国产 | 国产视频一区二区在线观看 |