文章詳情頁
網(wǎng)頁爬蟲 - Python:爬蟲的中文編碼問題?
瀏覽:147日期:2022-08-26 10:56:16
問題描述
爬取中文網(wǎng)頁后正則匹配出中文,得打UTF-8的編碼字符
將其輸出為.csv文件
在.CSV中顯示為亂碼
用記事本打開.csv又可以正常顯示為中文
有沒有大神指點是怎么一回事?怎樣才能在Excel里直接看到中文?
問題解答
回答1:簡單地方法是用pandas的to_excel方法轉(zhuǎn)化成.xlsx文件,因為.xlsx默認編碼是默認支持Excel的,區(qū)別當(dāng)然是無法用記事本打開。
import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)
我這里沒有windows可以測試,可以嘗試寫入編碼為gb2312或者gbk試試。
表格文件類I/O的話其實pandas更方便一點。
回答2:abs1=abs1.decode().encode(’gbk’)
回答3:excel默認使用的是GBK編碼。
回答4:新建一個excel文件,然后點 數(shù)據(jù) 自文本,導(dǎo)入csv文件
相關(guān)文章:
1. sql語句如何按or排序取出記錄2. python沒入門,請教一個問題3. 多選框?qū)戇M數(shù)據(jù)庫怎么寫4. php如何獲取訪問者路由器的mac地址5. html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器?6. javascript - vue-resource中如何設(shè)置全局的timeout?7. javascript - 這兩種函數(shù)寫法各有什么好處?8. html5和Flash對抗是什么情況?9. 求教一個mysql建表分組索引問題10. 小程序怎么加外鏈,語句怎么寫!求救新手,開文檔沒發(fā)現(xiàn)
排行榜

熱門標(biāo)簽