文章詳情頁
網(wǎng)頁爬蟲 - Python:爬蟲的中文編碼問題?
瀏覽:126日期:2022-08-26 10:56:16
問題描述
爬取中文網(wǎng)頁后正則匹配出中文,得打UTF-8的編碼字符
將其輸出為.csv文件
在.CSV中顯示為亂碼
用記事本打開.csv又可以正常顯示為中文
有沒有大神指點(diǎn)是怎么一回事?怎樣才能在Excel里直接看到中文?
問題解答
回答1:簡單地方法是用pandas的to_excel方法轉(zhuǎn)化成.xlsx文件,因?yàn)?xlsx默認(rèn)編碼是默認(rèn)支持Excel的,區(qū)別當(dāng)然是無法用記事本打開。
import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)
我這里沒有windows可以測試,可以嘗試寫入編碼為gb2312或者gbk試試。
表格文件類I/O的話其實(shí)pandas更方便一點(diǎn)。
回答2:abs1=abs1.decode().encode(’gbk’)
回答3:excel默認(rèn)使用的是GBK編碼。
回答4:新建一個(gè)excel文件,然后點(diǎn) 數(shù)據(jù) 自文本,導(dǎo)入csv文件
相關(guān)文章:
1. mysql - 數(shù)據(jù)庫為什么需要鎖機(jī)制?2. 在MySQL中新增字段時(shí),報(bào)錯(cuò)??3. java - 安卓電視盒子取得了root權(quán)限但是不能安裝第三方應(yīng)用,請問該怎么辦?4. 老哥們求助啊5. javascript - vue-router怎么不能實(shí)現(xiàn)跳轉(zhuǎn)呢6. javascript - angularjs 中數(shù)組的修改問題7. npm鏡像站全新上線8. css3 - 請問一下在移動端CSS布局布局中通常需要用到哪些元素,屬性?9. python - 模擬滑動驗(yàn)證碼,有源碼,求解10. tp6表單令牌
排行榜

熱門標(biāo)簽