網(wǎng)頁(yè)爬蟲 - 關(guān)于Python的編碼與解碼問(wèn)題
問(wèn)題描述
在python2中用urllib模塊去請(qǐng)求淘寶的IP地址查詢接口,返回的是一段json字符串,如下所示:
import urllibdef get_data(ip): url = 'http://ip.taobao.com/service/getIpInfo.php?ip=' + ip data = urllib.urlopen(url).read() return dataif __name__ == '__main__': result = get_data('59.151.5.5') print(result)
返回結(jié)果如下:
{'code':0,'data':{'country':'u4e2du56fd','country_id':'CN','area':'u534eu5317','area_id':'100000','region':'u5317u4eacu5e02','region_id':'110000','city':'u5317u4eacu5e02','city_id':'110100','county':'','county_id':'-1','isp':'u4e16u7eaau4e92u8054','isp_id':'100021','ip':'59.151.5.5'}}
在返回結(jié)果中,中文是以 unicode字符串表示,這樣不方便閱讀,我想讓結(jié)果中中文部分直接用中文表示,就像下面這樣:
'city':'北京','ISP':'中國(guó)電信'
如果是python3的話返回又是這樣的:
b’{'code':0,'data':{'country':'u4e2du56fd','country_id':'CN','area':'u534eu5317','area_id':'100000','region':'u5317u4eacu5e02','region_id':'110000','city':'u5317u4eacu5e02','city_id':'110100','county':'','county_id':'-1','isp':'u4e16u7eaau4e92u8054','isp_id':'100021','ip':'59.151.5.5'}}’
請(qǐng)問(wèn)在 python2和python3中分別該如何轉(zhuǎn)碼呢?
問(wèn)題解答
回答1:Python3中有兩個(gè)方法可以解決你的問(wèn)題:
print()函數(shù)
Python3開始編碼定義為UTF-8,所以你懂的,直接打印就行:
>>> print('u5317u4eacu5e02')北京市
利用Unicode數(shù)據(jù)庫(kù)
有個(gè)自帶的庫(kù)unicodedata,可以調(diào)用這個(gè)庫(kù)中的兩個(gè)方法,如下:
>>> import unicodedata as u# 這段字符串是來(lái)自你給提供的內(nèi)容>>> s = 'u5317u4eacu5e02'>>> s1 = ’’>>> for i in s:s1 += u.lookup(u.name(i))# 輸出結(jié)果 >>> s1’北京市’
補(bǔ)充一下,如果單獨(dú)處理字符可以用上面的方法,但是剛才回答完才發(fā)現(xiàn)你的返回值為byte對(duì)象,Python3中這種對(duì)象處理很簡(jiǎn)單,修改你的代碼如下:
import urllib.request as rdef get_data(ip): url = 'http://ip.taobao.com/service/getIpInfo.php?ip=' + ip data = r.urlopen(url).read() return dataif __name__ == '__main__': result = get_data('59.151.5.5') print(eval(result))
我測(cè)試完的返回值是:
{’data’: {’area_id’: ’100000’, ’isp’: ’世紀(jì)互聯(lián)’, ’country_id’: ’CN’, ’country’: ’中國(guó)’, ’region_id’: ’110000’, ’county_id’: ’-1’, ’ip’: ’59.151.5.5’, ’city’: ’北京市’, ’area’: ’華北’, ’county’: ’’, ’city_id’: ’110100’, ’isp_id’: ’100021’, ’region’: ’北京市’}, ’code’: 0}
希望采納
回答2:Python 3里你可以通過(guò)decode方法把bytes轉(zhuǎn)換str:
result = get_data('59.151.5.5').decode(’raw_unicode_escape’)回答3:
這樣就好了==
import jsonprint json.dumps(json.loads(result), ensure_ascii=False)回答4:
請(qǐng)使用py3
相關(guān)文章:
1. java - public <T> T findOne(T record) 這是什么意思2. css - 關(guān)于ul的布局3. javascript - 前端開發(fā) 本地靜態(tài)文件頻繁修改,預(yù)覽時(shí)的緩存怎么解決?4. android - 優(yōu)酷的安卓及蘋果app還在使用flash技術(shù)嗎?5. docker不顯示端口映射呢?6. mysql數(shù)據(jù)庫(kù)每次查詢是一條線程嗎?7. python - linux怎么在每天的凌晨2點(diǎn)執(zhí)行一次這個(gè)log.py文件8. javascript - 我的站點(diǎn)貌似被別人克隆了, google 搜索特定文章,除了域名不一樣,其他的都一樣,如何解決?9. 如何分別在Windows下用Winform項(xiàng)模板+C#,在MacOSX下用Cocos Application項(xiàng)目模板+Objective-C實(shí)現(xiàn)一個(gè)制作游戲的空的黑窗口?10. 小程序怎么加外鏈,語(yǔ)句怎么寫!求救新手,開文檔沒(méi)發(fā)現(xiàn)
