基于python爬取鏈家二手房信息代碼示例
基本環(huán)境配置
python 3.6 pycharm requests parsel time相關(guān)模塊pip安裝即可
確定目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)
哦豁,這個(gè)價(jià)格..................看到都覺(jué)得腦闊疼
通過(guò)開(kāi)發(fā)者工具,可以直接找到網(wǎng)頁(yè)返回的數(shù)據(jù)~
每一個(gè)二手房的數(shù)據(jù),都在網(wǎng)頁(yè)的 li 標(biāo)簽里面,咱們可以獲取網(wǎng)頁(yè)返回的數(shù)據(jù),然后通過(guò)解析,就可以獲取到自己想要的數(shù)據(jù)了~
獲取網(wǎng)頁(yè)數(shù)據(jù)
import requestsheaders = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’}response = requests.get(url=url, headers=headers)
解析網(wǎng)頁(yè)數(shù)據(jù)
import parselselector = parsel.Selector(response.text)lis = selector.css(’.sellListContent li’)dit = {}for li in lis: title = li.css(’.title a::text’).get() dit[’標(biāo)題’] = title positionInfo = li.css(’.positionInfo a::text’).getall() info = ’-’.join(positionInfo) dit[’開(kāi)發(fā)商’] = info houseInfo = li.css(’.houseInfo::text’).get() dit[’房子信息’] = houseInfo followInfo = li.css(’.followInfo::text’).get() dit[’發(fā)布周期’] = followInfo Price = li.css(’.totalPrice span::text’).get() dit[’售價(jià)/萬(wàn)’] = Price unitPrice = li.css(’.unitPrice span::text’).get() dit[’單價(jià)’] = unitPrice csv_writer.writerow(dit) print(dit)
保存數(shù)據(jù)
import csvf = open(’二手房信息.csv’, mode=’a’, encoding=’utf-8-sig’, newline=’’)csv_writer = csv.DictWriter(f, fieldnames=[’標(biāo)題’, ’開(kāi)發(fā)商’, ’房子信息’, ’發(fā)布周期’, ’售價(jià)/萬(wàn)’, ’單價(jià)’])csv_writer.writeheader()csv_writer.writerow(dit)f.close()
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. JSP數(shù)據(jù)交互實(shí)現(xiàn)過(guò)程解析2. Yii2.0引入CSS,JS文件方法3. vue使用webSocket更新實(shí)時(shí)天氣的方法4. Nginx+php配置文件及原理解析5. 解決啟動(dòng)django,瀏覽器顯示“服務(wù)器拒絕訪(fǎng)問(wèn)”的問(wèn)題6. 討論CSS中的各類(lèi)居中方式7. 關(guān)于HTML5的img標(biāo)簽8. python 生成任意形狀的凸包圖代碼9. ASP.NET MVC獲取多級(jí)類(lèi)別組合下的產(chǎn)品10. python virtualenv和flask安裝沒(méi)有名為flask的模塊
