亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

瀏覽:4日期:2022-06-16 18:40:50
一、項(xiàng)目需求

爬取排行榜小說的作者,書名,分類以及完結(jié)或連載

二、項(xiàng)目分析

目標(biāo)url:“https://www.qidian.com/rank/hotsales?style=1&page=1”

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

通過控制臺(tái)搜索發(fā)現(xiàn)相應(yīng)信息均存在于html靜態(tài)網(wǎng)頁中,所以此次爬蟲難度較低。

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

通過控制臺(tái)觀察發(fā)現(xiàn),需要的內(nèi)容都在一個(gè)個(gè)li列表中,每一個(gè)列表代表一本書的內(nèi)容。

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

在li中找到所需的內(nèi)容

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

找到第兩頁的url“https://www.qidian.com/rank/hotsales?style=1&page=1”“https://www.qidian.com/rank/hotsales?style=1&page=2”對(duì)比找到頁數(shù)變化開始編寫scrapy程序。

三、程序編寫

創(chuàng)建項(xiàng)目太簡(jiǎn)單,不說了

1.編寫item(數(shù)據(jù)存儲(chǔ))

import scrapyclass QidianHotItem(scrapy.Item): name = scrapy.Field() #名稱 author = scrapy.Field() #作者 type = scrapy.Field() #類型 form= scrapy.Field() #是否完載

2.編寫spider(數(shù)據(jù)抓取(核心代碼))

#coding:utf-8from scrapy import Requestfrom scrapy.spiders import Spiderfrom ..items import QidianHotItem#導(dǎo)入下需要的庫(kù)class HotSalesSpider(Spider):#設(shè)置spider的類 name = 'hot' #爬蟲的名稱 qidian_header={'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'} #設(shè)置header current_page = 1 #爬蟲起始頁 def start_requests(self): #重寫第一次請(qǐng)求url='https://www.qidian.com/rank/hotsales?style=1&page=1'yield Request(url,headers=self.qidian_header,callback=self.hot_parse)#Request發(fā)起鏈接請(qǐng)求#url:目標(biāo)url#header:設(shè)置頭部(模擬瀏覽器)#callback:設(shè)置頁面抓起方式(空默認(rèn)為parse) def hot_parse(self, response):#數(shù)據(jù)解析#xpath定位list_selector=response.xpath('//div[@class=’book-mid-info’]')#獲取所有小說for one_selector in list_selector: #獲取小說信息 name=one_selector.xpath('h4/a/text()').extract()[0] #獲取作者 author=one_selector.xpath('p[1]/a[1]/text()').extract()[0] #獲取類型 type=one_selector.xpath('p[1]/a[2]/text()').extract()[0] # 獲取形式 form=one_selector.xpath('p[1]/span/text()').extract()[0] item = QidianHotItem() #生產(chǎn)存儲(chǔ)器,進(jìn)行信息存儲(chǔ) item[’name’] = name item[’author’] = author item[’type’] = type item[’form’] = form yield item #送出信息 # 獲取下一頁URL,并生成一個(gè)request請(qǐng)求 self.current_page += 1 if self.current_page <= 10:#爬取前10頁next_url = 'https://www.qidian.com/rank/hotsales?style=1&page='+str(self.current_page)yield Request(url=next_url,headers=self.qidian_header,callback=self.hot_parse) def css_parse(self,response):#css定位list_selector = response.css('[class=’book-mid-info’]')for one_selector in list_selector: # 獲取小說信息 name = one_selector.css('h4>a::text').extract()[0] # 獲取作者 author = one_selector.css('.author a::text').extract()[0] # 獲取類型 type = one_selector.css('.author a::text').extract()[1] # 獲取形式 form = one_selector.css('.author span::text').extract()[0] # 定義字典 item=QidianHotItem() item[’name’]=name item[’author’] = author item[’type’] = type item[’form’] = form yield item

3.start.py(代替命令行)

在爬蟲項(xiàng)目文件夾下創(chuàng)建start.py。

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

from scrapy import cmdline#導(dǎo)入cmd命令窗口cmdline.execute('scrapy crawl hot -o hot.csv' .split())#運(yùn)行爬蟲并生產(chǎn)csv文件

出現(xiàn)類似的過程代表爬取成功。

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

hot.csv

Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單

總結(jié)

本次爬蟲內(nèi)容還是十分簡(jiǎn)單的因?yàn)橹挥昧藄pider和item,這幾乎是所有scrapy都必須調(diào)用的文件,后期還會(huì)有middlewarse.py,pipelines.py,setting.py需要編寫和配置,以及從javascript和json中提取數(shù)據(jù),難度較大。

到此這篇關(guān)于Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單的文章就介紹到這了,更多相關(guān)Python爬取起點(diǎn)中文網(wǎng)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 一级做a爰性视频 | 毛片 ftp| 国产精品日韩欧美在线 | 亚洲国产第一区二区香蕉 | 国模精品一区二区三区 | 99久久精品免费看国产一区二区 | 中文字幕在线播放 | 男女做污污无遮挡激烈免费 | 欧美高清性色生活片免费观看 | 鲁丝一区二区三区不属 | 免费一级欧美片在线观免看 | 国内一级纶理片免费 | 国产欧美在线观看不卡 | 综合久久网 | 久久精品中文字幕不卡一二区 | 91视频这里只有精品 | 国产成人片 | 50-60岁老妇女一级毛片 | 黄色片中文 | 丝袜网站在线观看 | 欧美高清一级毛片免费视 | 国产美女视频一区 | 久久久久久久国产精品影院 | 美女黄页在线观看 | 国产精品夜色视频一级区 | 久久国产免费观看 | 久草视频福利在线观看 | 女神穿上情趣丝袜啪啪一整晚 | 国产黑人在线 | 老师的丰满大乳奶水视频 | 国产一级爱c片免费观看 | 亚洲人成在线观看男人自拍 | 女人毛片在线 | 国产人妖性视频在线 | 最新在线精品国自拍视频 | 亚洲阿v天堂2021在线观看 | 国产chinese视频在线观看 | 97超精品视频在线观看 | 欧美日韩综合网在线观看 | 黄视频在线免费 | 国产精品福利久久 |