亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問(wèn)

瀏覽:128日期:2022-06-30 08:28:51

問(wèn)題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類(lèi),使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會(huì)返回'無(wú)值'

def filter(value): if value:return '有值' else:return '無(wú)值' # 下面就簡(jiǎn)寫(xiě)了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過(guò)filyer()之后變成'無(wú)值'

問(wèn)題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說(shuō)我用PHP自己寫(xiě)的爬蟲(chóng)大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁(yè)面放到隊(duì)列里,按類(lèi)別分類(lèi),例如分頁(yè)的列表頁(yè)一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁(yè)一個(gè)隊(duì)列。2.然后利用xpath來(lái)爬取相關(guān)內(nèi)容頁(yè)的數(shù)據(jù),爬取的過(guò)程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對(duì)大部分爬蟲(chóng)框架也大概都是這種思路吧,無(wú)非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線(xiàn)程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
排行榜
主站蜘蛛池模板: 精品极品三级久久久久 | 国产精品特黄一级国产大片 | 日本不卡高清免费v | 日本免费va毛片在线 | 久久七 | 欧美黑人巨大白妞出浆 | 漂亮大学生一级毛片 | 夜色资源在线观看免费 | 国产a∨一区二区三区香蕉小说 | 国产免费福利体检区久久 | 成人精品一级毛片 | 日韩欧美中文字幕出 | 亚洲国产成人久久一区www妖精 | 久久久精品午夜免费不卡 | 就去色综合| 免费特黄一级欧美大片在线看 | 欧美日韩在线网站 | 久久er国产精品免费观看2 | 国产片毛片 | 免费成人毛片 | 亚洲综合精品成人啪啪 | 国产精品一区二区国产 | 特级黄国产片一级视频播放 | 亚洲线精品久久一区二区三区 | 在线看国产 | 小明免费视频一区二区 | 国产美女精品久久久久中文 | 成人久久18免费网站入口 | 国产爱v | 久久中文亚洲国产 | 午夜香蕉 | 在线免费一级片 | 欧洲美女与黑人性大战 | 色婷婷狠狠久久综合五月 | 亚洲成人偷拍自拍 | 久久国产区| 黑人日b| 九九热视频精品在线 | 国产成人精品久久免费动漫 | 亚洲精品中文字幕乱码 | 久久99国产精品久久99果冻传媒 |