selenium - 請(qǐng)教一下 Python 爬蟲工具
問題描述
1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數(shù)據(jù)
我目前使用的是BeautifulSoup, selenium 和phantomjs
代碼 demo 大概是
driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)
問題是:1) 我不知道click 有沒有執(zhí)行成功, click 的元素對(duì)不對(duì), driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調(diào)了 js里的 click() 方法,并沒有觸發(fā) target 怎么辦3)我不知道是先渲染page_source, 還是 應(yīng)該先 click, 假設(shè)執(zhí)行成功了 click, 是不是也不會(huì)再 source 里返回了
啊, 謝各位爬蟲大佬了
問題解答
回答1:說的是什么意思?百思不得其解啊。。。
selenium自動(dòng)化,click能模仿用戶點(diǎn)擊,就跟你自己在頁(yè)面上點(diǎn)擊一樣,一切都在虛擬瀏覽器驅(qū)動(dòng)中進(jìn)行。
看你的業(yè)務(wù)邏輯啊。。。比如有些數(shù)據(jù)要點(diǎn)擊后才有,那就先click再獲取源代碼。
相關(guān)文章:
1. docker-compose 為何找不到配置文件?2. boot2docker無法啟動(dòng)3. docker images顯示的鏡像過多,狗眼被亮瞎了,怎么辦?4. java中返回一個(gè)對(duì)象,和輸出對(duì)像的值,意義在哪兒5. android - E/dalvikvm: Could not find class java.nio.file.Path,6. python - linux怎么在每天的凌晨2點(diǎn)執(zhí)行一次這個(gè)log.py文件7. android - 哪位大神知道java后臺(tái)的api接口的對(duì)象傳到前端后輸入日期報(bào)錯(cuò),是什么情況?求大神指點(diǎn)8. mysql數(shù)據(jù)庫(kù)每次查詢是一條線程嗎?9. python是怎么實(shí)現(xiàn)過濾 #注釋代碼的?10. 請(qǐng)問一下各位老鳥 我一直在學(xué)習(xí)獨(dú)孤九賤 現(xiàn)在是在tp5 今天發(fā)現(xiàn) 這個(gè)系列視頻沒有實(shí)戰(zhàn)
