亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

Java使用httpRequest+Jsoup爬取紅藍球號碼

瀏覽:82日期:2022-08-09 14:38:03
目錄1、Jsoup介紹1.1、簡介1.2、Jsoup的主要功能2、源網(wǎng)站及頁面元素分析2.1、號碼源2.2、dom元素分析3、代碼實現(xiàn)1、Jsoup介紹1.1、簡介

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

1.2、Jsoup的主要功能

1、從一個URL,文件或字符串中解析HTML2、使用DOM或CSS選擇器來查找、取出數(shù)據(jù)3、可操作HTML元素、屬性、文本注意:jsoup是基于MIT協(xié)議發(fā)布的,可放心使用于商業(yè)項目。

2、源網(wǎng)站及頁面元素分析2.1、號碼源

首先,這里我選擇近年來比較穩(wěn)定的數(shù)據(jù)源地址【某網(wǎng)站】截圖如下

Java使用httpRequest+Jsoup爬取紅藍球號碼

2.2、dom元素分析

2.2.1、開獎號碼主體分析

先打開開發(fā)者工具,找到每條開獎號碼對應(yīng)的dom元素

可以看到每一期號碼信息主體在一個<tr>標(biāo)簽中,其中第一個<td>是開獎日期,第二個<td>是開獎期號,第三個<td>是開獎號碼,每個獎號是單獨的標(biāo)簽,紅球的class=rr,籃球沒有設(shè)置樣式

<tr> <td align='center'>2021-06-13</td> <td align='center'>2021065</td> <td style='padding-left:10px;'> <em class='rr'>01</em> <em class='rr'>04</em> <em class='rr'>08</em> <em class='rr'>19</em> <em class='rr'>29</em> <em class='rr'>33</em> <em>16</em></td> <td><strong>362,527,724</strong></td> <td style='color:#999;'><strong>3</strong></td> <td align='center'><strong class='rc'>82</strong></td> <td align='center'> <a rel='external nofollow' target='_blank'><img src='http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg' ></a> <a rel='external nofollow' target='_blank'><img src='http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg' ></a> </td></tr>

2.2.2、頁碼區(qū)域分析

由于我們爬取數(shù)據(jù)的時候,需要進行翻頁操作,所以這里還需要分析翻頁部分的內(nèi)容,繼續(xù)在開發(fā)者工具中,定位頁碼區(qū)域

Java使用httpRequest+Jsoup爬取紅藍球號碼

可以看到頁碼部分是<tbody>中的最后一個<tr>中,翻頁操作的內(nèi)容再class=pg的 <p> 標(biāo)簽中可以拆分為多個<storage>標(biāo)簽數(shù)組,可以分析得出翻頁鏈接的規(guī)律。/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁碼或/zhcw/html/ssq/list_頁碼.html

元素 含義 0 總頁數(shù) 1 總記錄數(shù) 2 第一頁的連接 3 上一頁的鏈接 4 下一頁的鏈接 5 最后一頁的連接 6 當(dāng)前頁數(shù)

<tr> <td colspan='7' style='background:#fdf2e3;'><p class='zhu'></p><p class='pg'> 共<strong>136</strong> 頁 /<strong>2709 </strong>條記錄 <strong><a href='http://www.aoyou183.cn/zhcw/inc/ssq/ssq_wqhg.jsp' rel='external nofollow' >首頁</a></strong> <strong><a href='http://www.aoyou183.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1' rel='external nofollow' >上一頁</a></strong> <strong><a href='http://www.aoyou183.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2' rel='external nofollow' >下一頁</a></strong> <strong><a href='http://www.aoyou183.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136' rel='external nofollow' >末頁</a></strong> 當(dāng)前第<strong> 1 </strong>頁</p> </td> </tr>3、代碼實現(xiàn)

maven引用,這里使用的是Jsoup1.13.1版本

<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>

這使用的是基于jeecg開發(fā)的Job,搭建過程不贅述了,直接看主體代碼。

public void execute(JobExecutionContext arg0) throws JobExecutionException { Integer maxPage=getMaxPage();//獲取總頁數(shù) for(int pageNo=0;pageNo<maxPage;pageNo++){//循環(huán)處理每一頁的數(shù)據(jù) String url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_'+(pageNo+1)+'.html';//拼訪問地址 String strDateFormat = 'yyyy-MM-dd'; SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat); String html = JwtHttpUtil.httpRequest(url, 'GET',null);//訪問對應(yīng)的頁面 Document doc = Jsoup.parse(html);//用Jsoup解析頁面內(nèi)容并且解析為Document Document doc1= Jsoup.parse(doc.getElementsByClass('wqhgt').toString());//wqhgt是table標(biāo)簽的class,這里獲取到開獎號碼的table的內(nèi)容并且解析為Document Elements trs= doc1.getElementsByTag('tr');//根據(jù)tag獲取到所有的tr標(biāo)簽,這里獲取到的是一個Element數(shù)組 logger.info('當(dāng)前頁碼---'+(pageNo+1)+'----'+trs.size()); for(int i=2;i<trs.size()-1;i++){//這里是根據(jù)頁面內(nèi)容確定開獎內(nèi)容是從第三個tr開始到倒數(shù)第二個tr結(jié)束,最后一個tr是翻頁按鈕 try { Elements tds=trs.get(i).getElementsByTag('td'); String kjrq=tds.get(0).text(); String kjqh=tds.get(1).text(); //這里是為了防止重復(fù)拉取,所以做了判斷,如果已存在當(dāng)前期的獎號,就直接跳過 Long count=lotterySsqKjjlService.getCountForJdbc('select count(*) from lottery_ssq_kjjl where SSQ_KJQH=’'+ kjqh + '’'); //下面的內(nèi)容很容易理解,就是可以對照頁面分析部分內(nèi)容看,就不贅述了 if(count>0)break; LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();Elements kjhm=tds.get(2).getElementsByTag('em'); kjhmEntiry.setSsqKjrq(sdf.parse(kjrq)); kjhmEntiry.setSsqKjqh(kjqh);kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));lotterySsqKjjlService.save(kjhmEntiry); } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } private Integer getMaxPage(){ String url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list.html'; String html = JwtHttpUtil.httpRequest(url, 'GET',null); Document doc = Jsoup.parse(html); Document docPageBar= Jsoup.parse(doc.getElementsByClass('pg').toString()); Elements elePageBar = docPageBar.getElementsByTag('strong'); Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text()); return maxPageNo; }

以下是執(zhí)行完成的部分?jǐn)?shù)據(jù)截圖

Java使用httpRequest+Jsoup爬取紅藍球號碼

拉取到基礎(chǔ)數(shù)據(jù)后,我們可以再寫一個job,去計算出每期開獎號碼的指標(biāo),可以進行獎號分析,預(yù)測等。這里簡單實現(xiàn)了部分分析指標(biāo)的計算,以下是主體代碼。

public void run(){ List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString('from LotterySsqKjjlEntity t'); for(int i=0;i<list.size();i++){ LotterySsqKjjlEntity kjjg=list.get(i); logger.info('正在處理:'+kjjg.getSsqKjqh()); kjjg.setSsqMin(kjjg.getSsqR1());//最小號 kjjg.setSsqMax(kjjg.getSsqR6());//最大號 kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號碼跨度 kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, 'jsCnt'));//奇數(shù)個數(shù) kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, 'osCnt'));//偶數(shù)個數(shù) kjjg.setSsqSum(ssqKjjgUtils(kjjg, 'sum'));//號碼和 lotterySsqKjjlService.updateEntitie(kjjg); } logger.info('結(jié)果數(shù)據(jù)條數(shù)'+list.size()); } /** * * @param kjjg * @param opType jsgs=奇數(shù)個數(shù) * @return */ private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){ List<Integer> t =new ArrayList<Integer>(); t.add(kjjg.getSsqR1()); t.add(kjjg.getSsqR2()); t.add(kjjg.getSsqR3()); t.add(kjjg.getSsqR4()); t.add(kjjg.getSsqR5()); t.add(kjjg.getSsqR6()); Integer result=0; switch (opType) { case 'jsCnt': case 'osCnt': int jsgs=0; int osgs=0; for(int i=0;i<t.size();i++){ if(t.get(i)%2==0){ osgs++; }else{ jsgs++; } } if('jsCnt'.equals(opType)){ result=jsgs; }else{ result=osgs; } break; case 'sum': int sum=0; for(int i=0;i<t.size();i++){ sum+=t.get(i); } result=sum; break; default: break; } return result; }

至此,這個簡單的爬蟲就寫完了,可以利用爬過來的這些基礎(chǔ)數(shù)據(jù),進行一些數(shù)據(jù)分析,預(yù)測。

到此這篇關(guān)于Java使用httpRequest+Jsoup爬取紅藍球號碼的文章就介紹到這了,更多相關(guān)Java 爬取紅藍球號碼內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Java
相關(guān)文章:
主站蜘蛛池模板: 妞干网最新 | 国产日本三级欧美三级妇三级四 | 欧美黄色片一级 | 中文一级国产特级毛片视频 | 黄网站色年片在线观看 | 欧美午夜a级精美理论片 | 欧美午夜一艳片欧美精品 | 麻豆国产96在线 | 中国 | 国产精品视频免费播放 | 又黄又爽又猛大片录像 | 国产精品69白浆在线观看免费 | 欧美精品亚洲精品日韩经典 | 国产专区自拍 | 免费看国产一级特黄aa大片 | 中文字幕一区二区三区在线不卡 | 麻豆传媒视频入口 | 亚洲婷婷国产精品电影人久久 | 日本一级特黄大一片免 | jizjizjiz亚洲人| 日韩三级一区二区三区 | 国产精品一区二区手机在线观看 | 香蕉视频免费在线播放 | 成人网在线观看 | 亚洲男女视频 | 免费国产调教视频在线观看 | 激情亚洲网| 亚洲一区欧美日韩 | 欧美成人黑人xx视频免费观看 | 1024cc香蕉在线观看播放中文看 | 孕妇三片高清在线观看 | 欧美精品综合一区二区三区 | 国产精品欧美韩国日本久久 | 亚洲男人的天堂久久香蕉 | 久久久久国产亚洲日本 | 免费三级黄 | 国产精品2020观看久久 | 日韩第1页 | 国产成人成人一区二区 | 国产探花在线视频 | 欧美日韩视频在线观看高清免费网站 | 日本r级在线 |