亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Java獲取網(wǎng)頁(yè)數(shù)據(jù)步驟方法詳解

瀏覽:17日期:2022-09-03 17:03:35

在很多行業(yè)當(dāng)中,我們需要對(duì)行業(yè)進(jìn)行分析,就需要對(duì)這個(gè)行業(yè)的數(shù)據(jù)進(jìn)行分類(lèi),匯總,及時(shí)分析行業(yè)的數(shù)據(jù),對(duì)于公司未來(lái)的發(fā)展,有很好的參照和橫向?qū)Ρ取C媲巴ㄟ^(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)獲取是一個(gè)很有效而且快捷的方式。首先我們來(lái)簡(jiǎn)單的介紹一下,利用java對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取的一些步驟,有不足的地方,還望指正,哈哈。屁話(huà)不多說(shuō)了。

其實(shí)一般分為以下步驟:

1:通過(guò)HttpClient請(qǐng)求到達(dá)某網(wǎng)頁(yè)的url訪(fǎng)問(wèn)地址(特別需要注意的是請(qǐng)求方式)

2:獲取網(wǎng)頁(yè)源碼

3:查看源碼是否有我們需要提取的數(shù)據(jù)

4:對(duì)源碼進(jìn)行拆解,一般使用分割,正則或者第三方j(luò)ar包

5:獲取需要的數(shù)據(jù)對(duì)自己創(chuàng)建的對(duì)象賦值

6:數(shù)據(jù)提取保存

下面簡(jiǎn)單的說(shuō)一下在提取數(shù)據(jù)中的部分源碼,以及用途:

/** * 向指定URL發(fā)送GET方法的請(qǐng)求 * * @param url * 發(fā)送請(qǐng)求的URL * @param param * 請(qǐng)求參數(shù),請(qǐng)求參數(shù)應(yīng)該是 name1=value1&name2=value2 的形式。 * @return URL 所代表遠(yuǎn)程資源的響應(yīng)結(jié)果 */ public static String sendGet(String url, String param) { String result = ''; BufferedReader in = null; try { String urlNameString = url; URL realUrl = new URL(urlNameString); // 打開(kāi)和URL之間的連接 URLConnection connection = realUrl.openConnection(); // 設(shè)置通用的請(qǐng)求屬性 connection.setRequestProperty('accept', '*/*'); connection.setRequestProperty('connection', 'Keep-Alive'); connection.setRequestProperty('user-agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)'); // 建立實(shí)際的連接 connection.connect(); // 獲取所有響應(yīng)頭字段 Map<String, List<String>> map = connection.getHeaderFields(); // 定義 BufferedReader輸入流來(lái)讀取URL的響應(yīng) in = new BufferedReader(new InputStreamReader( connection.getInputStream())); //這里如果出現(xiàn)亂碼,請(qǐng)使用帶編碼的InputStreamReader構(gòu)造方法,將需要的編碼設(shè)置進(jìn)去 String line; while ((line = in.readLine()) != null) {result += line; } } catch (Exception e) { System.out.println('發(fā)送GET請(qǐng)求出現(xiàn)異常!' + e); e.printStackTrace(); } // 使用finally塊來(lái)關(guān)閉輸入流 finally { try {if (in != null) { in.close();} } catch (Exception e2) {e2.printStackTrace(); } } return result; }

解析存儲(chǔ)數(shù)據(jù)

public Bid getData(String html) throws Exception { //獲取的數(shù)據(jù),存放在到Bid的對(duì)象中,自己可以重新建立一個(gè)對(duì)象存儲(chǔ) Bid bid = new Bid(); //采用Jsoup解析 Document doc = Jsoup.parse(html); // System.out.println('doc內(nèi)容' + doc.text()); //獲取html標(biāo)簽中的內(nèi)容tr Elements elements = doc.select('tr'); System.out.println(elements.size() + '****條'); //循環(huán)遍歷數(shù)據(jù) for (Element element : elements) { if (element.select('td').first() == null){continue; } Elements tdes = element.select('td'); for(int i = 0; i < tdes.size(); i++){this.relation(tdes,tdes.get(i).text(),bid,i+1); } } return bid; }

得到的數(shù)據(jù)

Bid { h2 = ’詳見(jiàn)內(nèi)容’, itemName = ’訴訟服務(wù)中心設(shè)備采購(gòu)’, item = ’貨物/辦公消耗用品及類(lèi)似物品/其他辦公消耗用品及類(lèi)似物品’, itemUnit = ’詳見(jiàn)內(nèi)容’, areaName = ’港北區(qū)’, noticeTime = ’2018年10月22日 18:41’, itemNoticeTime = ’null’, itemTime = ’null’, kaibiaoTime = ’2018年10月26日 09:00’, winTime = ’null’, kaibiaoDiDian = ’null’, yusuanMoney = ’¥67.00元(人民幣)’, allMoney = ’null’, money = ’null’, text = ’’}

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Java
相關(guān)文章:
主站蜘蛛池模板: 欧美日韩视频精品一区二区 | 免费看一级欧美毛片视频 | 一区二区三区在线观看视频 | 国产高清在线观看视频 | 男女一级特黄a大片 | 国产免费一区二区三区在线观看 | 久久黄色一级片 | 成人在线激情网 | 黄频免费影院 | 美女吊黑视频在线观看 | 国产牛仔裤系列在线观看 | 国产美女视频国产视视频 | 任你躁欧美一级在线精品免费 | 亚洲限制级 | 国产a一级毛片含羞草传媒 国产a三级三级三级 | 涩涩看片 | 欧美一级毛片欧美大尺度一级毛片 | 影音先锋5566手机在线播放 | 在线亚洲免费 | 成人免费视频视频在线不卡 | 入逼视频 | 黄色片日本网站 | 微拍秒拍99福利精品小视频 | 在线观看国产wwwa级羞羞视频 | 欧美在线视频二区 | 欧美性一级交视频 | 欧美三级免费看 | 性黄色片 | 亚欧成人毛片一区二区三区四区 | 日韩精品免费 | 日本免费特黄aa毛片 | 福利入口在线观看 | 色天天天综合色天天碰 | 韩国特黄毛片一级毛片免费 | 欧美精品免费线视频观看视频 | 国产精品特黄一级国产大片 | 精品欧美一区二区在线观看欧美熟 | 全免费a级毛片免费毛视频 全免费a级毛片免费看 | 亚洲一区二区三区网站 | 6080午夜一级毛片免费看 | 亚洲国产欧美日韩精品一区二区三区 |