Java爬虫范例之使用Htmlunit爬取学校教务网课程表信息
作者:CTCTCTCTCTCTC 发布时间:2021-07-17 00:52:51
标签:Java,爬虫,Htmlunit
使用WebClient和htmlunit实现简易爬虫
import com.gargoylesoftware.htmlunit.WebClient;
提供了public
P getPage(final String url)方法获得HtmlPage。
import com.gargoylesoftware.htmlunit.html.*;
包含了HtmlPage、HtmlForm、HtmlTextInput、HtmlPasswordInput、HtmlElement、DomElement等元素。
构造webclient对象
WebClient webClient= new WebClient();
无参默认是BrowserVersion.BEST_SUPPORTED,有参构造支持5种浏览器:
BrowserVersion.CHROME
BrowserVersion.EDGE
BrowserVersion.FIREFOX
BrowserVersion.FIREFOX_78
BrowserVersion.INTERNET_EXPLOER
使用webclient.getPage(String url)获得页面:
try {
page = webClient.getPage(url);
} catch (IOException e) {
e.printStackTrace();
}
利用webClient.getPage(url);方法,将其封装成一个getHtmlPage静态方法
private static class innerWebClient{
private static final WebClient webClient = new WebClient();
}
public static HtmlPage getHtmlPage(String url){
//调用此方法时加载WebClient
WebClient webClient = innerWebClient.webClient;
webClient.getOptions().setCssEnabled(false);
//配置webClient
webClient.getOptions().setCssEnabled(false);//设置CSS是否生效
webClient.getOptions().setJavaScriptEnabled(true);//设置JS是否生效
webClient.setAjaxController(new NicelyResynchronizingAjaxController());//设置AJAX请求
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//设置是否抛出异常码
webClient.getOptions().setThrowExceptionOnScriptError(false);//设置是否抛出脚本错误
webClient.waitForBackgroundJavaScript(3*1000);//设置等待JS毫秒数
webClient.getCookieManager().setCookiesEnabled(true);//设置是否支持Cookie
HtmlPage page = null;
try {
page = webClient.getPage(url);
} catch (IOException e) {
e.printStackTrace();
}
return page;
}
在教务官网学期课表页,拿到对应标签的ID
登录教务官网页面:
静态解析课程信息方法:
//获取周次集合
public static ArrayList<Integer> getWeekCount(String weekAndSection){
ArrayList<Integer> weekList = new ArrayList<>();
int index = weekAndSection.indexOf("(周)");
if(index == -1){
return new ArrayList<>();
}
String subWeek = weekAndSection.substring(0, index); //1-3,5,15,18
String[] weekArr = new String[10];
int idx = subWeek.indexOf(","); //1或3
int num = 0,n = 0;
while (subWeek.contains(",")){
weekArr[num] = subWeek.substring(0,idx); //第一个逗号前面的内容,给数组
subWeek = subWeek.substring(idx+1); //剩余内容
n = subWeek.indexOf(",");
idx = n;
num++;
}
weekArr[num] = subWeek;
for (String s : weekArr) {
if(s!=null && !s.equals("")){
if(s.contains("-")){
int ix = s.indexOf("-");
int begin = Integer.parseInt(s.substring(0,ix));
int end = Integer.parseInt(s.substring(ix+1));
for (int i = begin; i <= end; i++) {
weekList.add(i);
}
}else{
weekList.add(Integer.parseInt(s));
}
}
}
return weekList;
}
//获取节次集合
public static ArrayList<Integer> getSectionCount(String weekAndSection){
int begin = weekAndSection.indexOf("[") + 1;
int end = weekAndSection.indexOf("节");
String section = weekAndSection.substring(begin, end);
int len = section.length();
String first = section.substring(0,2);
String last = section.substring(len-2,len);
ArrayList<Integer> sectionList = new ArrayList<>();
int firstInt = Integer.parseInt(first);
int lastInt = Integer.parseInt(last);
for (int i = firstInt; i <= lastInt; i++) {
sectionList.add(i);
}
return sectionList;
}
开始解析课程信息
DomElement[][] domElements = new DomElement[7][6]; //7天,6个节次部分
String key = "";
//星期一~星期日:1-2~7-2
for (int i = 0;i < 7;i++){ //星期一到星期日
for (int j = 0;j <= 5;j++){ //sectionIds[0]到sectionIds[5]
if(j == 2){ //由于第5节为空,略过
continue;
}
key = sectionIds[j] + "-" + (i+1) + "-2";
if(page3.getElementById(key) == null){
throw new NullPointerException("Key过期了!");
}else{
domElements[i][j] = page3.getElementById(key);
}
String course = domElements[i][j].asText();
String temp[] = new String[10];
int num = 0;
int index;
for (int g = 0; course.contains("---------------------"); g = g + index) {
index = course.indexOf("---------------------");
temp[num] = course.substring(0,index);
course = course.substring(index+21);
num++;
}
temp[num] = course;
String[] courseInfo = new String[4];
for (int k = 0;k < temp.length;k++) {
if(temp[k] == null || temp[k].equals("") || temp[k].equals(" ")){
continue;
}
if(temp[k].indexOf("\n") == 1){
temp[k] = temp[k].substring(2);
}
ArrayList<Integer> weekList;
ArrayList<Integer> sectionList;
if(temp[k].contains("网络课")){
temp[k] = temp[k].substring(0,temp[k].indexOf("\n"));
courseInfo[0] = temp[k];
weekList = null;
sectionList = null;
}else{
int idx,cnum = 0;
for(int h = 0; temp[k].contains("\n") && cnum <= 3;h = h+idx){
idx = temp[k].indexOf("\n");
courseInfo[cnum] = temp[k].substring(0,idx);
temp[k] = temp[k].substring(idx+1);
cnum++;
}
weekList = getWeekCount(courseInfo[2]);
sectionList = getSectionCount(courseInfo[2]);
}
System.out.println("课程名===" + courseInfo[0]);
System.out.println("教师名===" + courseInfo[1]);
System.out.println("周次===" + weekList);
System.out.println("节次===" + sectionList);
System.out.println("地点===" + courseInfo[3]);
System.out.println("星期" + (i+1));
}
}
}
输出效果:
基于Uni-App实现的课程表小程序:
来源:https://blog.csdn.net/weixin_45296116/article/details/121272928
0
投稿
猜你喜欢
- 前言工作中是否遇到这样的场景?1、需要异步线程执行,而且需要获取到线程执行返回的结果。2、如果执行过程异常,可以按照自定义方式消费异常信息。
- 我们知道,Object类是所有类的父类,因此也被称为根类、祖先。那么,我们就来看一看Object类的最常用的两个方法是如何用的。1.toSt
- 奇怪的不等于(≠)最近,栈长用 IntelliJ IDEA 看源码时发现:咦~这是什么鬼?Java 不等于的写法不是一直都是 != 么?什么
- 本文研究的主要是Spring+Junit4进行接口测试的一个相关实例,具体实现代码如下。1.配置pom.xml<dependency&
- 前言在项目开发中,日志系统是必不可少的,用AOP在Web的请求做入参和出参的参数打印,同时对异常进行日志打印,避免重复的手写日志,完整案例见
- 本次和大家分享的是怎么来消费服务,上篇文章讲了使用Feign来消费,本篇来使用rest+ribbon消费服务,并且通过轮询方式来自定义了个简
- final 类final 类不能被继承,同时,一旦用 final 修饰了类,也就意味着 final 类中的所有方法都被隐式地指定为 fina
- 本文实例讲述了C#实现把图片转换成二进制以及把二进制转换成图片的方法。分享给大家供大家参考,具体如下:private void button
- 最近项目中需要实现定时执行任务,比如定时计算会员的积分、调用第三方接口等,由于项目采用spring框架,所以这里结合spring框架来介绍。
- maven 文件打包,输入 :package -Dmaven.test.skip=true 进行打包, 一般生成的jar 文件 名称是项目名
- 一、集合概述数组其实就是一个集合。集合实际上就是一个容器。可以来容纳其它的数据。二、集合在开发中的应用集合是一个容器,是一个载体,可以一次容
- 应用场景假设仓库中只能存放一件产品,生产者将生产出来的产品放入仓库,消费者将仓库中产品取走消费如果仓库中没有产品,则生产者将产品放入仓库,否
- 冒泡排序原理①比较相邻的元素,如果前一个元素比后一个元素大,则交换这两个元素的位置②对每一对相邻的元素循环上面的步骤,最终最后面的元素就是最
- 注入集合(数组、List、Map、Set)类型属性(1)创建类,定义数组,list,map,set类型属性,并且生成对应的set方法。(2)
- 目录一、背景二、推荐方式2.1 自定义的枚举2.2 外部枚举三、总结一、背景平时工作开发过程中,难免会用到状态机(状态的流转)。如奖学金审批
- Mybatis 有两种实现方式其一:通过xml配置文件实现其二:面向接口编程的实现  
- 第一个System.Runtime.InteropServices.Marshal.ReleaseComObject(sheets);&nb
- Map接口存储特点以键(key)值(value)对的形式存储键无序、无下标、元素不可重复值无序、无下标、元素可以重复常用实现类HashMap
- java项目中常用maven工具来进行工程管理,但经常遇到的一个问题是生成的jar包越来越大,编译一次工程越来越慢。怎么有效地去除冗余依赖,
- 这是一个介绍基本异常处理的小例子,包括抛出,捕获,断言,日志。Java异常处理通过5个关键字try、catch、throw、throws、f