位置：首页>> 网络编程>> Python编程>> python 爬取吉首大学网站成绩单

python 爬取吉首大学网站成绩单

作者：chen0495　　发布时间：2023-08-02 05:57:13　

标签：python,爬虫,吉首大学

项目地址：

https://github.com/chen0495/pythonCrawlerForJSU

环境

python 3.5即以上
request、BeautifulSoup、numpy、pandas.
安装BeautifulSoup使用命令pip install BeautifulSoup4

配置及使用

登陆学校成绩单查询网站,修改cookie.

按F12后按Ctrl+R刷新一下,获取cookie的方法见下图:

修改爬虫url为自己的成绩单网址.

运行src/main.py文件即可在/result下得到csv文件.

结果展示

完整代码

# -*- coding: utf-8 -*-
# @Time : 5/29/2021 2:13 PM
# @Author : Chen0495
# @Email : 1346565673@qq.com|chenweiin612@gmail.com
# @File : main.py
# @Software: PyCharm
import requests as rq
from bs4 import BeautifulSoup as BS
import numpy as np
import pandas as pd
rq.adapters.DEFAULT_RETRIES = 5
s = rq.session()
s.keep_alive = False # 关闭多余连接
header = { # 请更改cookie
'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4501.0 Safari/537.36 Edg/92.0.891.1',
'cookie' : 'wengine_vpn_ticketwebvpn_jsu_edu_cn=xxxxxxxxxx; show_vpn=1; refresh=1'
}
# 请更改url
r = rq.get('https://webvpn.jsu.edu.cn/https/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx/jsxsd/kscj/cjcx_list', headers = header, verify=False)
soup = BS(r.text,'html.parser')
head = []
for th in soup.find_all("th"):
head.append(th.text)
while '' in head:
head.remove('')
head.remove('序号')
context = np.array(head)
x = []
flag = 0
for td in soup.find_all("td"):
if flag!=0 and flag％11!=1:
x.append(td.text)
if flag％11==0 and flag!=0:
context = np.row_stack((context,np.array(x)))
x.clear()
flag+=1
context = np.delete(context,0,axis=0)
data = pd.DataFrame(context,columns=head)
print(data)
# 生成文件,亲更改文件名
data.to_csv('../result/result.csv',encoding='utf-8-sig')

来源：https://github.com/chen0495/pythonCrawlerForJSU

0

投稿

猜你喜欢

网站中美好的细节
编者按，网站中让人惊喜的往往是那一点细节，只要用心留意你将发现那些美好的用户体验就在身边。新蛋网想自主控制链接在原窗口还是新窗口中打开？看看
浅谈Python中的闭包
Python中的闭包的概念，在我看来，就相当于在某个函数中又定义了一个或多个函数，内层函数定义了具体的实现方式，而外层返回的就是这个
javascript实现表格增删改操作实例详解
本文实例讲述了javascript实现表格增删改操作的方法。分享给大家供大家参考。具体实现方法如下：<!DOCTYPE html PU
略谈美国雅虎首页改版
昨天美国雅虎正式宣布网站首页的新版，这也算互联网一件大事，尤其是对设计的朋友们。而且现在的美国雅虎的情况也不是很好的情况下有大刀阔斧的进行改
MySQL表排序规则不同错误问题分析
MySQL多表join时报错如下：[Err]1267 – Illegal mix of collations(utf8_general_ci
WIn10+Anaconda环境下安装PyTorch(避坑指南)
这些天安装 PyTorch，遇到了一些坑，特此总结一下，以免忘记。分享给大家。首先，安装环境是：操作系统 Win10，已经预先暗转了 Ana
Python基于爬虫实现全网搜索并下载音乐
现在写一篇博客总是喜欢先谈需求或者本内容的应用场景，是的，如果写出来的东西没有任何应用价值，确实也没有实际意义。今天的最早的需求是来自于如何
SQL语句学习
（高手就不要笑话了^_^）。好了，其他的不说现在就开始：select 子句主要决定了从表中取出的列名,列数以及列的显示顺序等信息,"
python读取当前目录下的CSV文件数据
在处理数据的时候，经常会碰到CSV类型的文件，下面将介绍如何读取当前目录下的CSV文件，步骤如下1、获取当前目录所有的CSV文件名称：#创建
oracle数据库中如何处理clob字段方法介绍
在知识库的建立的时候，用普通VARCHAR2存放文章是显然不够的，只有区区4000的字节，放不了多少字，而CLOB数据类型，则能最多存放8
Python爬虫之pandas基本安装与使用方法示例
本文实例讲述了Python爬虫之pandas基本安装与使用方法。分享给大家供大家参考，具体如下：一、简介：Python Data Analy
python虚拟环境的安装和配置(virtualenv，virtualenvwrapper）
一、为什么要安装虚拟环境情景一、项目A需要某个库的1.0版本，项目B需要这个库的2.0版本。如果没有安装虚拟环境
用python修改excel表某一列内容的操作方法
想想你在一家公司里做表格，现在有一个下面这样的excel表摆在你面前，这是一个员工每个月工资的表，现在假设，你要做的事情，是填充好后面几个月
Python基础知识之函数,类,模块
1、Function 函数编程中，需要重复写的功能，可以包装成一个函数1）定义函数定义函数之前，实现给一个字符串增加前缀和后缀的操作：f1
Django组件content-type使用方法详解
前言一个表和多个表进行关联，但具体随着业务的加深，表不断的增加，关联的数量不断的增加，怎么通过一开始通过表的设计后，不在后期在修改表，彻底的
Flash真的适合做网站应用吗？
两年前，我们开发了一套基于Flash的文件（主要是图片）上传RIA应用，提供给阿里巴巴的用户使用。如果你使用过Wordpress或flick
用js实现放大镜效果
本文实例为大家分享了js实现放大镜效果的具体代码，供大家参考，具体内容如下该放大区域用背景图片放大<!DOCTYPE html>
如何使用Python实现自动化水军评论
前言玩博客一个多月了，渐渐发现了一些有意思的事，经常会有人用同样的评论到处刷，不知道是为了加没什么用的积分，还是纯粹为了表达楼主好人。那么问
go语言编程实现递归函数示例详解
前言本篇文章主要是记录一下在 GScript 中实现递归调用时所遇到的坑，类似的问题在中文互联网上我几乎没有找到相关的内容，所以还是很有必要
python数据库开发之MongoDB安装及Python3操作MongoDB数据库详细方法与实例
MongoDB简介MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高负载的情况下，添加更多的节点，可以保证

Python压缩和解压缩zip文件

关于Python 中的时间处理包datetime和arrow的方法详解

基于Python实现商场抽奖小系统

Python绘制计算机CPU占有率变化的折线图

Flask框架通过Flask_login实现用户登录功能示例

pygame游戏之旅添加碰撞效果的方法

Django自定义分页与bootstrap分页结合

Python爬虫库requests获取响应内容、响应状态码、响应头

python判断windows隐藏文件的方法

详解Python3中yield生成器的用法

从零学python系列之从文件读取和保存数据

动物餐厅海德薇的文件袋怎么放物品？海德薇的文件袋放置方法介绍

不思议迷宫废弃边陲彩蛋怎么打

天谕手游幻梦筑鲸大赛怎么参加

如何开启“在应用中打开站点”，实现在Edge浏览器中点击链接打开应用

WPS2019怎么批量插入批注并编辑大小和位置?

Win10预览版14316锁屏状态下无法唤醒Cortana小娜怎么办?

英雄联盟手游探索者的护臂怎么样

word 表格中数字序号如何填充

自由幻想仙身等级怎么解锁？自由幻想仙身等级解锁方法攻略

手机版 网络编程 asp之家 www.aspxhome.com