位置：首页>> 网络编程>> Python编程>> python爬虫爬取网页表格数据

python爬虫爬取网页表格数据

作者：zhuxunyuoyi　　发布时间：2023-06-04 08:23:14　

标签：python,爬取

用python爬取网页表格数据，供大家参考，具体内容如下

from bs4 import BeautifulSoup
import requests
import csv
import bs4

#检查url地址
def check_link(url):
try:

r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('无法链接服务器！！！')

#爬取资源
def get_contents(ulist,rurl):
soup = BeautifulSoup(rurl,'lxml')
trs = soup.find_all('tr')
for tr in trs:
ui = []
for td in tr:
ui.append(td.string)
ulist.append(ui)

#保存资源
def save_contents(urlist):
with open("D:/2016年中国企业500强排行榜.csv",'w') as f:
writer = csv.writer(f)
writer.writerow(['2016年中国企业500强排行榜'])
for i in range(len(urlist)):
writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]])
def main():
urli = []
url = "http://www.maigoo.com/news/463071.html"
rs = check_link(url)
get_contents(urli,rs)
save_contents(urli)

main()

来源：http://blog.csdn.net/zhuxunyuoyi/article/details/75210705

0

投稿

猜你喜欢

Python爬虫解析网页的4种方式实例及原理解析
这篇文章主要介绍了Python爬虫解析网页的4种方式实例及原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价
分享我们的select控件设计过程
有几个原因促使我们使用自定义的select控件来代替原生的select控件：在ie6下select是一个窗口级的元素，绝对定位的层会被sel
设计上的小细节
1、卓越亚马逊的首页轮换图片，每刷新一次，都是随机不同的顺序显示，这样的设计解决了对于较多图片轮换而靠后的图片信息很少被看到的问题，这点对于
设计模式学习笔记之 - 简单工厂模式
俺比较笨，对太专业的书一直不感冒，看了就想睡觉。最近李明同学传了本“大话设计模式”电子版。偶然翻了翻，感觉还满通俗的，正适合我这样的懒人学习
python乱序字符串排序的实现方式
python乱序字符串排序什么是乱序字符串排序乱序字符串排序是指一个字符串是另一个字符串的乱序排序，比如apple就是eppal的乱序字符串
看看如何用Python绘制小米新版天价logo
目录最终呈现效果小米 “新” logo背后的数学Python绘制新logo流程获取资源最终呈现效果哈哈，咋们在讲述之前，首先看看最终呈现的效
Python+PyQt5自制监控小工具
本篇文章通过使用python实现对计算机摄像头的调用从而实现摄像监控的功能。利用opencv的图像处理功能可以轻松对计算机摄像头的调用实现实
mysql查询字段类型为json时的两种查询方式
表结构如下：id varchar(32) info json数据：id = 1info = {&qu
对Python中 \\r, \\n, \\r\\n的彻底理解
回车和换行的历史：机械打字机有回车和换行两个键作用分别是：换行就是把滚筒卷一格，不改变水平位置。（即移到下一行，但不是行首，而是和上一行水
基于JS实现简单滑块拼图游戏
成品效果 <body> <div id="game" style="p
jQuery中文入门教程
jQuery中文入门指南，翻译加实例，jQuery的起点教程中文版译者：Keel此文以实例为基础一步步说明了jQuery的工作方式。现以中文
利用python如何处理nc数据详解
前言这两天帮一个朋友处理了些 nc 数据，本以为很简单的事情，没想到里面涉及到了很多的细节和坑，无论是“知难行易”还是“知易行难”都不能充分
使用Python获取网段IP个数以及地址清单的方法
使用Python获取网段的IP个数以及地址清单需要用到IPy的库，而相应的方法主要就是IP。写小脚本如下： from IPy import
golang操作elasticsearch的实现
1、前提1.1 docker 安装elasticsearch查询elasticsearch 版本docker search elastics
用python做游戏的细节详解
PyGame是一个Python的库，能够让你更容易的写出一个游戏。它提供的功能包括图片处理和声音重放的功能，并且它们能很容易的整合进你的游戏
各个系统下的Python解释器相关安装方法
Python下载Python最新源码，二进制文档，新闻资讯等可以在Python的官网查看到：Python官网：http://www.pyth
Python连接Redis的基本配置方法
在Linux系统下Python连接Redis的基本配置方法具体操作步骤系统环境：OS：Oracle Linux Enterprise 5.6
Python中的闭包总结
前几天又有人在我的这篇文章 python项目练习一：即时标记下留言，关于其中一个闭包和re.sub的使用不太清楚。我在自己的博客上搜索了下
anaconda的安装和配置环境及导入pycharm的方法
一、anaconda的安装首先，下载安装包。Anaconda的下载方式有两种：通过官网下载，选择适合自己的电脑版本的安装包。https://
深入理解pytorch库的dockerfile
0. dockerfile命令FROM # 基础镜像，一切从这里开始构建MAINTAINER # 镜像是谁写的，姓名+邮箱RUN# 镜像构建

python爬虫入门教程--利用requests构建知乎API（三）

PyCharm第一次安装及使用教程

python 将日期戳（五位数时间）转换为标准时间

Matplotlib中％matplotlib inline如何使用

用Python计算三角函数之atan()方法的使用

Python sorted函数详解(高级篇)

python后端接收前端回传的文件方法

Python最大连续区间和动态规划

Python中选择结构实例讲解

Python用5行代码实现批量抠图的示例代码

忍者必须死3龙毫笔兑换码是什么

word目录怎么编辑

Isotropix Clarisse iFX 4.0 for Mac有哪些新增功能？

阴阳师山兔疾速制冰皮肤怎么样

快速启动windows7系统的另类方法

Nvidia reflex守望先锋要不要开？Nvidia reflex怎么开

excel中怎样批量地处理按行排序

WPS excel相对引用与绝对引用的用法与区别

淘宝客新手防骗全攻略

一行代码让 Python 的运行速度提高100倍

手机版 网络编程 asp之家 www.aspxhome.com