位置：首页>> 网络编程>> Python编程>> Python使用urllib2模块抓取HTML页面资源的实例分享

Python使用urllib2模块抓取HTML页面资源的实例分享

作者：larry　　发布时间：2022-11-14 13:32:50　

标签：Python,urllib2

先把要抓取的网络地址列在单独的list文件中

https://www.jb51.net/article/83440.html
https://www.jb51.net/article/83437.html
https://www.jb51.net/article/83430.html
https://www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
if not os.path.exists(dpath):
os.makedirs(dpath)
try:
getfile = urllib2.urlopen(fileurl)
data = getfile.read()
f = open(fpath, 'w')
f.write(data)
f.close()
except:
print

with open('u1.list') as lines:
for line in lines:
URI = line.strip()
if '?' and '％' in URI:
continue
elif URI.count('/') == 2:
continue
elif URI.count('/') > 2:
#print URI,URI.count('/')
try:
dirpath = URI.rpartition('/')[0].split('//')[1]
#filepath = URI.split('//')[1].split('/')[1]
filepath = URI.split('//')[1]
if filepath:
print URI,filepath,dirpath
Cdown_data(URI, filepath, dirpath)
except:
print URI,'error'

来源：http://www.diyoms.com/python/1806.html

0

投稿

猜你喜欢

完美解决pycharm 不显示代码提示问题
pycharm 不显示代码提示1、检查IDE省电模式是否关闭状态！！！file → power save mode 取消掉2、检查代码提示是
详解mysql不等于null和等于null的写法
1.表结构 2.表数据 3.查询teacher_name字段不能等于空并且也不能等于空字符SELECT * FROM s
git恢复删除的分支及内容的方法
git 删除分支git branch -D 分支名git查看分支git branch -agit 删除远程分支git push origin
python清除字符串中间空格的实例讲解
1、使用字符串函数replace>>> a = 'hello world'>>> a.r
Django+Bootstrap实现计算器的示例代码
准备工作创建一个应用添加应用到配置创建一个html编写视图函数from django.shortcuts import render# Cr
一文学会VSCode使用python
一、前言刚开始学Python的小伙伴可能会觉得每次写Python打开Cmd或者idle有点烦躁，没有代码补全也没有格式提示等。所以直接上手了
Python中使用threading.Event协调线程的运行详解
threading.Event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.Event的对象，这些
使用opencv中匹配点对的坐标提取方式
在opencv中，特征检测、描述、匹配都有集成的函数。vector<DMatch> bestMatches;用来存储得到的匹配点
理解Python中的With语句
With语句是什么？有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。一个
如何使用 Go 和 Excelize 构建电子表格
前言分析任何规模的数据的重要性怎么强调都不为过。我们日常生活的几乎每个部分都是数据驱动的，作为开发人员，在构建任何合理大小的应用程序时，首
MySQL 基于时间点的快速恢复方案
之所以有这样一篇文章，是因为在前几天的一个晚上，要下班的时候，业务方忽然有一个需求，是需要恢复一个表里面的数据，当时问了下情况
python 子类调用父类的构造函数实例
当子类继承父类后，需要调用父类的方法和属性时，需要调用父类的初始化函数。class A(object): def __init_
python numpy--数组的组合和分割实例
数组的组合主要有：1.水平组合：np.hstack(arr1,arr2) 或 concatenate(arr1,arr2,axis=1)2.
MySQL数据库配置技巧
MySQL数据库配置技巧用root用户启动远程服务一直是安全大忌，因为如果服务程序出现问题，远程攻击者极有可能获得主机的完全控制权。MySQ
python的time模块和datetime模块实例解析
这篇文章主要介绍了python的time模块和datetime模块实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参
如何利用Pytorch计算三角函数
一、加载库首先加载torch库，进入python后加载库使用import导入【import 库名】二、sin值计算方法pytorch中的si
Study jQuery in a Simplified Way
学习复杂代码的最好方法是简化：(function(win, undefined) { var jQuery = f
Django框架的使用教程路由请求响应的方法
路由路由可以定义在工程的目录下(看你的需求),也可以定义在各个应用中来保存应用的路由,用主路文件urls中使用include()包含各个应用
JS数组中对象去重操作示例
本文实例讲述了JS数组中对象去重操作。分享给大家供大家参考，具体如下：<!DOCTYPE html><html lang=
《写给大家看的设计书》阅读笔记之对比原则
假如一个页面中的文本采用的都是同样的字体、同样的字号、同样的颜色，做为读者的你能轻易的区分出哪里是标题，哪里是正文内容吗？所以通常情况下，设

Python 深入了解opencv图像分割算法

OpenCV+python实现膨胀和腐蚀的示例

python虚拟环境virualenv的安装与使用

Python 微信爬虫完整实例【单线程与多线程】

浅谈Python协程asyncio

Python使用eval函数执行动态标表达式过程详解

python3实现全角和半角字符转换的方法示例

零基础写python爬虫之抓取糗事百科代码分享

解决python大批量读写.doc文件的问题

详解Python Matplotlib解决绘图X轴值不按数组排序问题

如何关闭Word2007浮动工具栏

Excel中进行设置图表为静态和动态的操作技巧

python实现将视频按帧读取到自定义目录

Win11怎么打开蓝牙 Win11连接蓝牙的方法介绍

python爬虫之urllib3的使用示例

龙族幻想有什么隐藏食谱？全部隐藏食谱介绍

PicsArt入门图文教程 ios版 PicsArt做锁屏图文步骤

神探小秀才第50关怎么通关

Laravel使用PHPQRCODE实现生成带有LOGO的二维码图片功能示例

Java中的synchronized关键字

手机版 网络编程 asp之家 www.aspxhome.com