python抓取网页中链接的静态图片
作者:zoujm-hust12 发布时间:2023-04-17 04:27:27
标签:python,抓取,图片
本文实例为大家分享了python抓取网页中链接的静态图片的具体代码,供大家参考,具体内容如下
# -*- coding:utf-8 -*-
#http://tieba.baidu.com/p/2460150866
#抓取图片地址
from bs4 import BeautifulSoup
import urllib.request
from time import sleep
html_doc = "http://tieba.baidu.com/p/2460150866"
def get_image(url):
req = urllib.request.Request(url)
webpage = urllib.request.urlopen(req)
html = webpage.read()
soup = BeautifulSoup(html, 'html.parser')
#抓取图片地址
#抓取img标签且class为BDE_Image的所有内容
img_src=soup.findAll("img",{'class':'BDE_Image'})
i = 1
for img in img_src:
img_url = img.get('src') #抓取src
# print(img)
req = urllib.request.Request(img_url)
u = urllib.request.urlopen(req)
data = u.read()
with open("AutoCodePng20180119-"+str(i)+".jpg", 'wb') as f:
sleep(2)
f.write(data)
i += 1
def getImg(url):
html = urllib.request(url)
page = html.read()
soup = BeautifulSoup(page, "html.parser")
imglist = soup.find_all('img') #发现html中带img标签的数据,输出格式为<img xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,存入集合
lenth = len(imglist) #计算集合的个数
for i in range(lenth):
print imglist[i].attrs['src'] #抓取img中属性为src的信息,例如<img src="123456" xxxxxxxxxxxxxxxx,则输出为123456
来源:http://blog.csdn.net/shentong1/article/details/79108279


猜你喜欢
- mysqldump工具备份备份整个数据库$> mysqldump -u root -h host -p dbname > bac
- 今天星期天,因数据库太慢,最后决定将数据库进行重新整理. (假定数据库名称为:DB_ste) 1、根据现在的数据库的脚本创建一个脚本文件(F
- 如果一个数字能表示成 p^q,且p是一个素数,q为大于1的正整数,则此数字就是超级素数幂。 param number: 测试该数字是否是超级
- 一、传入的参数类型要求不同:1、 file.write(str)需要传入一个字符串做为参数,否则会报错。write( "字符串&q
- 〝 古人学问遗无力,少壮功夫老始成 〞python之tkinter库弹窗messagebox,常码字不易,出精品更难,没有特别幸运,那么请先
- 目前可以实现简单的计算。计算前请重置,设计的时候默认数字是0,学了半天就做出来个这么个结果,bug不少。 python3.5 + PyQt5
- 首先先和大家讲一讲SQL Server恢复master数据库方法,具体步骤如下第一步:复制model.mdf、mastlog.ldf、mod
- 一、前言实现名片管理系统,首先要创建两个python file ,分别是cards_main.py和cards_tool.py,前一个是主代
- 要达到如下目的:Mysql数据库会每隔一段时间(可以是2小时,也可以是一天,这个可以自定义),定时对一张库中的表做一个判断,如果这张表的数据
- 本文实例总结了Python正则表达式常用函数。分享给大家供大家参考,具体如下:re.match()函数原型:match(pattern, s
- 基本对比使用方式使用场合优缺点是否需要安装需要的dll网址引用方式程序内引用程序初期确定使用MySql,前期添加引用大多数情况下使用在类文件
- 事件调度sched 模块内容很简单,只定义了一个类。它用来最为一个通用的事件调度模块。class sched.scheduler(timef
- 本文实例讲述了Python多线程操作之互斥锁、递归锁、信号量、事件。分享给大家供大家参考,具体如下:互斥锁:为什么要有互斥锁:由于多线程是并
- 1.’%.2f’%f该方法会进行四舍五入代码如下所示:f = 2.3456789print('
- 目录背景目的拆分前流程设计目录结构设计存在的问题拆分后流程设计目录结构设计解决的问题关键代码总结其他实现方式背景由于之前的数据库防火墙产品与
- 如何正确理解和使用Command、Connection和 Recordset三个对象?我知道它们都是连接数据库的“好手”,但在编程的具体应用
- 以下各种方式仅供参考,本人亲测只有官方提供的方式比较靠谱。1. 使用多个进程启动多个Tornado实例import tornado.http
- PyQt5单选按钮控件QRadioButton简介QRadioButton 继承自 QAbstractButton,其主要作用提供用户一些互
- 前言使用python直接使用pip install xx时,出现 Could not fetch URL https://pypi.pyth
- 使用正则表达式的几个步骤:1、用import re 导入正则表达式模块;2、用re.compile()函数创建一个Regex对象;3、用Re