python抓取网页中链接的静态图片
作者:zoujm-hust12 发布时间:2023-04-17 04:27:27
标签:python,抓取,图片
本文实例为大家分享了python抓取网页中链接的静态图片的具体代码,供大家参考,具体内容如下
# -*- coding:utf-8 -*-
#http://tieba.baidu.com/p/2460150866
#抓取图片地址
from bs4 import BeautifulSoup
import urllib.request
from time import sleep
html_doc = "http://tieba.baidu.com/p/2460150866"
def get_image(url):
req = urllib.request.Request(url)
webpage = urllib.request.urlopen(req)
html = webpage.read()
soup = BeautifulSoup(html, 'html.parser')
#抓取图片地址
#抓取img标签且class为BDE_Image的所有内容
img_src=soup.findAll("img",{'class':'BDE_Image'})
i = 1
for img in img_src:
img_url = img.get('src') #抓取src
# print(img)
req = urllib.request.Request(img_url)
u = urllib.request.urlopen(req)
data = u.read()
with open("AutoCodePng20180119-"+str(i)+".jpg", 'wb') as f:
sleep(2)
f.write(data)
i += 1
def getImg(url):
html = urllib.request(url)
page = html.read()
soup = BeautifulSoup(page, "html.parser")
imglist = soup.find_all('img') #发现html中带img标签的数据,输出格式为<img xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,存入集合
lenth = len(imglist) #计算集合的个数
for i in range(lenth):
print imglist[i].attrs['src'] #抓取img中属性为src的信息,例如<img src="123456" xxxxxxxxxxxxxxxx,则输出为123456
来源:http://blog.csdn.net/shentong1/article/details/79108279
0
投稿
猜你喜欢
- 在用tensorflow做一维的卷积神经网络的时候会遇到tf.nn.conv1d和layers.conv1d这两个函数,但是这两个函数有什么
- 安装的方式很常规,直接使用pip安装就行了。pip install fpdf将需要使用的三方模块导入进来from fpdf import F
- 前几天同学要我帮他做个国际聊天室,要求能够将聊天的内容自动翻译成多国语言.本来想用worldlink的翻译服务,但是用ajax很难获得结果,
- 本文实例为大家分享了python批量文件重命名的具体代码,供大家参考,具体内容如下问题描述最近遇到朋友求助,如何将大量文件名前面的某些字符删
- 如下所示:#coding utf-8a=0.001 #定义收敛步长xd=1 #定义寻找步
- 1. 实验目的掌握最小二乘法求解(无惩罚项的损失函数)、掌握加惩罚项(2 范数)的损失函数优化、梯度下降法、共轭梯度法、理解过拟合、克服过拟
- 如何用SQL 建表? 如下:CREATE TABLE statement
- 最近老婆大人的公司给老婆大人安排了一个根据关键词查询google网站排名的差事。老婆大人的公司是做seo的,查询的关键词及网站特别的多,看着
- 1、检测登录状态base.pydef checkLogin(func):""" 查看session
- step1:在file中找到default settingsstep2:找到Project Interpreterstep3:按照如图步骤搜
- 之前就见过很多网站在侧边栏上使用<dl />标签对来完成侧边栏栏目的布局,最近在研究DEDECMS的默认模板时,也发现该模板在大
- MooTools 1.2的整理排序类Sortables原文地址:30 Days of Mootools 1.2 Tutorials - Da
- ASP从发布至今已经7年了,使用ASP技术已经相当成熟,自从微软推出了ASP.NET之后就逐渐停止了对ASP版本的更新。但是由于有很多人仍然
- Scrapy批量运行爬虫文件的两种方法:1、使用CrawProcess实现https://doc.scrapy.org/en/latest/
- 目录前期准备界面编写截图功能实现OCR实现内容显示总结前期准备在这个阶段主要准备整个小程序的结构,既然要实现ocr,那么输入就是一张图片,而
- 创作思路:主要还是想尝试做点稍微不同于整天为迎合客户而做的东西.然后闲时就开始构思,比如坐车,走路什么的.看到有一些复古手机的相关图,就想到
- 一、背景大家都知道gevent的机制是单线程+协程机制,当遇到可能会阻塞的操作时,就切换到可运行的协程中继续运行,以此来实现提交系统运行效率
- 使用字符串时,常见的操作之一是使用给定的分隔符将字符串拆分为子字符串数组。在本文中,我们将讨论如何在Python中拆分字符串。.split(
- 下半年毕业季,各种毕业设计纷涌而至,虽然学校教了Python,但是我相信各位肯定没有认真学,做作业就懵逼的那种~所以我都给大家准备好了!各种
- CSRF全拼为Cross Site Request Forgery,译为跨站请求伪造。CSRF指攻击者盗用了你的身份,以你的名义发送恶意请求