位置：首页>> 网络编程>> Python编程>> python采集博客中上传的QQ截图文件

python采集博客中上传的QQ截图文件

作者：junjie　　发布时间：2021-03-03 16:45:25　

标签：python,QQ截图

哎，以前写博文的时候没注意，有些图片用QQ来截取，获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式，昨天用ftp备份网站文件的时候发现，中文名在flashfxp里面显示的是乱码的，看起来好难受，所以写了一个python小脚本，爬取整个网站，然后获取每个文章页面的图片名，并判断如果是类似于QQ截图20120926174732-300×15.png的形式就输出并将该图片地址和对应的文章地址保存在文件中，然后通过该文件来逐个修改。

好了，下面是程序代码：

import urllib2
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

baseurl = "https://www.jb51.net/dont-worry.html"
#说明下，起始地址是第一篇文章的地址，通过该文章的页面就
#可以使用BeautifulSoup模块来获取上一篇文章的地址

file = open(r"E:\123.txt","a")

def pageloop(url):
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
img = soup.findAll(['img'])
if img == []:
print "当前页面没有图片"
return
else:
for myimg in img:
link = myimg.get('src')
print link

pattern = re.compile(r'QQ\S*[0-9]*png')
badimg = pattern.findall(str(link))
if badimg:
print url
file.write(link + "\n")
file.write(url+"\n")

def getthenextpage(url):
pageloop(url)
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
for spanclass in soup.findAll(attrs={"class" : "article-nav-prev"}):
#print spanclass
if spanclass.find('article-nav-prev') != -1:
pattern = re.compile(r'https://www.jb51.net/\S*html')
pageurl = pattern.findall(str(spanclass))
for i in pageurl:
#print i
getthenextpage(i)

getthenextpage(baseurl)

print "the end!"
file.close()

最后，对和我以前刚开始做网站的同学说下，图片命名的话最好是用数字形式或者是英文、拼音的形式，要不然到最后想修改的话就麻烦了，所以最好就是从刚开始就养成好的习惯，用正确的命名规范来问文章、图片来命名，这样就会好很多。

0

投稿

猜你喜欢

Tensorflow全局设置可见GPU编号操作
笔者需要tensorflow仅运行在一个GPU上（机器本身有多GPU），而且需要依据系统参数动态调节，故无法简单使用CUDA_VISIBLE
全面了解JavaScript对象进阶
要了解JavaScript对象，我们可以从对象创建、属性操作、对象方法这几个方面入手。概括起来，包括以下几模块： 1.
用SQL统计SQLServe表存储空间大小的代码
其实SQLServer提供了一个sp_spaceused的系统存储过程可以实现该功能，下面就是调用的SQL：代码如下:crea
Python八皇后问题解答过程详解
最近看Python看得都不用tab键了，哈哈。今天看了一个经典问题--八皇后问题，说实话，以前学C、C++的时候有这个问题，但是当时不爱学，
Python最长公共子串算法实例
本文实例讲述了Python最长公共子串算法。分享给大家供大家参考。具体如下：#!/usr/bin/env python # find an
Vuex 使用 v-model 配合 state的方法
v-model 最好用的就是配合 data 達成 Two-way Binding，但若使用 Vuex 之後，是否還能使用 v-model 搭
python datetime处理时间小结
Python提供了多个内置模块用于操作日期时间，像calendar，time，datetime。time模块我在之前的文章已经有所介绍，它提
Python中如何添加自定义模块
一般来说，我们会将自己写的Python模块与python自带的模块分开存放以达到便于维护的目的。那么如何在Python中添加自定义的模块呢？
Python Selenium模块安装使用教程详解
一.概述：Selenium是一个用于Web应用程序测试的工具，本文使用的是Selenium 2。Selenium就是一套类库，不依赖于任何测
如何使用repr调试python程序
一般调试程序的时候都比较倾向print，利用直接打印的方法作出判断，但是print只能打印出结果，对类型无法作出判断。例如：复制代码a =
Python3转换html到pdf的不同解决方案
问题：python3 如何转换html到pdf描述:我的电脑是windows764位，python3.4我想用python 转换html到p
thinkphp 多表事务详解
如下所示：function makeAcquire($nUsers,$nAwards) { &
asp如何对文件进行操作？
这可是个综合性的问题，看看下面对文件操作的集大成代码：<％ 'Set file i/
python pandas dataframe 按列或者按行合并的方法
concat 与其说是连接，更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题，是横向拼接还是纵向拼接，所以concat 函数
python游戏库pygame经典教程(推荐!)
一.Pygame程序基本搭建过程Pygame搭建游戏窗口主要为如下几步1.初始化化程序在使用Pygame编程之前，我们要对程序进行初始化，代
Django 缓存配置Redis使用详解
一、cache介绍由于Django是 * 站，所有每次请求均会去数据进行相应的操作，当程序访问量大时，耗时必然会更加明显，最简单解决方式是使
不同浏览器空格的宽度
首先对空格宽度的定义：空格，由于每个浏览器处理会有微小的不同，在这里我将可以选中的宽度作为空格的宽度。视觉宽度和可选中的宽度有 0~3px
使用Python绘制三种概率曲线详解
曲线一解释这里是使用matplotlib来绘制正态分布的曲线。代码实现import numpy as npimport matplotlib
轻松实现javascript数据双向绑定
双向数据绑定指的是当对象的属性发生变化时能够同时改变对应的UI，反之亦然。换句话说，如果我们有一个user对象，这个对象有一个name属性，
浅谈一下mysql数据库底层原理
1.数据库事务的基本特性。原子性：事务中的所有操作要么全部提交成功，要么全部失败回滚。场景：UPDATE cs_user SET age =

python3 xpath和requests应用详解

Python实现数据集划分(训练集和测试集)

python实现自动登录人人网并访问最近来访者实例

python爬虫scrapy框架之增量式爬虫的示例代码

简单了解Python多态与属性运行原理

python实现Zabbix-API监控

浅谈Pycharm中的Python Console与Terminal

scrapy-redis的安装部署步骤讲解

详解pandas映射与数据转换

Python图像运算之图像点运算与灰度化处理详解

Pixelmator Pro 教程「74」，如何在 Pixelmator Pro 中设置黑色、灰色和白色点自动增强图像？

微软Win8系统中运行新任务使用技巧

圣树唤歌海王普鲁强度怎么样

Win10提示“Smartscreen筛选器已经阻止了下载”怎么解决？

Excel2007操作类库

Element Carousel 走马灯的具体实现

天涯明月刀手游大隐于市奇遇怎么触发

优酷视频分享到微信的两个方法

魔兽世界怀旧服座狼之源任务如何完成？座狼之源任务玩法思路详解

WPS怎么批量调整表格的行高？批量调整表格行高的方法

手机版 网络编程 asp之家 www.aspxhome.com