Python爬取知乎图片代码实现解析
作者:Python学习汇 发布时间:2023-02-22 08:14:14
标签:爬虫,python,爬取,知乎,图片
首先,需要获取任意知乎的问题,只需要你输入问题的ID,就可以获取相关的页面信息,比如最重要的合计有多少人回答问题。
问题ID为如下标红数字
编写代码,下面的代码用来检测用户输入的是否是正确的ID,并且通过拼接URL去获取该问题下面合计有多少答案。
import requests
import re
import pymongo
import time
DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.zhihuone # 准备插入数据
BASE_URL = "https://www.zhihu.com/question/{}"
def get_totle_answers(article_id):
headers = {
"user-agent": "需要自己补全 Mozilla/5.0 (Windows NT 10.0; WOW64)"
}
with requests.Session() as s:
with s.get(BASE_URL.format(article_id),headers=headers,timeout=3) as rep:
html = rep.text
pattern =re.compile( '<meta itemProp="answerCount" content="(\d*?)"/>')
s = pattern.search(html)
print("查找到{}条数据".format(s.groups()[0]))
return s.groups()[0]
if __name__ == '__main__':
# 用死循环判断用户输入的是否是数字
article_id = ""
while not article_id.isdigit():
article_id = input("请输入文章ID:")
totle = get_totle_answers(article_id)
if int(totle)>0:
zhi = ZhihuOne(article_id,totle)
zhi.run()
else:
print("没有任何数据!")
完善图片下载部分,图片下载地址在查阅过程中发现,存在json字段的content中,我们采用简单的正则表达式将他匹配出来。细节如下图展示
编写代码吧,下面的代码注释请仔细阅读,中间有一个小BUG,需要手动把pic3修改为pic2这个地方目前原因不明确,可能是我本地网络的原因,还有请在项目根目录先创建一个imgs的文件夹,用来存储图片
def download_img(self,data):
## 下载图片
for item in data["data"]:
content = item["content"]
pattern = re.compile('<noscript>(.*?)</noscript>')
imgs = pattern.findall(content)
if len(imgs) > 0:
for img in imgs:
match = re.search('<img src="(.*?)"', img)
download = match.groups()[0]
download = download.replace("pic3", "pic2") # 小BUG,pic3的下载不到
print("正在下载{}".format(download), end="")
try:
with requests.Session() as s:
with s.get(download) as img_down:
# 获取文件名称
file = download[download.rindex("/") + 1:]
content = img_down.content
with open("imgs/{}".format(file), "wb+") as f: # 这个地方进行了硬编码
f.write(content)
print("图片下载完成", end="\n")
except Exception as e:
print(e.args)
else:
pass
运行结果为
来源:https://blog.51cto.com/14510224/2438070
0
投稿
猜你喜欢
- 前言大家好,我是辣条今天给大家带来几个实用的python脚本工具,原因不难猜这段时间我亲爱的女朋友呢给我整出点小花样,差点让我电脑GG了。我
- 有的时候我们希望生成一段时间返回,比如从 2022-01-01 00:00:00 后面的 10 天,这么 10 个 datetime 对象,
- 如何对PHP程序中的常见漏洞进行攻击(下) 翻译:analysist(分析家) 来源:http://www.china4lert.org 如
- 我们常常看到一个这样的表达式 A=lambda x:x+1可能会一头雾水不知道怎么计算 最基本的理解就是def A(x):retu
- 一.文件基本操作1.1 文件打开和关闭open(‘文件名称','打开模式')模式:r(只读,指针再头) w(只写,存
- 缓存是基于Application实现的CacheState类,建议实例化时用名Cache程序代码<% Class Cache
- 平时每逢alexa排名更新时,我都需要将所有相关的同类网站的排名整理一下,看一下这些对手网站的排名更新情况。做的多了,也就烦了,虽然也才30
- 遇到一个很实际的问题:由于不想增加目录的深度,减少磁盘寻址的时间,需要减少一些目录层级。大家都知道建立文件夹是为了让文件管理更加的方便,现在
- 在windows下写bat的时候,通过pause命令,可以暂停程序运行,例如经常见的程序会在终端提示”按任意键继续……”,用户在终端回车后程
- 大家都知道JAVA里最流行的是MVC模型的编程方式,如果你不知道MVC的概念,可以去网上搜索下,应该会马上找到N多资料。PHP5推出之后,也
- 在当前的Web设计中,jQuery被越来越多地应用在Web开发中,之所以jQuery收到如此程度的欢迎,除了其本身具备的优秀易读易操作的代码
- 1. 前言邮件,作为最正式规范的沟通方式,在日常办公过程中经常被用到我们都知道 Python内置了对 SMTP 的支持,可以发送纯文本、富文
- 一、分屏展示当你想同时看到多个文件的时候:右击标签页;选择 move right 或者 split vertical;效果:二、远程 Pyt
- 环境:python2.7+django1.91、先下载django-sutipip install django-suit2、配置项目打开s
- 最近在这找了好久的js菜单,都没找到满意的,今天找了个,觉得不错,最重要的是简单,希望大家可以参照一下先看看效果图吧:代码特点:js+css
- 很开心可以和导师阿坚在08gui大赛中一起去完成《fight》的图标设计,在这个过程中真的是受益匪浅!这里我谈一下在这个过程的一些小小心得。
- 以下是通过Excel 的VBA连接Oracle并操作Oracle相关数据的示例Excel 通过VBA连接数据库需要安装相应的Oracle客户
- 1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个
- 方法 bindParam() 和 bindValue() 非常相似。 唯一的区别就是前者使用一个PHP变量绑定参数,而后者使用一个值。 所以
- 如下所示:#保存 cookie 到变量import urllib.requestimport http.cookiejarcookie =