网络编程
位置:首页>> 网络编程>> Python编程>> 一文学会利用python解决文章付费限制问题

一文学会利用python解决文章付费限制问题

作者:朦胧的雨梦  发布时间:2021-04-09 08:23:51 

标签:Python,文章,付费,限制

本次爬虫思路

最最重要的是分析信息接口!!!
1. 获取url
2. 通过请求拿到响应
3. 处理反爬
4. 提取信息
5. 保存内容

本次操练网页

https://www.duanmeiwen.com/xinshang/3203373.html(某美文网)

网页内容:

一文学会利用python解决文章付费限制问题

一文学会利用python解决文章付费限制问题

✨一.爬虫模板

🌲1.urllib库的使用模板

import urllib.request    
url ='xxxxxxxxxxxx'  
#发送请求                
request= urllib.request.Request(url,data,header)      
#得到响应
response=urllib.request.urlopen(request)
#解码
content = response.read().decode()
#查看数据
print(content)    

🌲2.requests库的使用模板

import requests  
url ='xxxxxxxxxxxx'
#发送请求                              
response = request.get(url, params,headers)  (get请求或者post请求)  
#根据响应的格式解码,非常智能
response.encoding=response.appareent_encoding
#查看数据
print(response.txt)

✨二.分析信息接口

1.首先右键查看网页源代码

一文学会利用python解决文章付费限制问题

很明显,爬取的信息就在源代码里,所以直接对网页链接发起请求。这里请求头伪装我们优先携带user-agent

✨三.通过请求拿到响应

import requests

# 需要请求的url
url = 'https://www.duanmeiwen.com/xinshang/3203373.html'

# 伪装请求头
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}

# 获得响应
response = requests.get(url=url, headers=headers)

# 智能解码
response.encoding = response.apparent_encoding
# 打印数据
print(response.text)

一文学会利用python解决文章付费限制问题

✨四. 提取信息

针对返回数据的特点,我们现在有三种方法:

🌲1.正则表达式

正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。简单来说,利用一定的逻辑公式,过滤掉不需要的数据,主要处理字符串。对于本题来说有点杀鸡用牛刀了。简单来示范一下:
首先导入re模块

import re

接下来开始操作这堆"字符串"

re.compile()是用来优化正则的,它将正则表达式转化为对象,re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式,多次调用一个正则表达式就重复利用这个正则对象,可以实现更有效率的匹配。需要搭配finditer()等一起使用,参数pattern : 正则表达式;,flags : 表示匹配模式。

一文学会利用python解决文章付费限制问题

右键点击检查进入Network页面,主要是方便我们看清楚结构。

一文学会利用python解决文章付费限制问题

效果

一文学会利用python解决文章付费限制问题

这里写的比较粗糙,因为大家会发现我们会大量在重复写一个相同的筛选语句,所以就有那么一点机械重复的感觉,而且我们有专门对付这中HTML结构的工具,所以接下来咱们隆重介绍XPath!

🌲2.XPath

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快地被开发者采用来当作小型查询语言。我们只要简单理解为它主要是针对定位HTML中某部分位置的语言。

首先导入XPath

from lxml import etree

接下来开始操作

一文学会利用python解决文章付费限制问题

效果

一文学会利用python解决文章付费限制问题

这就是优雅,对比上面,我们用三行代码就完成了任务,由此可见,用对方法很重要。

🌲 3.漂亮的汤(BeautifulSoup)<本次不使用>

✨五.保存内容

这里就很简单,基础文件操作的知识,&ldquo;行百里者半九十&rdquo;,来吧,咱们直接一口气写完。

tree = etree.HTML(response.text)
titles = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/h2/text()')
message = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/p/text()')
for i in range(len(message)):
   with open('优美文艺句子.txt', 'a', encoding='utf-8') as fp:
       fp.write(message[i])
       fp.write('\n')
print('文章爬取完成')

效果

一文学会利用python解决文章付费限制问题

✨六.总结(附完整代码)

过今天的小案例,我们明白了,第一,思路一定要清楚,快准狠分析出接口链接,第二,提取数据的方法要正确,这样会直接事半功倍,好了,今天就分享到这里,谢谢大家的观看,有什么想法记得评论区告诉我!拜拜~✨ ✨ ✨

🌲完整代码

import requests
from lxml import etree

# 需要请求的url
url = 'https://www.duanmeiwen.com/xinshang/3203373.html'

# 伪装请求头
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}

# 获得响应
response = requests.get(url=url, headers=headers)

# 智能解码
response.encoding = response.apparent_encoding

# 提取数据
tree = etree.HTML(response.text)
titles = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/h2/text()')
message = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/p/text()')

#遍历保存数据
for i in range(len(message)):
   with open('优美文艺句子.txt', 'a', encoding='utf-8') as fp:
       fp.write(message[i])
       fp.write('\n')
print('文章爬取完成')

来源:https://blog.csdn.net/weixin_72906726/article/details/130475910

0
投稿

猜你喜欢

  • asp之家注:作为一个学习asp的爱好者,相信一定接触过session,我们经常使用session来作为会员登录的验证,当然也可以使用COO
  • 摘要本文主要介绍了利用python的 threading和queue库实现多线程编程,并封装为一个类,方便读者嵌入自己的业务逻辑。最后以机器
  • 作为一名前端,我们通常要做的就是让页面在各系统A-Grade浏览器,甚至网站浏览份额0.1%以上的浏览器上良好显示。当然,还有性能问题。不过
  • 在这里我想有必要再较系统说一下ADO的各种对象的方法、属性。毕竟ADO不仅应用在ASP中,VB,VC都可以用到。在这十天中我想主要提到的对象
  • 做沙盒的时候遇到一个小问题——在IE9里面竟然抓不到事件的keyCode:element.addEventListener('key
  • 其实这里的静态页面并不是真正意义上的静态,但可以达到了静态页面的解析效率,还未经项目测试,拿来分享。代码如下:<% Cons
  • 代码如下:<% '=================================================
  • 把中文字符转换回Unicode字符。见下列代码:<%function unicode(str)dim i,j,c,
  • 上一小节讲解了行高与单行纯文字的垂直居中,而如果行内含有图片和文字,在浏览器内浏览时,读者可以发现文字和图片在垂直方向并不是沿中线居中,而是
  • 经过摸索和实践,我把自己的解决方法,写在下面: 说明: 我的Oracle客户端的版本是 oracle 9i, 安装client端的时候,不能
  • 函数嵌套,这个名字有点纠结,也许不太好理解。一个比较常见的函数嵌套特例:递归函数,即函数自己嵌套自己。 一直以为在PHP中不能有太多的函数嵌
  • 我们平常在网页上显示的字体最小一般是12PX,当小于10PX时,显示的效果就大打折扣了,因为中文默认的字体是宋体,当小于12PX时的效果如下
  • PHP 向它运行的任何脚本提供了大量的预定义常量。魔术常量准确来说并不能算是常量,常量我们在之前的文章中我们介绍到,常量被定义之后是不能被改
  • 传统来说,大家在CSS中使用的颜色要么是16进制格式,要么是rgb格式,就像rgb(171,205,239)。CSS3带来了一些新的处理颜色
  •  网页离不开链接,而默认链接的表现形式总是千篇一律的蓝色文字加底线,每当我们点击它时,周围会出现虚线框,表示该链接是当前的焦点,影
  • 前言随着科技的发展,人脸识别技术在许多领域得到的非常广泛的应用,手机支付、银行身份验证、手机人脸解锁等等。识别废话少说,这里我们使用 ope
  •  你用过css么?当然,我是指你喜欢做网页的话,用过?很好,那你用过它的特效么?没有?那请跟我来。让我先通俗的介绍一下css,cs
  • 有很多种方法来实现图片的预加载,通常大部分使用Javascript让事情滚动。不要再受Javascript预载的束缚了吧,用CSS你就可以毫
  • 一、前言我们经常谈论的缓存一词,更多的类似于将硬盘中的数据存放到内存中以至于提高读取速度,比如常说的redis,就经常用来做数据的缓存。Py
  • XML有很多相关的技术,将这些技术结合起来,才能充分发挥XML的强大功能。这些技术包括:Xlink与Xpointer(设置XML的超链接)、
手机版 网络编程 asp之家 www.aspxhome.com