位置：首页>> 网络编程>> Python编程>> Python 通过requests实现腾讯新闻抓取爬虫的方法

Python 通过requests实现腾讯新闻抓取爬虫的方法

作者：无缘浪子党　　发布时间：2022-03-19 17:17:02　

标签：Python,requests,新闻,爬虫

最近也是学习了一些爬虫方面的知识。以我自己的理解，通常我们用浏览器查看网页时，是通过浏览器向服务器发送请求，然后服务器响应以后返回一些代码数据，再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求，并且将服务器返回的信息，通过一些处理后，就能得到我们想要的数据了。

以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫：

首先需要用到python中requests（方便全面的http请求库）和 BeautifulSoup（html解析库）。

通过pip来安装这两个库，命令分别是：pip install requests 和 pip install bs4 (如下图)

先放上完整的代码

# coding:utf-8
import requests
from bs4 import BeautifulSoup

url = "http://news.qq.com/"
# 请求腾讯新闻的URL，获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素，返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")

# 对返回的列表进行遍历
for n in news_titles:
title = n.get_text()
link = n.get("href")
data = {
'标题':title,
'链接':link
}
print(data)

首先引入上述两个库

import requests
from bs4 import BeautifulSoup

然后get请求腾讯新闻网url，返回的字符串实质上就是我们手动打开这个网站，然后查看网页源代码所看到的html代码。

wbdata = requests.get(url).text

我们需要的仅仅是某些特定标签里的内容：

可以看出，每条新闻链接、标题都在<div class="text">标签的<em class="f14 124">标签下

之后我们将刚刚请求得到的html代码进行处理，这时候就需要用到BeautifulSoap库了

soup = BeautifulSoup(wbdata,'lxml')

这一行的意思是对获取的信息进行解析处理,也可以将lxml库换成html.parser库，效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

这一行是利用刚刚经过解析获取的soup对象，选择我们需要的标签，返回值是一个列表。列表中存放了我们需要的所有标签内容。也可以使用BeautifulSoup中的find()方法或findall()方法来对标签进行选择。

最后用 for in 对列表进行遍历，分别取出标签中的内容（新闻标题）和标签中href的值（新闻网址），存放在data字典中

for n in news_titles:
title = n.get_text()
link = n.get("href")
data = {
'标题':title,
'链接':link
}

data存放的就是所有的新闻标题和链接了，下图是部分结果

这样一个爬虫就完成了，当然这只是一个最简单的爬虫。深入爬虫的话还有许多模拟浏览器行为、安全问题、效率优化、多线程等等需要考虑，不得不说爬虫是一个很深的坑。

python中爬虫可以通过各种库或者框架来完成，requests只是比较常用的一种而已。其他语言中也会有许多爬虫方面的库，例如php可以使用curl库。爬虫的原理都是一样的，只是用不同语言、不同库来实现的方法不一样。

来源：https://blog.csdn.net/guangmingsky/article/details/72844395

0

投稿

猜你喜欢

JavaScript贪吃蛇的实现代码
本文实例为大家分享了JavaScript实现贪吃蛇的具体代码，供大家参考，具体内容如下首先我们要确定贪吃蛇应有的功能1.通过键盘的上下左右控
Python中操作各种多媒体,视频、音频到图片的代码详解
我们经常会遇到一些对于多媒体文件修改的操作，像是对视频文件的操作：视频剪辑、字幕编辑、分离音频、视频音频混流等。又比如对音频文件的操作：音频
Python人脸识别初探
本文实例为大家分享了Python人脸识别的具体代码，供大家参考，具体内容如下1.利用opencv库sudo apt-get install
SQL Server日志清除的两种方法
方法一一般情况下，SQL数据库的收缩并不能很大程度上减小数据库大小，其主要作用是收缩日志大小，应当定期进行此操作以免数据库日志过大1、设置数
Python监听剪切板实现方法代码实例
第一种import win32clipboardimport time#速度快容易出错class niubi(): def l
用Dreamweaver 4.0编制会议通知
随着网页制作热潮的兴起，Dreamweaver 4.0强大的功能深受众多网页制作者的喜爱。特别是Dreamweaver 4.0中有许多第三方
PHP mysqli扩展库预处理技术的使用分析
1、使用mysqli扩展库预处理技术 mysqli stmt 向数据库添加3个用户<?php /
Yahoo!网站性能最佳体验的34条黄金守则——图片、Coockie与移动应用
我们在前面的几节中分别讲了提高网站性能中内容、服务器、JavaScript和CSS等方面的内容。除此之外，图片和Coockie也是我们网站中
Python中在for循环中嵌套使用if和else语句的技巧
for...[if]...构建List （List comprehension）1.简单的for...[if]...语句Python中，fo
Python3 搭建Qt5 环境的方法示例
1、检查本机python 版本：2、安装Qt5 执行如下指令：pip install PyQt5 -i https://pypi.douba
不同操作系统下的mysql数据库同步
当数据库的数据量读写频繁的时候，我们就要考虑把数据库的读写分开，以提高数据库的使用效率，(当然还有其他用处比如，备份数据)，这个时候我们就要
如何让Python在HTML中运行
最近一直在更新Java新特性和IDEA Tips两个专栏，其他方向内容的动态关注少了。昨天天晚上刷推的时候，瞄到了这个神奇的东西，觉得挺co
MySQL中InnoDB和MyISAM类型的差别
InnoDB和MyISAM是在使用MySQL最常用的两个表类型，各有优缺点，视具体应用而定。下面是已知的两者之间的差别，仅供参考。1.Inn
ASP中取得图片宽度和高度的类
获取图片宽度和高度的类，支持JPG，GIF，PNG，BMP我们可以使用这个类来处理图片的显示。<％ Class
python实现简易云音乐播放器
本人最近在学习python，在看了一些教程后，用python写了一个简单的云音乐播放器，下面把主要代码贴上来，其中用到了github上他人写
[ASP]提高数据显示效率--缓存探幽
写在前面的话:此篇还是asp相关的,相信玩ASP的都有这个感觉,当数据有5万多条时-------just like音乐网,要调用最新的10条
Python列表切片操作实例总结
本文实例讲述了Python列表切片操作。分享给大家供大家参考，具体如下：切片指的是列表的一部分。1 基本用法指定第一个元素和最后一个元素的索
python 集合常用操作汇总
集合的特性无序、不重复、可迭代常用api创建一个集合需要显式地使用set()方法来声明，如果使用字面量{}来声明解析器会认为这是一个字典。a
你应当了解的5个CSS3新技术
CSS是众所周知且应用广泛的网站样式语言，在它的版本三(CSS3)计划中，新增了一些能够节省时间的特性。尽管只有当前最新了浏览器
详解Python装饰器
1. 定义本质是函数，用来装饰其他函数，为其他函数添加附加功能2. 原则a. 不能修改被装饰函数的源代码b. 不能修改被装饰的函数的调用方式

Python可视化学习之matplotlib内置单颜色

Python制作进度条的四种方法总结

浅谈Python的条件判断语句if/else语句

零基础写python爬虫之爬虫编写全记录

python实现发送带附件的邮件代码分享

使用Python+wxpy 找出微信里把你删除的好友实例

python皮尔逊相关性数据分析分析及实例代码

python argparse模块传参用法实例

对python 匹配字符串开头和结尾的方法详解

Python基础教程之异常详解

继 iOS 12.4 修复多达 36 项安全漏洞后，iPhone 再曝安全隐患

Windows 10的野心能吓死谷歌苹果

自定义对象作为HashMap的Key问题

Word删除页眉水平横线快捷键是什么?删除页眉水平横线操作方法

WPS演示自动保存时间怎么设置

Python爬虫JSON及JSONPath运行原理详解

Win10 10125中文语言包安装和出现乱码时的处理方法

Python中最好用的命令行参数解析工具(argparse)

Android中解决页签手指按下从左到右滑动的bug

DEDE模版标记

手机版 网络编程 asp之家 www.aspxhome.com