位置：首页>> 网络编程>> Python编程>> python爬虫中采集中遇到的问题整理

python爬虫中采集中遇到的问题整理

作者：小妮浅浅　　发布时间：2022-10-17 03:32:23　

标签：python爬虫,采集

在爬虫的获取数据上，一直在讲一些爬取的方法，想必小伙伴们也学习了不少。在学习的过程中遇到了问题，大家也会一起交流解决，找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理，以及在遇到不同的问题时，我们应该想的是什么样的解决思路，具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件，基本上都是需要用户登录之后，才能看到有价值的东西，其实很简单，我们可以使用Python提供的cookielib模块，实现每次访问都带着源网站给的cookie信息去访问，这样只要我们成功模拟了登录，爬虫处于登录状态，那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改：

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar) #定义cookies对象
def httpRequest(url):
'''''
@summary: 网络请求
'''
try:
ret = None
SockFile = None
request = urllib2.Request(url)
request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
request.add_header('Pragma', 'no-cache')
opener = urllib2.build_opener(cookies) #传递cookies对象
SockFile = opener.open(request)
ret = SockFile.read()
finally:
if SockFile:
SockFile.close()
return ret

2、编码问题

网站目前最多的两种编码：utf-8，或者gbk，当我们采集回来源网站编码和我们数据库存储的编码不一致时，比如http://163.com的编码使用的是gbk，而我们需要存储的是utf-8编码的数据，那么我们可以使用Python中提供的encode()和decode()方法进行转换，比如：

content = content.decode('gbk', 'ignore') #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

来源：https://www.py.cn/jishu/jichu/21350.html

0

投稿

猜你喜欢

DataGrid使用心得(调用及连接数据库等等)
在工作中遇到把DataGrid中绑定的后台数据库数据展示给用户时把负数变为0的小问题，现在记录下来。例子中数据表示这个样子的：-------
python 列表推导和生成器表达式的使用
目录序列容器序列与扁平序列不可变序列与可变序列列表推导生成器表达式Tips小结序列序列是指一组数据，按存放类型分为容器序列与扁平序列，按能否
Pandas GroupBy对象索引与迭代方法
如下所示：import pandas as pddf = pd.DataFrame({'性别' : ['男'
Python可视化模块altair的使用详解
今天小编来和大家聊一下Python当中的altair可视化模块，并且通过调用该模块来绘制一些常见的图表，借助Altair，我们可以将更多的精
python logging日志模块原理及操作解析
一、基本介绍logging 模块是python自带的一个包，因此在使用的时候，不必安装，只需要import即可。logging有 5 个不同
关于keras中卷积层Conv2D的学习记录
keras中卷积层Conv2D的学习关于卷积的具体操作不细讲，本文只是自己太懒了不想记手写笔记。由于自己接触到的都是图像处理相关的工作，因此
查看django执行的sql语句及消耗时间的两种方法
下面介绍两种查看django 执行的sql语句的方法。方法一：queryset = Apple.objects.all()print que
python基础之入门必看操作
这里提供在使用python进行开发中常使用到的方法技巧，如有不对欢迎批评指正。要点：开发中类、变量特性查询，类型就是类，断言的使用，深浅复制
python time时间库详解
Python中内置了一些与时间处理相关的库，如time、datatime和calendar库。其中time库是Python中处理时间的标准库
Python os.mkdir()与os.makedirs()的使用区别
os.makedir(path)和os.makedirs(path)今天工作中将hadoop文件同步到服务器磁盘，由于文件类别目录较多，迁移
Python3 Loguru输出日志工具的使用
一、前言Python logging 模块定义了为应用程序和库实现灵活的事件日志记录的函数和类。程序开发过程中，很多程序都有记录日志的需求，
Python要求O(n)复杂度求无序列表中第K的大元素实例
昨天面试上来就是一个算法，平时基本的算法还行，结果变个法就不会了。。。感觉应该刷一波Leecode冷静下。。。今天抽空看下。题目就是要求O(
高亮闪烁某个元素的js脚本
页面上有些重要内容需要提醒客户，可采用的方法有很多。提醒用户关注某一区域(div)，可以给该div加上边框闪烁的效果，达到吸引用户眼球的效果
解决Python3错误:SyntaxError: unexpected EOF while parsin
Python错误SyntaxError: unexpected EOF while parsing含义是解释器到底了都没找到它要找到的东西出
Vuex简单入门
1.Vuex是什么？学院派：Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式；集中存储和管理应用的所有组件状态。理解：以上这4
网页设计中怎么将px换成em
在这系列视觉设计的文章间隙插一篇字体单位的文章。前文说了，字体单位应该用em而不用px，原因简单来说就是支持IE6下的字体缩放，在页面中按c
四行Python3代码实现图片添加美颜效果
1、引言小 * 丝：鱼哥，鱼哥，help…小鱼：呼吸声越来越弱，你这是劳累过度？？小 * 丝：拉倒吧，我这是激动的小鱼：什么大
可用性测试过程中需要关注的一些细节
原则：1. 我们测试的是产品可用性，不是使用者的个人能力2. 尽量不要打断用户的操作3. &
使用Python求解带约束的最优化问题详解
题目：1. 利用拉格朗日乘子法#导入sympy包，用于求导，方程组求解等等from sympy import * #设置变量x1 = sym
js实现购物网站放大镜功能
本文实例为大家分享了js实现购物网站放大镜功能的具体代码，供大家参考，具体内容如下首先看效果图：先是布局，左边一个小图框，包含一个鼠标移动框

Python判断三段线能否构成三角形的代码

使用Keras画神经网络准确性图教程

Python Tkinter简单布局实例教程

解决python 读取npy文件太大不能完全显示的问题

Python编写带选项的命令行程序方法

解读python中的类型提示(type hint)

python3.6.4安装opencv3.4.2的实现

对python中的argv和argc使用详解

详解python 爬取12306验证码

python的ImageTk.PhotoImage大坑及解决

mysql压缩包版zip安装配置方法

ASP 关于动态数据显示页面得锚点

Win7如何恢复组策略的默认设置？

排名是怎样炼成的？

魔渊之刃武器特性种类汇总一览（一）

Autoreg.exe是什么进程？是病毒吗？

QQ飞车小黄鸭亲子装怎么砍价？小黄鸭亲子装砍价方法攻略

我的文字世界四郎的烦恼怎么玩

豪杰成长计划北少林位置在哪

Word 2010的图片处理介绍

手机版 网络编程 asp之家 www.aspxhome.com