Python爬虫实战之爬取京东商品数据并实实现数据可视化
作者:weixin_43649691 发布时间:2023-11-02 18:42:38
标签:Python,爬取,数据,可视化
一、开发工具
Python版本:3.6.4
相关模块:
DecryptLogin模块;
argparse模块;
以及一些python自带的模块。
二、环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
三、原理简介
原理其实挺简单的,首先,我们利用之前开源的DecryptLogin库来实现一下微博的模拟登录操作:
'''模拟登录京东'''
@staticmethod
def login():
lg = login.Login()
infos_return, session = lg.jingdong()
return session
然后写几行简单的代码来保存一下登录后的会话,省得每次运行程序都要先模拟登录京东:
if os.path.isfile('session.pkl'):
print('[INFO]: 检测到已有会话文件session.pkl, 将直接导入该文件...')
self.session = pickle.load(open('session.pkl', 'rb'))
self.session.headers.update({'Referer': ''})
else:
self.session = JDGoodsCrawler.login()
f = open('session.pkl', 'wb')
pickle.dump(self.session, f)
f.close()
接着去京东抓一波包,一样的套路,有种屡试不爽的感觉:
看看请求这个接口需要提交的参数:
我们可以简单分析一下每个参数的含义:
area: 不用管,可以看作一个固定值
enc: 指定编码, 可以看作固定值"utf-8"
keyword: 搜索的关键词
adType: 不用管,可以看作一个固定值
page: 当前的页码
ad_ids: 不用管,可以看作一个固定值
xtest: 不用管,可以看作一个固定值
_: 时间戳
也就是说我们需要提交的params的内容大概是这样子的:
params = {
'area': '15',
'enc': 'utf-8',
'keyword': goods_name,
'adType': '7',
'page': str(page_count),
'ad_ids': '291:19',
'xtest': 'new_search',
'_': str(int(time.time()*1000))
}
构造好需要提交的params之后,只需要利用登录后的session去请求我们抓包得到的接口:
response = self.session.get(search_url, params=params)
然后从返回的数据里解析并提取我们需要的数据就可以啦:
response_json = response.json()
all_items = response_json.get('291', [])
for item in all_items:
goods_infos_dict.update({len(goods_infos_dict)+1:
{
'image_url': item.get('image_url', ''),
'price': item.get('pc_price', ''),
'shop_name': item.get('shop_link', {}).get('shop_name', ''),
'num_comments': item.get('comment_num', ''),
'link_url': item.get('link_url', ''),
'color': item.get('color', ''),
'title': item.get('ad_title', ''),
'self_run': item.get('self_run', ''),
'good_rate': item.get('good_rate', '')
}
})
四、数据可视化
老规矩,可视化一波我们爬取到的数据呗。以我们爬取到的无人机商品数据为例。首先,我们来看看京东里卖无人机的自营店和非自营店比例吧:
咦,竟然是非自营店占多。我一直以为京东基本都是自营店,虽然我基本不用京东。真是个天大的误解T_T。
接着,我们再来看看京东自己给的商品排名前10的那几家店的商品评论数量呗:
对比一下评论最多的店铺:
看来评论数量和京东给的商品排名并没有直接联系T_T,竟然没有一家店是重复的。
再来看看无人机相关商品的价格分布呗:
来源:https://blog.csdn.net/weixin_43649691/article/details/117560643
0
投稿
猜你喜欢
- 本文实例讲述了python自动化之Ansible的安装。分享给大家供大家参考,具体如下:一 点睛Ansible只需在管理端部署环境即可,建议
- 假设你想找到本书中的某一个句子。你可以一页一页地逐页搜索,但这会花很多时间。而通过使用本书的索引,你可以很快地找到你要搜索的主题。表的索引与
- 嵌套模板(Nested Template),其实就是基于另一个模板创建的模板。要创建嵌套模板,首先要保
- Python的绘图库也允许用户创建优雅的图形,本章给大家介绍的是关于ggplot绘制画图的技巧,ggplot2建立在grid系统上,这个系统
- 现实生活中,有很多场景中的事情是同时进行的,比如开车的时候,手和脚共同来驾驶汽车,再比如唱歌跳舞也是同时进行的。以上这些可以理解为多任务。那
- 我看见朋友可以把数据库的记录输出到页面表格上去,觉得很有用。这是怎么做的啊?见下:dbtable.asp<html><he
- 工欲善其事必先利其器,估计大部分的pythoner都是从python IDE开始了python之路。有很多的python IDE工具可以用,
- oracle10g数据备份 1.用sql/plus developer,选中要备份的数据表,右击选择"Export data&qu
- 说明:通过随机产生密码,然后将密码EMail给注册用户,你可以确认用户的EMail填写是否正确。自动产生的密码往往安全性更高,同时,你可以过
- 本文为大家分享了python链表的基础概念和基础用法,供大家参考,具体内容如下一、什么是链表链表是由多个不同的节点组成,每个节点通过指针区域
- MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下公司。MySQL 最流行的关系型数据库管
- 使用微信获取地址信息是和微信支付一道申请的,微信支付申请通过,就可以使用该功能。微信商城中,使用微信支付获取用户的收货地址,可以省略用户输入
- 如何制作关联的下拉菜单?看看代码:<form name=f1 METHOD="POST">
- TensorFlow中的log共有INFO、WARN、ERROR、FATAL 4种级别。有以下几种设置方式。1. 通过设置环境变量控制log
- 摘要django框架本身自带有登录注册,也可以自己写登录注册,下面将介绍这这2种方式实登录注册一、自己写登录注册登出1.注册regist注册
- 今天写了个爬虫,在抓取数据的时候遇到一个问题,我觉得如果不注意,这个问题很容易被忽略,所以特意在博客记录下:问题描述:比如,我在提取信息时,
- 首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrap
- 安装QT时在VS2019扩展里面下载QT工具时下载就一直卡在开始,如图: 网上搜索的一些改host和关ipv6的方法试了之后也没有
- 对于php开发小白来说搭建一个php运行环境就是一道坎!因为要做php开发,搭建一个能够运行php网站的服务器环境是第一步,传统的php环境
- 1.今天网上下载一个博客项目,发现本地访问,js,css加载不了.我想应该是项目上线的安全措施,但是我想调试项目.找到方法如下在settin