python根据京东商品url获取产品价格
作者:hebedich 发布时间:2022-01-26 12:14:31
标签:python,京东价格
京东商品详细的请求处理,是先显示html,然后再ajax请求处理显示价格。
1.可以运行js,并解析之后得到的html
2.模拟js请求,得到价格
# -*- coding: utf-8 -*-
"""
根据京东url地址,获取商品价格
京东请求处理过程,先显示html页面,然后通过ajax get请求获取相应的商品价格
1.商品的具体数据在html中的格式,如下(示例)
# product: {
# skuid: 1310118868,
# name: '\u9999\u5f71\u77ed\u88d9\u4e24\u4ef6\u5957\u88c5\u5973\u0032\u0030\u0031\u0034\u51ac\u88c5\u65b0\u6b3e\u97e9\u7248\u957f\u8896\u0054\u6064\u4e0a\u8863\u8377\u53f6\u8fb9\u534a\u8eab\u88d9\u6f6e\u0020\u85cf\u9752\u0020\u004d',
# skuidkey:'7781F505B71CE37A3AFBADA119D3587F',
# href: 'http://item.jd.com/1310118868.html',
# src: 'jfs/t385/197/414081450/336886/3070537b/541be890N2995990c.jpg',
# cat: [1315,1343,1355],
# brand: 18247,
# nBrand: 18247,
# tips: false,
# type: 2,
# venderId:38824,
# shopId:'36786',
# TJ:'0',
# specialAttrs:["is7ToReturn-1"],
# videoPath:'',
# HM:'0'
# }
2.ajax请求代码如下:
# // 获得数字价格
# var getPriceNum = function(skus, $wrap, perfix, callback) {
# skus = typeof skus === 'string' ? [skus]: skus;
# $wrap = $wrap || $('body');
# perfix = perfix || 'J-p-';
# $.ajax({
# url: 'http://p.3.cn/prices/mgets?skuIds=J_' + skus.join(',J_') + '&type=1',
# dataType: 'jsonp',
# success: function (r) {
# if (!r && !r.length) {
# return false;
# }
# for (var i = 0; i < r.length; i++) {
# var sku = r[i].id.replace('J_', '');
# var price = parseFloat(r[i].p, 10);
#
# if (price > 0) {
# $wrap.find('.'+ perfix + sku).html('¥' + r[i].p + '');
# } else {
# $wrap.find('.'+ perfix + sku).html('暂无报价');
# }
#
# if ( typeof callback === 'function' ) {
# callback(sku, price, r);
# }
# }
# }
# });
# };
"""
import urllib
import json
import re
class JdPrice(object):
"""
对获取京东商品价格进行简单封装
"""
def __init__(self, url):
self.url = url
self._response = urllib.urlopen(self.url)
self.html = self._response.read()
def get_product(self):
"""
获取html中,商品的描述(未对数据进行详细处理,粗略的返回str类型)
:return:
"""
product_re = re.compile(r'compatible: true,(.*?)};', re.S)
product_info = re.findall(product_re, self.html)[0]
return product_info
def get_product_skuid(self):
"""
通过获取的商品信息,获取商品的skuid
:return:
"""
product_info = self.get_product()
skuid_re = re.compile(r'skuid: (.*?),')
skuid = re.findall(skuid_re, product_info)[0]
return skuid
def get_product_name(self):
pass
def get_product_price(self):
"""
根据商品的skuid信息,请求获得商品price
:return:
"""
price = None
skuid = self.get_product_skuid()
url = 'http://p.3.cn/prices/mgets?skuIds=J_' + skuid + '&type=1'
price_json = json.load(urllib.urlopen(url))[0]
if price_json['p']:
price = price_json['p']
return price
# 测试代码
if __name__ == '__main__':
url = 'http://item.jd.com/1310118868.html'
url = 'http://item.jd.com/1044773.html'
jp = JdPrice(url)
print jp.get_product_price()
# htm.decode('gb2312', 'ignore').encode('utf-8')
# f = open('jjs.html', 'w')
# f.write(htm)
# f.close()
再给大家分享一个京东价格的爬虫:
fromcreepyimportCrawler
fromBeautifulSoupimportBeautifulSoup
importurllib2
importjson
classMyCrawler(Crawler):
defprocess_document(self,doc):
ifdoc.status==200:
print[%d]%s%(doc.status,doc.url)
try:
soup=BeautifulSoup(doc.text.decode(gb18030).encode(utf-8))
exceptExceptionase:
printe
soup=BeautifulSoup(doc.text)
printsoup.find(id="product-intro").div.h1.text
url_id=urllib2.unquote(doc.url).decode(utf8).split(/)[-1].split(.)[0]
f=urllib2.urlopen(http://p.3.cn/prices/get?skuid=J_+url_id,timeout=5)
price=json.loads(f.read())
f.close()
printprice[0][p]
else:
pass
crawler=MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter(.(jpg|jpeg|gif|png|js|css|swf)$)
crawler.crawl(http://item.jd.com/982040.html)


猜你喜欢
- Base64编码和解码Base64 不是加密算法,只是一种编码方式,数据从一种形式转换为另一种形式进行传输/存储。Base64 就是一种基于
- Python 如何转换string到float?简单几步,让你轻松解决。打开软件,新建python项目,如图所示右键菜单中创建.py文件,如
- 5位数日期戳读取 .mat 文件处理里面数据时,发现里面的日期数据全部都是 “5位数” 数字,很不解;后来查到可以在excel中通过设置单元
- 图片的宽度和高度是未知的,没有一个固定的尺寸,在这个前提下要使图片在一个固定了宽度和高度的容器中垂直居中,想想感觉还是挺麻烦的,由于最近的项
- asp代码 如下:读取注册表信息使用了对象WScript.Shell<%Dim strPath strP
- 本文实例为大家分享了python3.5基于TCP实现文件传输的具体代码,供大家参考,具体内容如下服务器代码# _*_ coding:utf-
- 一、怎么样取得最新版本的MySQL?要安装MySQL,首先要当然要取得它的最新版本,虽然大家都知道在FreeBSD的Packages中可以找
- 一、数字类型。数字类型按照我的分类方法分为三类:整数类、小数类和数字类。 我所谓的“数字类”,就是指DECIMAL
- 什么是事件呢?按下键盘某个按键,鼠标移动,包括点击关闭按钮都可以算是事件操作。Pygame事件pygame.event.EventType&
- 最近,接手的项目里,提供的数据文件格式简直让人看不下去,使用pandas打不开
- 描述:让Len,Left,Right函数识别中文;对中文识别为两个字符,ASCII码为一个;可用此函数代替Len,Left,Right函数。
- 我想把存在数据库里的每天24小时来访者数另放到一个Excel文件中去,可以吗?可以,其实就是将数据库里面的内容生成一个Excel文件:toe
- 前言本文主要介绍了关于MySQL主键为0与主键自排约束的关系,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧。开始不设置主键
- infer 这个关键字,整理记录一下,避免后面忘记了。有点难以理解呢。inferinfer 是在 typescript 2.8中新增的关键字
- 迭代首先理解下什么是迭代,python中所有从左往右扫面对象的方式都是可迭代的有哪些方式是可迭代的:1.文件操作 我
- 同级目录(兄弟目录)调用看书看得好好的,一写代码就出错!!!这个问题是大家初学Python的时候会遇到的一个很常见的问题,然后我们去搜网上的
- 业务场景使用elasticsearch作为全文搜索引擎,对标题、内容等,实现智能搜索、输入提示、拼音搜索等elasticsearch索引与数
- 自定义指令中无法获取this问题最近在使用自定义指令时遇到一个问题,我想在指令里通过this直接去访问vue实例数据,但是显示未定义,经大佬
- 前言NSQ是Go语言编写的,开源的分布式消息队列中间件,其设计的目的是用来大规模地处理每天数以十亿计级别的消息。NSQ 具有分布式和去中心化
- 本文实例讲述了Django框架ORM数据库操作。分享给大家供大家参考,具体如下:测试数据:BookInfo表PeopleInfo表一.增加1