python根据京东商品url获取产品价格
作者:hebedich 发布时间:2022-01-26 12:14:31
标签:python,京东价格
京东商品详细的请求处理,是先显示html,然后再ajax请求处理显示价格。
1.可以运行js,并解析之后得到的html
2.模拟js请求,得到价格
# -*- coding: utf-8 -*-
"""
根据京东url地址,获取商品价格
京东请求处理过程,先显示html页面,然后通过ajax get请求获取相应的商品价格
1.商品的具体数据在html中的格式,如下(示例)
# product: {
# skuid: 1310118868,
# name: '\u9999\u5f71\u77ed\u88d9\u4e24\u4ef6\u5957\u88c5\u5973\u0032\u0030\u0031\u0034\u51ac\u88c5\u65b0\u6b3e\u97e9\u7248\u957f\u8896\u0054\u6064\u4e0a\u8863\u8377\u53f6\u8fb9\u534a\u8eab\u88d9\u6f6e\u0020\u85cf\u9752\u0020\u004d',
# skuidkey:'7781F505B71CE37A3AFBADA119D3587F',
# href: 'http://item.jd.com/1310118868.html',
# src: 'jfs/t385/197/414081450/336886/3070537b/541be890N2995990c.jpg',
# cat: [1315,1343,1355],
# brand: 18247,
# nBrand: 18247,
# tips: false,
# type: 2,
# venderId:38824,
# shopId:'36786',
# TJ:'0',
# specialAttrs:["is7ToReturn-1"],
# videoPath:'',
# HM:'0'
# }
2.ajax请求代码如下:
# // 获得数字价格
# var getPriceNum = function(skus, $wrap, perfix, callback) {
# skus = typeof skus === 'string' ? [skus]: skus;
# $wrap = $wrap || $('body');
# perfix = perfix || 'J-p-';
# $.ajax({
# url: 'http://p.3.cn/prices/mgets?skuIds=J_' + skus.join(',J_') + '&type=1',
# dataType: 'jsonp',
# success: function (r) {
# if (!r && !r.length) {
# return false;
# }
# for (var i = 0; i < r.length; i++) {
# var sku = r[i].id.replace('J_', '');
# var price = parseFloat(r[i].p, 10);
#
# if (price > 0) {
# $wrap.find('.'+ perfix + sku).html('¥' + r[i].p + '');
# } else {
# $wrap.find('.'+ perfix + sku).html('暂无报价');
# }
#
# if ( typeof callback === 'function' ) {
# callback(sku, price, r);
# }
# }
# }
# });
# };
"""
import urllib
import json
import re
class JdPrice(object):
"""
对获取京东商品价格进行简单封装
"""
def __init__(self, url):
self.url = url
self._response = urllib.urlopen(self.url)
self.html = self._response.read()
def get_product(self):
"""
获取html中,商品的描述(未对数据进行详细处理,粗略的返回str类型)
:return:
"""
product_re = re.compile(r'compatible: true,(.*?)};', re.S)
product_info = re.findall(product_re, self.html)[0]
return product_info
def get_product_skuid(self):
"""
通过获取的商品信息,获取商品的skuid
:return:
"""
product_info = self.get_product()
skuid_re = re.compile(r'skuid: (.*?),')
skuid = re.findall(skuid_re, product_info)[0]
return skuid
def get_product_name(self):
pass
def get_product_price(self):
"""
根据商品的skuid信息,请求获得商品price
:return:
"""
price = None
skuid = self.get_product_skuid()
url = 'http://p.3.cn/prices/mgets?skuIds=J_' + skuid + '&type=1'
price_json = json.load(urllib.urlopen(url))[0]
if price_json['p']:
price = price_json['p']
return price
# 测试代码
if __name__ == '__main__':
url = 'http://item.jd.com/1310118868.html'
url = 'http://item.jd.com/1044773.html'
jp = JdPrice(url)
print jp.get_product_price()
# htm.decode('gb2312', 'ignore').encode('utf-8')
# f = open('jjs.html', 'w')
# f.write(htm)
# f.close()
再给大家分享一个京东价格的爬虫:
fromcreepyimportCrawler
fromBeautifulSoupimportBeautifulSoup
importurllib2
importjson
classMyCrawler(Crawler):
defprocess_document(self,doc):
ifdoc.status==200:
print[%d]%s%(doc.status,doc.url)
try:
soup=BeautifulSoup(doc.text.decode(gb18030).encode(utf-8))
exceptExceptionase:
printe
soup=BeautifulSoup(doc.text)
printsoup.find(id="product-intro").div.h1.text
url_id=urllib2.unquote(doc.url).decode(utf8).split(/)[-1].split(.)[0]
f=urllib2.urlopen(http://p.3.cn/prices/get?skuid=J_+url_id,timeout=5)
price=json.loads(f.read())
f.close()
printprice[0][p]
else:
pass
crawler=MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter(.(jpg|jpeg|gif|png|js|css|swf)$)
crawler.crawl(http://item.jd.com/982040.html)
0
投稿
猜你喜欢
- 方法一1. 下载MySQL源码分发包,不用区分操作系统,我们需要的东西是一样的;2. 重命名自己的mysql的data目录下的mysql文件
- 今天老肥让我试试百度知道的新功能:插入地图。该功能需要登录才能操作,因此我意外的发现百度用户登录的弹出层变了。我很喜欢这个改进,利用TAB来
- 在记忆里,关于时间方面常的SQL也就下面这两个了,大多数朋友问题中所涉及到的数据库都ACCESS的,在些,也就写出这两SQL了。年代久远,目
- PHP有效的时间戳典型范围是格林威治时间 1901 年 12 月 13 日 20:45:54 到 203
- 先声明一下,这是本人在某个项目中用到的,本人自己写的,如有雷同纯属巧合。同时也欢迎高人指正。这种星级的投票效果很常见,但是目前线上大多都是通
- Windows客户端业务群产品营销主管斯蒂芬最近在向记者示范Internet Explorer 8 Beta2版浏览器的技术特征时标识,与用
- 客户用的数据库是mysql,而研发好的产品支持oracle,为了让客户掏腰包,我们必须把数据库环境从oracle转向mysql。我们在转换的
- django-pipeline 是一个 Django 下非常方便的静态资源管理 app,尤其是 1.2 版本之后,利用 djan
- json数据:[{"authenticate":-99,"last_ip":"156.2.
- 表格制作好了,内容也有了,怎么看着别扭呀!哦,还没有给表格化化装--格式化表格呀,俗话说:人靠衣服也靠鞍,要想让你制作的网页漂漂亮亮、美观大
- 1.match() 从开始位置开始匹配 2.search() 任意位置匹配,如果有多个匹配,只返回第一个 3.finditer() 返回所有
- 一、数字类型所谓的“数字类”,就是指 DECIMAL 和 NUMERIC,它们是同一种类型。它严格的
- XML Web Service 是在 Internet 上进行分布式计算的基本构造块。开放的标准以及对用户和应用程序之间的通信和协作的关注产
- 此代码适合你做网站用,普通朋友可以不用理这个东西!ASP:<%dim objXMLHTTP, qq, pwd qq = &
- Content Design(内容设计)即涉及产品需求也涉及到(产品和用户)互动过程中的具体环节。大多数团队中只有PM才会涉及到相关工作,一
- URL 编码是什么东东呢?看看我从网上抄的定义: 引用: url编码是一种浏览器用来打包
- 本文总结了一些简单基本的输出格式化形式,下面话不多说了,来看看详细的介绍吧。一、打印字符串>>> print "
- 1 获取jobs的当前任务状态server_1 = jenkins.Jenkins('http://%s:%s@192.168.37
- 简介Github:https://github.com/spf13/cobraStar:26.5KCobra是一个用Go语言实现的命令行工具
- 目前已经有很多生成html的新闻系统,但是都是用的模板,本函数实现把asp页面产生的html代码保存成为一个html文件,这样就没有必要改动