python定向爬取淘宝商品价格
作者:learn_is_happy 发布时间:2023-10-03 23:33:12
标签:python,爬取
python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
r.encoding= r.apparent_encoding
return r.text
except:
return ""
def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print ("")
def PrintGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print (tplt.format("序号","价格","商品名称"))
count = 0
for g in ilt:
count = count + 1
print (tplt.format(count,g[0],g[1]))
def main():
goods = '书包'
depth = 2
start_url = 'https://s.taobao.com/search?q=' + goods
infoList=[]
for i in range(depth):
try:
url = start_url + '&s=' + str(44*i)
html= getHTMLText(url)
parsePage(infoList,html)
except:
continue
PrintGoodsList(infoList)
main()
来源:http://blog.csdn.net/learn_is_happy/article/details/78773956


猜你喜欢
- 1.requiremwnts:Django版本:2.2python版本:3.6djangorestframework版本:3.1django
- MySQL 提供了一个很有意思的Engine:Federated!如果你了解Linux下面的Link的话,就应该很好理解这个Federate
- 本文实例讲述了Python实现破解12306图片验证码的方法。分享给大家供大家参考,具体如下:不知从何时起,12306的登录验证码竟然变成了
- 环境:pyecharts库,echarts-countries-pypkg,echarts-china-provinces-pypkg,ec
- 前言 pycharm默认是没有为我们设置模板信息的,但为了更加方便的实现代码管理,以及能够一目
- 使用python的turtle库画一个方格和圆打开python编译器,导入turtle库from turtle import *首先画一个距
- 以下是服务端代码var HTTPREQUEST_PROXYSETTING_DEFAULT = 0;var&nb
- 本文实例讲述了Python中的单继承与多继承。分享给大家供大家参考,具体如下:单继承一、介绍Python 同样支持类的继承,如果一种语言不支
- 具体代码如下:Function ASTCreateFtpSite(IPAddress, RootDirectory,&n
- 本文从多个角度来讲解如何在Access数据库上如何上传并且显示上所上传图片。在 * 站制做过程中,需要上传图片、显示图片,上传的图片要能够保
- 有向无环图拓扑排序是针对有向无环图(DAG, Directed Acyclic Graph)的具有以下性质:如果这个图不是 DAG,那么它是
- 一、打开命令提示符方法一:window+R键 ——输入cmd方法二:在此搜索cmd进入命令提示符二、
- 什么是Mosaic数据增强方法Yolov4的mosaic数据增强参考了CutMix数据增强方式,理论上具有一定的相似性!CutMix数据增强
- mysql exists与not exists实例详解tableA|column1 | column1 |column3 |tableb|c
- 错误信息UnicodeDecodeError: ‘utf-8' codec can't decode byte 0xce i
- globalStorage 这个也是html5中提出来,在浏览器关闭以后,使用globalStorage存储的信息仍能够保留下来,并且存储容
- 方法一:import osimport cv2 as cvimport numpy as np# 读取yuv420p的一帧文件,并转化为pn
- range()反向遍历的几种表达for i in range(10,0,-2):#有10 print(i)prin
- 前言一般而言,新的 centos 7.x 中自带的 python 都是 2.x 的版本。对于我们运行 python 软件支持并不友好,所以需
- Django提供了一个新的类来帮助管理分页数据,这个类存放在django/core/paginator.py.它可以接收列表、元组或其它可迭