位置：首页>> 网络编程>> Python编程>> python定向爬取淘宝商品价格

python定向爬取淘宝商品价格

作者：learn_is_happy　　发布时间：2023-10-03 23:33:12　

标签：python,爬取

python爬虫学习之定向爬取淘宝商品价格，供大家参考，具体内容如下

import requests
import re

def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
r.encoding= r.apparent_encoding
return r.text
except:
return ""

def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print ("")

def PrintGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print (tplt.format("序号","价格","商品名称"))
count = 0
for g in ilt:
count = count + 1
print (tplt.format(count,g[0],g[1]))
def main():
goods = '书包'
depth = 2
start_url = 'https://s.taobao.com/search?q=' + goods
infoList=[]
for i in range(depth):
try:
url = start_url + '&s=' + str(44*i)
html= getHTMLText(url)
parsePage(infoList,html)
except:
continue

PrintGoodsList(infoList)

main()

来源：http://blog.csdn.net/learn_is_happy/article/details/78773956

0

投稿

猜你喜欢

从两个方面讲解SQL Server口令的脆弱性
如果你细心跟踪一下SQL Server数据库服务器的登录过程，你会发现口令计算其实是非常脆弱的，SQL Server数据库的口令脆弱体现两方
PHP5中使用DOM控制XML实现代码
下面的例子简单的演示了DOM对XML的操作，详细解释请看代码中的注释 <? /****************************
利用python调用摄像头的实例分析
这篇文章主要介绍了python调用摄像头的示例代码，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下一、打开摄像头import
Oracle 游标使用总结
Oracle游标分为显示游标和隐式游标。显示游标（Explicit Cursor）:在PL/SQL程序中定义的、用于查询的游标称作显示游标。
Go各时间字符串使用解析
Go 中时间格式化的模板const ( ANSIC = "Mon Jan _2 15:04:
详解Python读取和写入操作CSV文件的方法
最流行的数据交换格式之一是 CSV 格式。是需要通过键盘和控制台以外的方式将信息输入和输出的程序，通过文本文件交换信息是在程序之间共享信息的
php checkbox复选框值的获取与checkbox默认值输出方法
php获取 checkbox复选框值的方法 <html xmlns="https://www.aspxhome.net/19
关于jupyter打开之后不能直接跳转到浏览器的解决方式
jupyter介绍jupyter的全称为Jupyter Notebook，之前一度被称为（IPython notebook），是一种交互式的
sql无效字符执行sql语句报错解决方案
说起来惭愧，总是犯一些小错误，纠结半天，这不应为一个分号的玩意折腾了好半天！错误时在执行SQL语句的时候发出的，信息如下： Java代码
js和php如何获取当前url的内容
#测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVE
Highcharts 图表中图例显示状态存储的功能设计详解
需求背景公司前端使用 Highcharts 构建图表，图表的图例支持点击显示或隐藏相应的指标。现在有需求后端需要存储用户在前端点击后显示图表
php strftime函数获取日期时间(switch用法)
strftime()函数的用法strftime()函数可以把YYYY-MM-DD HH:MM:SS格式的日期字符串转换成其它形式的字符串。s
python 输出上个月的月末日期实例
如下所示：import dateutildef before_month_lastday(ti): today=dateutil
php中mysql连接方式PDO使用详解
PDO常用方法：PDO::query()主要用于有记录结果返回的操作（PDOStatement），特别是select操作。PDO::exec
ASP模拟MVC模型的编程方式
大家都知道JAVA里最流行的是MVC模型的编程方式，如果你不知道MVC的概念，可以去网上搜索下，应该会马上找到N多资料。PHP5推出之后，也
Python的ORM框架中SQLAlchemy库的查询操作的教程
1. 返回列表和标量(Scalar)前面我们注意到Query对象可以返回可迭代的值(iterator value)，然后我们可以通过for
ASP中的301跳转和302跳转
常用的重定向方式有: 301 redirect, 302 redirect 与 meta fresh：301 redirect: 301代表
浅谈python函数之作用域(python3.5)
1 基本概念1.1 命名空间 (namespace)命名空间是变量名到对象的映射（name -> obj）。目前大多数的命名空间以类似
Python基于pygame实现的font游戏字体(附源码)
本文实例讲述了Python基于pygame实现的font游戏字体。分享给大家供大家参考，具体如下：在pygame游戏开发中，一个友好的UI中
python用moviepy对视频进行简单的处理
楔子随着自媒体时代，现在对视频的处理变得越来越常见。我们可以使用Adobe的一些专业工具，但是效率不高；如果只是对视频进行一些简单的处理的话

Python机器学习NLP自然语言处理基本操作关键词

win10 64bit下python NLTK安装教程

python如何对链表操作

python之np.argmax()及对axis=0或者1的理解

使用python处理一万份word表格简历操作

关于多元线性回归分析——Python&SPSS

python将每个单词按空格分开并保存到文件中

编写Python脚本来实现最简单的FTP下载的教程

便捷提取python导入包的属性方法

python Django编写接口并用Jmeter测试的方法

WPS实现文字随移动设置是什么

Android 应用指定浏览器开发实例

Windows11升级可能会加密硬盘！磁盘被Bitlocker加密的解决方法

使用window.name解决跨域问题

Win7/Win8.1设备即将停止销售 2016年10月31日起实施

macOS应用程序如果在打开时提示崩溃，该怎么解决

Win10系统更新不了20H2版本怎么解决？

C语言数据类型转换实例代码

学习XHTML和HTML之间的区别

Word主题如何更换

手机版 网络编程 asp之家 www.aspxhome.com