python抓取京东商城手机列表url实例代码
发布时间:2022-11-11 18:23:04
#-*- coding: UTF-8 -*-
'''
Created on 2013-12-5
@author: good-temper
'''
import urllib2
import bs4
import time
def getPage(urlStr):
'''
获取页面内容
'''
content = urllib2.urlopen(urlStr).read()
return content
def getNextPageUrl(currPageNum):
#http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-页码-1-1-72-4137-33.html
url = u'http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-'+str(currPageNum+1)+'-1-1-72-4137-33.html'
#是否有下一页
content = getPage(url);
soup = bs4.BeautifulSoup(content)
list = soup.findAll('span',{'class':'next-disabled'});
if(len(list) == 0):
return url
return ''
def analyzeList():
pageNum = 0
list = []
url = getNextPageUrl(pageNum)
while url !='':
soup = bs4.BeautifulSoup(getPage(url))
pagelist = soup.findAll('div',{'class':'p-name'})
for elem in pagelist:
soup1 = bs4.BeautifulSoup(str(elem))
list.append(soup1.find('a')['href'])
pageNum = pageNum+1
print pageNum
url = getNextPageUrl(pageNum)
return list
def analyzeContent(url):
return ''
def writeToFile(list, path):
f = open(path, 'a')
for elem in list:
f.write(elem+'\n')
f.close()
if __name__ == '__main__':
list = analyzeList()
print '共抓取'+str(len(list))+'条\n'
writeToFile(list, u'E:\\jd_phone_list.dat');


猜你喜欢
- 是的,我在这里要说:注册表单将死(好拗口啊,但是不知道怎么翻译更恰当)。回想一下,当你想享受一个网站服务的时候,碰到的第一件事是什么?一个表
- 一 前言官方解释:https://www.elastic.co/guide/en/elasticsearch/reference/6.0/r
- drop table if exists dd; create table dd ( user_id int , class_no int
- 一般上电子商务网站买东西的用户分三种:随便看看,就是不买先看看,买不买再说就是来买东西的这样的需求反应到产品页的购买按钮上,我们一般会看到购
- 例题取用登录模块:代码如下def login_check(username,password):''' 登录校验的函
- 1. 矩阵求逆import numpy as npa = np.array([[1, 2], [3, 4]]) # 初始化一个非奇异矩阵(数
- 本文实例讲述了利用PHP函数计算中英文字符串长度的方法。分享给大家供大家参考。具体实现方法如下:一般来说大家知道英文字符占一个字节,而中文字
- 在我们制作网页的时候会经常碰到一些需求,如果不知道方法,说不定会困扰我们半天。其实实现它们都很简单,下
- 需要安装pyechartspip install pyecharts -U 创建【demo6.py】并输入以下编码:from py
- Django中想要把模型类聚合得到想要的数据可以用F对象。比如有模型类A和B,A和B之间有外键关联在一起,A是子表,B是父表(反过来没试过。
- 英文文档:vars([object])Return the __dict__ attribute for a module, class,
- 以下虚线框内为mk.asp文件的具体代码:<%filename="test.htm"if request
- 大数据分析必定少不了数据抓取,只有拥有海量的数据才能对数据进行对比分析。因此,网页爬虫是作为程序员必须要懂得技能,下文我将通过文字形式记录下
- MySQL5.7版本开始支持JSON格式,在创建表时,可以指定列表的数据类型为JSON,但是如何在JSON格式上创建索引呢??本人做了一个简
- 前言出发点,网上下了一批png,使用wxFormBuilder做软件工具栏的图标,原图做出来的效果这么大的一个图标让笔者差点就笑岔气了以前都
- console 打印乱码1.File Encoding设置项目编码为GBK2.文件模板设定python脚本为# -*- coding: ut
- <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&
- 最近 W3C 一口气推出 7 个 HTML 工作草案,涵盖了 HTML5,HTML RDF,HTML Microdata,HTM
- 目录1. 配置Python环境变量2. 安装Python编辑器,并在其中配置Python3. 安装控制包uiautomator2,和其它辅助
- 在深入研究这些库之前,首先,我们需要一个数据库来绘制数据。我们将在本完整教程中使用 tips database。让我们讨论一下这个数据库的简