简单的抓取淘宝图片的Python爬虫
作者:hebedich 发布时间:2022-01-19 14:42:31
标签:Python,爬虫,淘宝
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。
从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。
# -*- coding: cp936 -*-
import urllib2
import urllib
mmurl="http://mm.taobao.com/json/request_top_list.htm?type=0&page="
i=0#第二页有个人的页面没图片,会出现IO错误
while i<15:
url=mmurl+str(i)
#print url #打印出列表的url
up=urllib2.urlopen(url)#打开页面,存入句柄中
cont=up.read()
#print len(cont)#页面的长度
ahref='<a href="http'#筛选页面内网页链接的关键字
target="target"
pa=cont.find(ahref)#找出网页链接的头部位置
pt=cont.find(target,pa)#找出网页链接的尾部位置
for a in range(0,20):#如才能不把20硬编码进去?如何找到文件结尾?
urlx=cont[pa+len(ahref)-4:pt-2]#从头部到尾部,将网页链接存入变量
if len(urlx) < 60:#如果网页链接长度适合【len()!!!!】
urla=urlx #那么就准备将其打印出来
print urla #这是想要的model个人URL
#########以下开始对model个人的URL进行操作#########
mup=urllib2.urlopen(urla)#打开model个人的页面,存入句柄中
mcont=mup.read()#对model页面的句柄进行读出操作,存入mcont字符串
imgh="<img style=" #筛选页面内【图片】链接的关键字
imgt=".jpg"
iph=mcont.find(imgh)#找出【图片】链接的头部位置
ipt=mcont.find(imgt,iph)#找出【图片】链接的尾部位置
for b in range(0,10):#又是硬编码····
mpic=mcont[iph:ipt+len(imgt)]#原始图片链接,链接字符的噪声太大
iph1=mpic.find("http")#对上面的链接再过滤一次
ipt1=mpic.find(imgt) #同上
picx=mpic[iph1:ipt1+len(imgt)]
if len(picx)<150:#仍有一些URL是“http:ss.png><dfsdf>.jpg”(设为100竟然会误伤)
pica=picx #【是len(picx)<100而不是picx!!】不然会不显示
print pica
############################
###########开始下载pica这个图片
urllib.urlretrieve(pica,"pic\\tb"+str(i)+"x"+str(a)+"x"+str(b)+".jpg")
########### pica图片下载完毕.(加上各循环体的数字,以免名字重复)
############################
iph=mcont.find(imgh,iph+len(imgh))#开始下一个循环
ipt=mcont.find(imgt,iph)
############model个人URL内的【图片链接】提取完毕##########
pa=cont.find(ahref,pa+len(ahref))#将原来的头部位作为起始点,继续向后找下一个头部
pt=cont.find(target,pa)#继续找下一个尾部
i+=1
是不是很简单呢,小伙伴们稍微修改下就可以抓取其他内容了的。。。
0
投稿
猜你喜欢
- 先写一个批处理文件,给个例子。 代码如下:set rq=%date:~0,10% exp system/system的
- 本文实例讲述了Python基于ThreadingTCPServer创建多线程代理的方法。分享给大家供大家参考,具体如下:#coding=ut
- 大家是否还记得1983年任天堂的著名游戏《超级玛丽》里那个留着胡子的意大利水管工人,还有日本konami公司1987年发行的射击游戏《魂斗罗
- 在工作中,有时会遇见需要将数字转换为条码的问题,每次都需要打开条码转换的网站,一次次的转换后截图,一两个还行,但是当需要转换的数量较多时,就
- 网上看到一些例子,对于一个简单的3 级联动,都加上什么Struts, Hibernate诸如此类的框架。这个Ajax联动殊不知和这些框架有什
- 背景:有一个爬虫服务,需要定时从公开网站上拉取一些数据,为了避免被识别为爬虫(防爬虫的识别需要根据很多特征,时间仅仅是其中一个维度),需要在
- 简单来说,三种方法是为了删除字符串中不同位置的指定字符。其中,strip()用于去除字符串的首尾字符,同理,lstrip()用于去除左边的字
- 一、了解字符编码的知识储备1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了
- 把这两个很普遍性的网友比较关心的问题总结回答一下。in和exist的区别从sql编程角度来说,in直观,exists不直观多一个select
- 在国外一博客看到的技巧,终于解决IE的这个老大难问题。我在IE的setAttribute bug也提到其解决方法,一是innerHTML,一
- <html><head><title>过滤空格</title><SCRIPT LANG
- 在CSS中,实现分栏布局有两种方法。第一种方法是使用四种CSS定位选项(absolute 、static、relative和fixed)中的
- 1.sp_helpsort SELECT SERVERPROPERTY ('Collation') 查看你的排序规则. 不过
- RegExp对象的语义和使用:检查字符串匹配获取字符串中的部分内容在原字符串的基础上构建一个新的字符串(包括添加、删除和修改)构建一个Reg
- (1)Flush的内容至少要有256字节经过反复的测试,我得出一个结论。就是flush的内容至少要有256字节。也就是只有编译产生了至少25
- 请教:如何在现存的文档中动态嵌入一段JS?如果是一段CSS呢?创建一个<script></script>并在scri
- (需要安装psutil 用来获取服务器资源,以及pymongo驱动)#pip install psutil#pip install pymo
- 本文实例为大家分享了Django下完成文件上传和下载功能的具体代码,供大家参考,具体内容如下一、文件上传Views.pydef upload
- 前言:看本教程,必须先仔细看前言的内容,否则会进入误区!最近在做个性休闲服装内网站的设计课程,过程中发现,个性元素的应用成为最难的问题,第一
- Django实现内容缓存:1、内存缓存settings.py文件配置CACHES = { 'default':