位置：首页>> 网络编程>> Python编程>> Python3.4编程实现简单抓取爬虫功能示例

Python3.4编程实现简单抓取爬虫功能示例

作者：macwhirr123　　发布时间：2022-04-23 17:48:15　

标签：Python,爬虫

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考，具体如下：

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
cj=http.cookiejar.CookieJar()
opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
urllib.request.install_opener(opener)
page = urllib.request.urlopen(url)
html = page.read()
return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
html = html.decode('utf-8')
reg='"screen_name":"(.*?)"'
imgre = re.compile(reg)
src=re.findall(imgre,html)
return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
print (getimg(getHtml("http://weibo.com/"+a)))
time.sleep(1)

希望本文所述对大家Python程序设计有所帮助。

来源：http://blog.csdn.net/macwhirr123/article/details/44623341

0

投稿

猜你喜欢

Python批量对word文档进行操作步骤
导读前面几章我们以经介绍了怎么批量对excel和ppt操作今天我们说说对word文档的批量操作应用python-docx允许您创建新文档以及
Python+LyScript实现自定义反汇编
LyScript 插件默认提供了一个get_disasm_code()方法可以直接获取到指定行数的反汇编代码，但如果需要自定义获取或者是需要
关于numpy中np.nonzero()函数用法的详解
np.nonzero函数是numpy中用于得到数组array中非零元素的位置（数组索引）的函数。一般来说，通过help（np.nonzero
Python如何获取pid和进程名字
Python获取pid和进程名字1、安装psutilpip install psutil如果pip不识别，就进入下载的python目录下面执
彻底弄清楚haslayout概念
要想更好的理解 css，尤其是 IE 下对 css 的渲染，haslayout 是一个非常有必要彻底弄清除的概念。大多IE下的显示错误，就
一个20行左右的强$代码
大致功能：$() 取得所有元素$("div") 取得所有DIV$("#a1") 取得ID为a1的元素
状态机的概念和在Python下使用状态机的教程
什么是状态机？关于状态机的一个极度确切的描述是它是一个有向图形，由一组节点和一组相应的转移函数组成。状态机通过响应一系列事件而“运行”。每个
asp如何准确获知对方来访问的时间和URL？
如何准确获知对方来访问的时间和URL？代码如下：logfile.asp<％Dim ValidLog '&n
python将人民币转换大写的脚本代码
def Num2MoneyFormat( change_number ): ""&q
PHP的mysqli_select_db()函数讲解
PHP mysqli_select_db() 函数更改连接的默认数据库：删除数据库<?php // 假定数据库用户名：root，密码：
使用游标进行PHP SQLSRV查询的方法与注意事项
SQLSRV驱动程序允许您创建一个结果集，其中包含可以根据游标类型以任何顺序访问的行。本主题将讨论客户端（缓冲）和服务器端（非缓冲）游标及其
您需要了解的DIV+CSS网页布局的8条面试题目
CSSer与其他IT职位一样，在找工作的时候，都会面临着面试官提出的问题，或者给出的试卷。一、超链接点击过后hover样式就不出现的问题？被
python 寻找离散序列极值点的方法
使用 scipy.signal 的 argrelextrema 函数(API)，简单方便import numpy as np import
这样写python注释让代码更加的优雅
python这样注释，让你的代码看起来更加的优雅，是不是常常感觉自己的python代码写出来，看起来特别的乱，虽然可以正常运行，但是在优雅性
如何用MySQL-Front远程连接MySql?
大多的MySQL都是装在Linux上的，而我们的本机上一般都会装MySQL-Front.那如何用MySQL-Front连接远端Linux系统
python连接sql server乱码的解决方法
vi /etc/freetds/freetds.conf [global]# TDS protocol versiontds version
python字符串连接的N种方式总结
python中有很多字符串连接方式，今天在写代码，顺便总结一下：最原始的字符串连接方式：str1 + str2python 新字符串连接语法
间歇向上无缝翻滚代码
这个间歇性向上滚动js代码很适合做广告展示，友情链接等等。与平常的无缝向上连续滚动不同的是它每滚动一个就会停顿一会儿。<!DOCTYP
Django自定义分页与bootstrap分页结合
django中有自带的分页模块Paginator,想Paginator提供对象的列表，就可以提供每一页上对象的方法。这里的话不讲解Pagin
Python实现乱序文件重新命名编号
人生苦短，快学Python！最近有位读者朋友遇到了一个小问题，私聊找小五答疑。感觉也会有其他同学会遇到，所以干脆分享出来。如下图所示，在本地

Python移动测试开发subprocess模块项目实战

对于Python装饰器使用的一些建议

Python正则表达式教程之二：捕获篇

Django restful framework生成API文档过程详解

python实现维吉尼亚加密法

Python实现求数列和的方法示例

Python cookbook(数据结构与算法)找出序列中出现次数最多的元素算法示例

python实现记事本功能

python django model联合主键的例子

Python中每次处理一个字符的5种方法

微信深度清理功能在哪里找

这些优秀的技能必须提到这可以让你少走很多弯路

iPhone 8电池鼓包不能忽视一旦发生如何应对？

Docker下redis的主从配置教程详解

小米手机屏幕录制在哪里打开

简述Win7系统的家庭版,旗舰版和专业版的区别

Win11如何取得文件夹的所有权？

Java异常--常见方法--自定义异常--增强try(try-with-resources)详解

Mac下安装、升级、管理Java JDK环境

电脑WPS文档如何批量删除空格

手机版 网络编程 asp之家 www.aspxhome.com