位置：首页>> 网络编程>> Python编程>> Python实现抓取网页并且解析的实例

Python实现抓取网页并且解析的实例

作者：shichen2014　　发布时间：2022-01-12 13:24:53　

标签：Python

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下：

#!/usr/bin/python
#coding=utf-8

import sys
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
if maxline == 0:
break
query = line.strip();
time.sleep(1);
recall_url = "http://www.so.com/s?&q=" + query;
response = urllib2.urlopen(recall_url);
html = response.read();
f1.write(html)
m = wenda.search(html);
if m:
if m.group(1) == "110":
print query + "\twenda\t0";
else:
print query + "\twenda\t1";
else:
print query + "\twenda\t0";
recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
response = urllib2.urlopen(recall_url);
html = response.read();
f2.write(html)
m = baidu.search(html);
if m:
print query + "\tbaidu\t1";
else:
print query + "\tbaidu\t0";
maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

0

投稿

猜你喜欢

深入探讨:PHP使用数据库永久连接方式操作MySQL的是与非
PHP程序员应该都知道连接MySQL数据库可以使用mysql_pconnect（永久连接）函数，使用数据库永久连接可以提高效率，但是实际应用
python中判断文件结束符的具体方法
python中判断文件结束符的方法：可以使用try except语句块来进行判断。具体使用方法：【try:while True:s = in
TensorFlow的权值更新方法
一. MovingAverage权值滑动平均更新1.1 示例代码：def create_target_q_network(self,stat
基于Python实现图片一键切割九宫格的工具
有时候发微博时候，需要裁切图片为九宫格，但是ps或者其他工具都太麻烦，这里写一个python一键切割九宫格的工具，以供大家学习和使用！实现代
在ASP.NET 2.0中操作数据之四十四：DataList和Repeater数据排序（三）
第七步: 在自定义分页的Repeater 里添加排序功能现在已经完成了自定义分页，我们再来添加排序功能。ProductsBLL类的GetPr
4款Python 类型检查工具,你选择哪个呢？
微软在 Github 上开源了一个 Python 静态类型检查工具：pyright ，引起了社区内的多方关注。微软在开源项目上的参与力度是越
几个优化WordPress中JavaScript加载体验的插件介绍
WordPress 本身以及主题和插件通常需要加载一些 JavaScript 来实现某些特殊功能。为了最大限度地保证兼容性，不至于出现 Ja
基于javascript如何传递特殊字符
在没步入正轨之前，先给大家介绍JavaScript 特殊字符你可以在 JavaScript 中使用反斜杠来向文本字符串添加特殊字符。插入特殊
网址导航的组织方法
做设计类网址导航的初衷是为了资源整合，也是在尝试解决问题。假定访问用户都是行业人士，或者目地性很强的有一定了解的用户，应该如何考虑这个组织系
python中的hashlib和base64加密模块使用实例
看到好几位博主通过对模块的各个击破学习python，我也效法一下，本篇说一下python中加密涉及到的模块。hashlibhashlib模块
pytest中文文档之编写断言
编写断言使用assert编写断言pytest允许你使用python标准的assert表达式写断言；例如，你可以这样做：# test_samp
记录一篇关于redux-saga的基本使用过程
安装npm install --save reduxnpm install --save redux-saga配置actionactionT
python用fsolve、leastsq对非线性方程组求解
背景：实现用python的optimize库的fsolve对非线性方程组进行求解。可以看到这一个问题实际上还是一个优化问题，也可以用之前拟合
Python中Jieba进行词频统计与关键词提取
1 词频统计1.1 简单词频统计1.导入jieba库并定义文本import jiebatext = "Python是一种高级编程语
vuejs实现下拉框菜单选择
本文实例为大家分享了vuejs实现下拉框菜单选择的具体代码，供大家参考，具体内容如下方法一：<script type="te
利用ThinkPHP内置的ThinkAjax实现异步传输技术的实现方法
准备工作： ① 首先要会使用ThinkPHP这个框架 ② 最好有些ajax的基础（可以去看下小飞的另外一篇博文：Ajax实时验证"
PyCharm2021最新激活码+激活码补丁(亲测最新版PyCharm2021.3激活成功)
最近开始学习Python开发，“工欲善其事必先利其器”，Python程序都是用什么工具开发出来的呢。
如何将Python脚本打包成exe应用程序介绍
前言我们有时候会编写Python脚本来辅助我们执行一些重复的操作。但是这些脚本在实际使用中会有一些不方便：我们通常需要进入终端或者IDE中来
八条常见的CSS错误及修复方法
很多人对于CSS都是边干边学习，因为它不像C#之类的语言那么复杂，看起来似乎挺简单，然而正是这种对CSS的不完整的理解，导致了许多的CSS代
first-letter的一个小妙用
OL定义有序列表的时候，除非指定list-style-position:inside;，否则文字和前导符是有缩进的。但有的时候，OL定义的列

Python爬虫使用bs4方法实现数据解析

python openCV自制绘画板

python pyecharts库的用法大全

Python深入学习之内存管理

OpenCV图像卷积之cv.filter2D()函数详解

Python寻找路径和查找文件路径的示例

Python获取协程返回值的四种方式详解

Python中你应该知道的一些内置函数

解决python多行注释引发缩进错误的问题

Sklearn调优之网格搜索与随机搜索原理详细分析

Word如何秒变计算器

如何利用 excel 公式条件格式快速找到excel每行记录的最小值

Win7如何禁用Guest账户？Win7禁用Guest账户的方法

安装Win11系统卡在准备就绪怎么处理？

django注册用邮箱发送验证码的实现

python跨文件使用全局变量的实现

Word如何设置自动保存

iPhone 14静音时如何设置LED闪烁提示？

win10帝国时代3联机_win10帝国时代3联机方法

word中既要脚注又要参考文献怎么插入

手机版 网络编程 asp之家 www.aspxhome.com