Python爬虫学习之获取指定网页源码
作者:罗思洋 发布时间:2023-11-06 02:29:15
标签:python,爬虫,网页源码
本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下
1、任务简介
前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。
2、任务代码
Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。
Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:
import urllib.request #导入urllib.request库
b = str(input("请输入:")) #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read() #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html) #打印网页源码
我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726
运行结果如下:
3、总结
这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。
来源:https://blog.csdn.net/lsylsy726/article/details/83279217
0
投稿
猜你喜欢
- SQL Server服务器的配置选项属于那种人们了解较少且经常误用的选项。当一个技术支持人员要求你按照某种方式调整一个选项、而另一个技术支持
- 前言图片的本质就是大量像素在二维平面上的组合,每个像素点用数字化方式记录颜色。可以直观的想象,一张图片就是一个巨大的电子栅格,每个格子内有一
- 这篇文章主要介绍了如何使用python实现模拟鼠标点击,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- 什么是类,对象,实例,类## 标题变量(类属性),实例变量(实例属性)面向对象编程(Object-oriented Programming,
- python中类的继承:子类继承父类,及子类拥有了父类的 属性 和 方法。python中类的初始化都是__init__()。所以父类和子类的
- 1.lower()将字符串中的大写字母转换成小写字母语法:str.lower()#举例:str1 = "LiBai is a bo
- 由于在模型训练的过程中存在大量的随机操作,使得对于同一份代码,重复运行后得到的结果不一致。因此,为了得到可重复的实验结果,我们需要对随机数生
- Stickyworld 的网页应用已经支持视频拨放一段时间,但都是通过YouTube的嵌入模式实现。我们开始提供新的版本支持视频操作,可以让
- 初识defaultdict之前在使用字典的时候, 用的比较随意, 只是简单的使用dict.然而这样在使用不存在的key的时候发生KeyErr
- 几乎所有的微薄都提供了缩短网址的服务,其原理就是将一个url地址按照一定的算法生成一段字符串,然后加在一个短域名后面边成了一个新的url地址
- 好几年前我在做一些自动化的脚本时,脑子里也闪过这样的想法:能不能直接把浏览器的cookies取出来用呢?直到昨天看到代码《python模拟发
- 如果视图定义包括条件(譬如 WHERE 子句)并且其意图是确保任何引用该视图的 INSERT 或 UPDATE 语句都应用 WHERE 子句
- 一、matplotlib 库一个用来绘图的库import matplotlib.pyplot as plt1)plt.imread(&
- 1.新建四个层,放入相应图片,模特层的z-index值设为0。2.把第一个层移到模特身上,找出衣服刚好穿上时层的top和left值,记下来,
- 本文介绍了python OpenCV学习笔记实现二维直方图,分享给大家,具体如下:官方文档 – https://docs.opencv.or
- 重读LukeW的《Web Form Design:Filling in the Blanks》感触很深,除佩服LukeW的钻研精神外,更多的
- 将视图与缓存系统进行了耦合,从几个方面来说并不理想。 例如,你可能想在某个无缓存的站点中重用该视图函数,或者你可能想将该视图发布给那些不想通
- 首先上结构mynode -> app5 -> urls.py & views.py| -> templates -
- 一、需求说明需要使用Python实现将内容转为base64编码,解码,方便后续的数据操作。二、base64简介Base64是一种二进制到文本
- 在Python语言中,json数据与dict字典以及对象之间的转化,是必不可少的操作。在Python中自带json库。通过import js