Python爬虫学习之获取指定网页源码
作者:罗思洋 发布时间:2023-11-06 02:29:15
标签:python,爬虫,网页源码
本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下
1、任务简介
前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。
2、任务代码
Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。
Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:
import urllib.request #导入urllib.request库
b = str(input("请输入:")) #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read() #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html) #打印网页源码
我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726
运行结果如下:
3、总结
这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。
来源:https://blog.csdn.net/lsylsy726/article/details/83279217


猜你喜欢
- 用过jQuery的朋友一定对jQuery中方法的链式调用印象深刻,最近发布的YUI3也支持了方法的链式调用。这是一个非常不错的语法特性,能让
- 本文我们来做一个简单的随机漫步数据图,进一步了解matplotlib的使用,使用Python生成随机漫步数据,再使用matplotlib绘制
- 前言现在正是卡塔尔世界杯激战正酣的时候,每天都有各种各样的新闻。而且,不同的球队,随着比赛的进程,关注的热度也会发生翻天覆地的变化。今天我们
- 本文主要介绍Python3.9的一些新特性,如:更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API,
- 执行效果如下:from tkinter import *import urllib.requestimport gzipimport jso
- Bootstrap简介Bootstrap,来自 Twitter,是目前最受欢迎的前端框架。Bootstrap 是基于 HTML、CSS、JA
- 春节来到,红包们大概率在微信各大群中肆虐,大家是否都一样不抢到红包们心里就感觉错过了一个亿,可总会被这事那事耽误而遗憾错过,下面用 Pyth
- 学习Python,基本语法不是特别难,有了C的基本知识,理解比较容易。本文的主要内容是Python基础语法,学完后,能熟练使用就好。(开发环
- python协程只能运行在事件循环中,但是一旦事件循环运行,又会阻塞当前任务。所以只能在当前进程中再开一个线程,这个线程的主要任务是运行事件
- Python基础语法-容器容器型数据类型是指可以包含多个多种数据类型数据的数据类型。1.列表(list)1.1 列表基本概念列表是Pytho
- 来炫耀一下,谁看得懂我写的加密算法写了一整天了,这个代码用于ajax提交,要求就是加密后内容不能变得过长,加密解密需要效率高,至于安全性,被
- Python3进制之间的转换在Python里面实现进制之间的转换是非常方便的,有专门的函数来进行这个操作:下面直接上代码:# 进制之间的转换
- 来源:http://stackoverflow.com/questions/3806562/ways-to-move-up-and-down
- 说明本文根据https://github.com/liuchengxu/blockchain-tutorial 的内容,用python实现的
- auto-vue-fileauto create .vue file by shell command通过终端自动创建vue文件前言:1:
- 目录精确调整工作表的行高和列宽批量更改多个工作簿的数据格式批量更改工作簿的外观格式设置字体格式修改字体为宋体修改字号字体加粗字体颜色单元格填
- 一、介绍说明mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形
- 两个JS之间的函数互相调用这个问题是我在工作中用到的一个方法 因为要做封装所以想到能不能在一个js中引用另一个js中的function这样的
- 原始两张图片:代码运行结果如下。5种算法值哈希算法、差值哈希算法和感知哈希算法都是值越小,相似度越高,取值为0-64,即汉明距离中,64位的
- JDBC连接mysql处理中文时乱码解决办法详解近日,整合的项目需要跟一个比较老版本的mysql服务器连接,使用navicat查看,发现此m