位置：首页>> 网络编程>> Python编程>> python3爬虫获取html内容及各属性值的方法

python3爬虫获取html内容及各属性值的方法

作者：android-李志强　　发布时间：2021-08-23 02:37:33　

标签：python3,爬虫,html,属性值

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen，读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘)
response=f.read()

这里我们就不请求数据了，直接用本地的html代码，如下

注意：”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
<title class='ceshi'>super 哈哈 star</title>
</head>
<body>
天下第一帅
<p class='sister'>

是不是
</p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象，接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值通过href获取
html['href']

来源：https://blog.csdn.net/lzq520210/article/details/76855606

0

投稿

猜你喜欢

也谈 CSS Sprites
CSS Sprites 简介：通常被意译为“CSS图像拼合”或“CSS贴图定位”。CSS Sprites并不是一门新技术，目前它已经在网页开
使用python实现excel的Vlookup功能
python 如何实现Excel 的Vlookup功能1、Excel 中VLOOKUP具体步骤Excel 中的VLOOKUP使用说明采用下面
总结python中pass的作用
python中pass的作用？pass代表一个空的语句块Python中pass的作用：示例1，定义一个类，类中没有任何内容保存，运行之后，该
PHP基于phpqrcode类生成二维码的方法详解
本文实例讲述了PHP基于phpqrcode类生成二维码的方法。分享给大家供大家参考，具体如下：使用PHP语言生成二维码，还是挺有难度的，当然
ASP 千万级数据分页的存储过程
测试语法如下：powered by jb51.netexec GetRecordFromPage news,newsid,10,100000
关于JS中二维数组的声明方法
如下所示：var myarr=new Array(); //先声明一维 for(var i=0;i<2;i++){ //一
有时用户并不需要引导
很多时候，我们都在说设计需要引导用户，尤其是在对初级用户的引导上，很大程度决定着产品能否快速聚拢用户的可能；但同样很多时候，用户并不需要引导
Python3 使用pillow库生成随机验证码
Python3 使用pillow库生成随机验证码的代码如下所示：import random# pillow 包的使用from PIL imp
Python中pycharm编辑器界面风格修改方法
教你配置属于自己的PYcharm界面色彩风格，PYthon学习必备 GO第一步，换成深色背景，保护视力PyCharm默认的背景是白色的，比较
MySQL高级特性之集合函数
到现在为止，你只学习了如何根据特定的条件从表中取出一条或多条记录。但是，假如你想对一个表中的记录进行数据统计。例如，如果你想统计存储在表中的
innerHTML 引发“未知的运行时错误”
今天碰到这个极度郁闷的报错，搞了大半下午，才发现是ie的问题，忍不住大骂。例子是这样的：页面中有多处能出发菜单，并且菜单出现在触发点的旁边，
Python 中的lambda匿名函数和三元运算符
匿名函数什么是匿名函数用一句话表达只有返回值的函数就是匿名函数。匿名函数只用来实现一些简单的函数功能，所以追求代码的简洁和高效。使用关键字
asp如何做一个树状展开视图来显示自己的记录结构？
如何做一个树状展开视图来显示自己的记录结构？在SQL中，如何做一个可收起和展开树状结构图？就是资源管理器左栏的那种效果。这要用到Data s
javascript 函数调用的对象和方法
如果你真正理解Javascript函数是如何调用工作的，那么就可以避免一些bug的发生；首先让我们创建一个简单的函数,这个函数将在下文中使
php实现的验证码文件类实例
本文实例讲述了php实现的验证码文件类。分享给大家供大家参考。具体如下：<?php/*** @file* @version 1.0*
给SQL Server传送数组参数的变通办法
最近一直在做Dnn模块的开发,过程中碰到这么一个问题,需要同时插入N条数据,不想在程序里控制,但是SQL Sever又不支持数组参数.所以只
基于Python实现自制拼图小游戏
咱们Python 集中营有一个专题就是分享一些有意思的东西，今天大概看了一下pygame的这个非标准库就想着使用它来做个小游戏-拼图。通过加
Python使用Socket(Https)Post登录百度的实现代码
登录百度，首先当然是先抓百度的登录包，由于是网页登录，最方便的自然是httpwatch了，我使用的测试账号是itiandatest1，密码
用面包屑来简化多层的tabs
一个网站信息结构需要表现给用户看，这样用户才能知道当前是在哪儿，才有可能去猜测某个内容可能会在哪儿。如何表现网站的信息结构给用户呢？用导航。
如何更快更好地调试ASP程序代码？
asp自定义错误显示方法：<html><head><meta http-equiv="Co

opencv resize图片为正方形尺寸的实现方法

通过python爬虫赚钱的方法

python Matplotlib基础--如何添加文本和标注

Python实现批量绘制遥感影像数据的直方图

Tensorflow中使用cpu和gpu有什么区别

Windows下安装python MySQLdb遇到的问题及解决方法

Python处理yaml和嵌套数据结构技巧示例

Python实现解析命令行参数的常见方法总结

python实现图像边缘检测

Python3使用requests发闪存的方法

爱剪辑如何制作暴闪效果

Win10 1013手机版Edge浏览器新增图片保存为功能

word2013中如何调整页边距

iOS12一键锁屏捷径制作教程

linux下快速列出局域网中所有主机名（计算机名）的脚本

关于Flyweight模式应用实践的相关介绍

wps表格如何设置合并单元格

dll没有被指定在windows运行怎么办_dll没有被指定在windows运行解决办法

win11电脑不显示库怎么办? win11显示此电脑的库技巧

mac隔空投递怎么添加到菜单栏?

手机版 网络编程 asp之家 www.aspxhome.com