python用match()函数爬数据方法详解
作者:Ma_Qiao2020 发布时间:2023-07-27 12:52:48
match()函数的使用。以及从文本中提取数据的方法。在学习re模块的相关函数前应了解正则表达式的特殊字符
准备一个要爬取的文本文档:
直接从某个网页拷贝一份代码,粘贴在 一个txt文件里,以供学习。
方法很简单,比如打开百度视频的热门电影网页,右键点击查看源代码,然后复制,粘贴到一个txt文件里,保存到工作目录下。
有4000多行。
re.match(pattern, string, flags=0)
①pattern,是正则表达式。string,被检验的字符串。
②flags是可选参数,此标记是用来对patten的补充。例如:re.S,可以让正则表达式中的点匹配换行符\n。(如图片中,可以看帮助文档,查看有哪些标记)
③ match()函数由左向右检验string,若匹配到正则表达式,返回一个匹配对象,否则就返回None.
④re.match() 匹配字符串的开始位置,而不匹配每行开始。
----所以才将网页的每行放入列表,以供match函数对每行操作。
比如要在文档中,提取电影的网址,和电影名。
①复制那行文本作为表达式,
②将要提取的网址和和电影名替换为(.*),这只是暂时的,可以在接下来的代码中调整。
读取文本:
①用with open()语句读取;
②用readlines,一次性读完,返回一个列表,元素是文本的每一行。
with open('aa.txt','r',encoding='utf-8') as f:
lines=f.readlines()
①判断每行是否返回了匹配的对象,
②接收匹配对象,并用groups()提取表达式内括号的内容;
for line in lines:
if re.match(pat,line): #判断过滤掉返回None的行,
ret=re.match(pat,line) #接收匹配对象
print(ret.groups())
发现有不符合的行,稍加修改,过滤掉不符合的行:
因为,不合的行都有空格(或其他字符)。可以给第二子组的点 . 换成非[^ ];非空格的任意字符,意思就是不要有空格的。
用f-string格式化对输出的文本稍加修饰,使用group(1),group(2);
可以将这段代码封装为一个函数。爬取百度视频的其他栏目。
测试: 百度视频的电影,电视剧,和动漫等栏目,网页上的格式基本相同,所以用上面的函数直接套用。
打开百度视频的动漫,复制源代码,存为bb.txt。
同样可以爬取网址和视频名称。
以上仅是练习match()函数的例子。
来源:https://jingyan.baidu.com/article/0eb457e54f340c43f1a905b5.html


猜你喜欢
- 发现错误利用Python库xlrd中的xlrd.open_workbook()函数读取自定义xlsx表格文件时出错如下:Traceback
- 从有道词典网页获取某单词的中文解释。import reimport urllibword=raw_input('input a wo
- 为了UED前端团队更好的协作开发同时提高项目编码质量,我们需要将Web前端使用工程化方式构建;目前需要一些简单的功能:  
- 1. 数组数组是 Golang 中的一种基本数据类型,用于存储固定数量的同类型元素。在 Golang 中,数组的长度是固定的,并且必须在定义
- 如何把程序打包为whl首先需要一个库:setuptools如果是conda环境的话,这个包是自带的,不需要另外安装。首先把需要打包的py文件
- 继续练手,根据之前获取汽油价格的方式获取了金价,暂时没钱投资,看看而已#!/usr/bin/env python# -*- coding:
- 最近在学习Python网络相关编程,这个代码实现了Telnet自动连接检测root用户密码,密码取自密码本,一个一个检测密码是否匹配,直到匹
- 本文实例讲述了Python闭包和装饰器用法。分享给大家供大家参考,具体如下:Python的装饰器的英文名叫Decorator,作用是完成对一
- 本文实例讲述了django框架自定义用户表操作。分享给大家供大家参考,具体如下:django中已经给我生成默认的User表,其中的字段已经可
- 本文实例总结了MySQL数据库优化技术的索引用法。分享给大家供大家参考,具体如下:这里紧接上一篇《MySQL数据库优化技术之配置技巧总结》,
- 首先总结的意义就是让杂乱无章变得更加井然有序,这样在使用的过程思路会更加清晰。数组使用方法注意点:变异方法和非变异方法。即变异方法使用会改变
- 本文实例讲述了python实现从尾到头打印单链表操作。分享给大家供大家参考,具体如下:# coding=utf-8class SingleN
- Scrapy批量运行爬虫文件的两种方法:1、使用CrawProcess实现https://doc.scrapy.org/en/latest/
- Python离线安装包下载pip包pip download 你要下载的包名 -d 下载的路径# example 结果会下载很多whl包pip
- MySQL 读写分离在互联网项目中应该算是一个非常常见的需求了。受困于 Linux 和 MySQL 版本问题,很多人经常会搭建失败,今天松哥
- python格式化字符串有%和{}两种 字符串格式控制符.字符串输入数据格式类型(%格式操作符号)%%百分号标记#就是输出一个%%c字符及其
- 1 数据导出 python manage.py dumpdata不指定 appname 时默认为导出所有的apppython manage.
- 本文实例讲述了python单例模式。分享给大家供大家参考。具体分析如下:__new__()在__init__()之前被调用,用于生成实例对象
- 可视化大屏适配/自适应现状可视化大屏的适配是一个老生常谈的话题了,现在其实不乏一些大佬开源的自适应插件、工具但是我为什么还要重复造轮子呢?因
- 1 Python自动绘图在这里我主要运用了pyautocad库进行AutoCAD的自动化操作,pyautocad是一款功能非常强大的Auto