Python RawString与open文件的newline换行符遇坑解决
作者:HullQin 发布时间:2021-08-28 20:37:41
背景
一次工作中,我需要完成某个文件的字符串替换。
需求是这样的:文件A有个占位符,需要利用Python3,把占位符替换成文件B的内容。文件都不大,可以一次性读到内存处理。
我想,这不是简单的open
read
replace
write
就搞定了嘛?
结果,还真有点麻烦!
思路
全量读取文件A,保存到变量templace
全量读取文件B,保存到变量text
利用python的
re.sub
实现正则替换,保存到新变量result把变量result内容写入文件A
with open('A', encoding='utf8') as f:
template = f.read()
with open('B', encoding='utf8') as f:
text = f.read()
result = re.sub(r'占位标识符', text, template, 1)
with open('A', 'w', encoding='utf8') as f:
f.write(result)
遇到的问题
文件B内有换行符,也有字符串\n
,按上文的方式处理后,所有的字符串\n
都变成了换行符!
举个例子,template是我是:{}
(其中{}
就是占位符),text是下面的文本:
哈哈
哈哈\n哈哈
替换后,如下图所示:
可以看到,当我打印re.sub
结果时,所有的\n
都变成了换行符,字符串\n
消失了!
这的确令人烦躁,本来五分钟可以搞定,结果要花多余的时间处理这个问题。如果你学会了本文,以后都不用再去费脑筋了~
思考过程
一开始遇到这个问题,是在写入文件后发现的,所以并没定位的这么准确,当时跟换行符相关的,我怀疑了以下方面:
字符串定义没有使用 Raw String(例如
r'xxx'
这种方式)。正则替换出了问题。
写入文件时,
newline
参数导致。
如果我们能把这3个问题全都弄清楚,以后定位就非常快了!
Raw String
Python中,如果字符串常量的定义前加了个r
,就表示 Raw String 原始字符串。
Raw String 特点在于,字符串常量里的\
将不具有转义作用,它仅仅代表它自己。
例如,你定义个普通字符串"\n"
,这个字符串长度其实是1,它只包含了1个换行符,对应的 ASCII 是10。
如果你定义了原始字符串"\n"
,这个字符串长度就是2,它包含了字符\
和字符n
。
如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致
转义字符有这些:
也就是说r'\haha'
跟'\haha'
是完全一致的,因为\h
不是转义字符,所以这种情况下,没必要加r
。
误区:注意单个字符的引号问题
有一个令人疑惑的点:理论上讲,r'\'
应该就是'\\'
,但是当你使用r'\'
时,Python会报错。
这是因为Python在编译时,读取字符串时,如果字符串以单引号开头,遇到\'
后,不论你是不是Raw String,都会继续认为是字符串,不会把'
当作结束符。估计是一个历史遗留问题。我们只能接受现实。
如何证明呢?你给字符后面加个空格,发现它们是相等的:r'\ '
和'\\ '
。但是单独的字符r'\'
就报错了。
但是这种情况只有r'\'
或r"\"
才会发生,如果字符串长度为2,是没问题的,例如r"\\"
可以被合法定义。
启发
定义字符串时,如果你是这么定义:"哈哈\n哈哈"
,那么这个字符串长度是5,包含了1个换行符。
如果你是这么定义:r"哈哈\n哈哈"
,那么这个字符串长度是6,不包含换行符,包含字符\
和n
。
同样,当你写入文件时,如果是f.write('\n')
,就表明写入了换行符,但如果是f.write(r'\n')
,就表明写入了字符串"\n"
。
正则替换的问题
这是导致本文问题的根本原因。使用re.sub
时,所有的字符串r"\n"
都被当作了换行符。
怎么办呢?
只要我们替换前,把原始文件对应的字符串的r"\n"
都改为r"\\n"
,手动多加了一次转义符,那么re.sub
时,就不会把r"\n"
当作一个整体改成换行符了,反而会把r"\\"
当作一个整体,替换为字符\
。这样r"\n"
字符串就保留下来了!当然,其它转义字符,也统统保留下来了。这就是正确的解法了。
open 文件的 newline 参数
with open(filename, 'r', newline=None) as f:
f.read()
这个主要是因为不同操作系统的换行符不同,所以有了这个参数。Windows 是 CRLF 即 \r\n
,Unix 是 LF 即\n
,旧版 Macintosh 是 CR 即\r
。
通常情况下,我们不需要加这个参数,Python 会自动为我们做这些事情:
读取文件时,自动把文本中的各种换行符统一转换为
"\n"
。写入文件时,根据当前的操作系统,自动把
"\n"
转换为对应的换行符,通过os.linesep
可以查看当前操作系统换行符。
当然,你也可以主动设置 newline 参数:
读取文件时,如果 newline 是空字符串
''
,则Python不会做任何自动转换,读到什么就是什么。读取文件时,如果 newline 是非空字符串,则Python会把换行符转化为这个非空字符串,例如你可以指定为
'\r'
或'\r\n'
或其它。写入文件时,如果 newline 是空字符串
''
,则Python不会做任何自动转换,现在换行符是什么,就写入什么。写入文件时,如果 newline 是非空字符串,则Python会把
\n
转化为这个非空字符串,例如你可以指定为'\r'
或'\r\n'
或其它。
注意,newline
参数只对文本文件有效,如果是二进制读写,newline
是无用的。
其实,大部分时候我们无需关注这个 newline
参数。
来源:https://juejin.cn/post/7154026867333267492
猜你喜欢
- sql server的备份与恢复(查询分析器) 查询分析器: 命令: 1:备份数据库命令: backup database whdb1(要备
- 首先比较下return 与 yield的区别:return:在程序函数中返回某个值,返回之后函数不在继续执行,彻底结束。yield: 带有y
- 用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新;可以节省服务器资源,一般采集程序就几个文件,
- 前言接口在面向对象编程中是经常使用的招式,也是体现多态很重要的手段。是的。Golang中也有接口这玩意儿。1.为什么需要接口?多数情况下,数
- 目录前言cv2.drawMarker()函数说明参数说明利用鼠标回调函数交互式画点例1,简单的例子例2,删除功能总结前言这里所谓画点的意思是
- 钟馗之眼是一个强大的搜索引擎,不同于百度谷歌,它主要收集网络中的主机,服务等信息,国内互联网安全厂商知道创宇开放了他们的海量数据库,对之前沉
- 模块导入1.1 import导入模块所谓的模块其实就是一个外部的工具包,其中存在的其实就是Python文件,这些文件都实现了某种特定的功能,
- 于是写测试程序。。。不行 下载最新的ODBC。。。还是不行 通过sql plus查询。。。咦?竟然也查不到。。。 于是,折腾。。。折腾。。。
- 在昨天的文章,《 block 和 inline 的区别是?》里,我给大家留了个问题——LI 元素到底是block level 的,还是 in
- 一、个人安装环境1.Windows10x64_pro2.anaconda4.6.9 +python3.7.1(anaconda集成,不需单独
- 最近工作需要把单片机读取的传感器电压数据实时在PC上通过曲线显示出来,刚好在看python, 就试着用了python 与uart端口通讯,并
- 废话不多说,直接上代码!@if ($user->id !== Auth::user()->id)<div id="
- meta是html语言head区的一个辅助性标签。几乎所有的网页里,我们可以看到类似下面这段的html代码:<head> <meta&nbs
- 变量覆盖漏洞<?php$flag='xxx'; extract($_GET); if(isset($shiyan))
- 1.首先分析要做的项目的结构,整理出关系图2.运行 python manage.py startapp XXX 创建一个app3.根据关系图
- 2009年 6月6日,空间4岁啦!与此同时Qzone月登录用户2亿,同时在线用户也突破了1000万。这是让人欢欣雀跃的数字,在空间同事眼里,
- 01、文件操作文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟的概念/接口用户/应用程序可以通过文件将数据永久保存在硬盘中用户/应用程序
- 确实,如果在原网站如果存在表单提交或cookies的验证,对于ASP来说,不使用基于SOCKET的组件就难以完成,其实,XMLHTTP的另外
- 如何做一个全面的探测器? 我们也可以做一个功能类似的探测器,见下:<Script lan
- 用户界面和用户体验(UI/UX)是任何产品成败的关键,尤其 Web,Web 是一种公开的,可以被任何人随时随地访问的特殊产品,用户的体验几乎