Go中string与[]byte高效互转的方法实例
作者:亚洲第一中锋_哈达迪 发布时间:2024-02-01 11:11:35
目录
前言
数据结构
常规实现
string转[]byte
[]byte转string
高效实现
性能测试
总结
前言
当我们使用go进行数据序列化或反序列化操作时,可能经常涉及到字符串和字节数组的转换。例如:
if str, err := json.Marshal(from); err != nil {
panic(err)
} else {
return string(str)
}
json序列化后为[]byte类型,需要将其转换为字符串类型。当数据量小时,类型间转换的开销可以忽略不计,但当数据量增大后,可能成为性能瓶颈,使用高效的转换方法能减少这方面的开销
数据结构
在了解其如何转换前,需要了解其底层数据结构
本文基于go 1.13.12
string:
type stringStruct struct {
str unsafe.Pointer
len int
}
slice:
type slice struct {
array unsafe.Pointer
len int
cap int
}
与slice的结构相比,string缺少一个表示容量的cap字段,因此不能对string遍历使用内置的cap()函数那为什么string不需要cap字段呢?因为go中string被设计为不可变类型(当然在很多其他语言中也是),由于其不可像slice一样追加元素,也就不需要cap字段判断是否超出底层数组的容量,来决定是否扩容
只有len属性不影响for-range等读取操作,因为for-range操作只根据len决定是否跳出循环
那为什么字符串要设定为不可变呢?因为这样能保证字符串的底层数组不发生改变
举个例子,map中以string为键,如果底层字符数组改变,则计算出的哈希值也会发生变化,这样再从map中定位时就找不到之前的value,因此其不可变特性能避免这种情况发生,string也适合作为map的键。除此之外,不可变特性也能保障数据的线程安全
常规实现
字符串不可变有很多好处,为了维持其不可变特性,字符串和字节数组互转一般是通过数据拷贝的方式实现:
var a string = "hello world"
var b []byte = []byte(a) // string转[]byte
a = string(b) // []byte转string
这种方式实现简单,但是通过底层数据复制实现的,在编译期间分别转换成对slicebytetostring和stringtoslicebyte的函数调用
string转[]byte
func stringtoslicebyte(buf *tmpBuf, s string) []byte {
var b []byte
if buf != nil && len(s) <= len(buf) {
*buf = tmpBuf{}
b = buf[:len(s)]
} else {
// 申请内存
b = rawbyteslice(len(s))
}
// 复制数据
copy(b, s)
return b
}
其根据返回值是否逃逸到堆上,以及buf的长度是否足够,判断选择使用buf还是调用rawbyteslice申请一个slice。但不管是哪种,都会执行一次copy拷贝底层数据
[]byte转string
func slicebytetostring(buf *tmpBuf, b []byte) (str string) {
l := len(b)
if l == 0 {
return ""
}
if l == 1 {
stringStructOf(&str).str = unsafe.Pointer(&staticbytes[b[0]])
stringStructOf(&str).len = 1
return
}
var p unsafe.Pointer
if buf != nil && len(b) <= len(buf) {
p = unsafe.Pointer(buf)
} else {
p = mallocgc(uintptr(len(b)), nil, false)
}
// 赋值底层指针
stringStructOf(&str).str = p
// 赋值长度
stringStructOf(&str).len = len(b)
// 拷贝数据
memmove(p, (*(*slice)(unsafe.Pointer(&b))).array, uintptr(len(b)))
return
}
首先处理长度为0或1的情况,再判断使用buf还是通过mallocgc新申请一段内存,但无论哪种方式,最后都要拷贝数据
这里设置了转换后字符串的len属性
高效实现
如果程序保证不对底层数据进行修改,那么只转换类型,不拷贝数据,是否可以提高性能?
unsafe.Pointer,int,uintpt这三种类型占用的内存大小相同
var v1 unsafe.Pointer
var v2 int
var v3 uintptr
fmt.Println(unsafe.Sizeof(v1)) // 8
fmt.Println(unsafe.Sizeof(v2)) // 8
fmt.Println(unsafe.Sizeof(v3)) // 8
因此从底层结构上来看string可以看做[2]uintptr,[]byte切片类型可以看做 [3]uintptr
那么从string转[]byte只需构建出 [3]uintptr{ptr,len,len}
这里我们为slice结构生成了cap字段,其实这里不生成cap字段对读取操作没有影响,但如果要往转换后的slice append元素可能有问题,原因如下:
这样做slice的cap属性是随机的,可能是大于len的值,那么append时就不会新开辟一段内存存放元素,而是在原数组后面追加,如果后面的内存不可写就会panic
[]byte转string更简单,直接转换指针类型即可,忽略cap字段
实现如下:
func stringTobyteSlice(s string) []byte {
tmp1 := (*[2]uintptr)(unsafe.Pointer(&s))
tmp2 := [3]uintptr{tmp1[0], tmp1[1], tmp1[1]}
return *(*[]byte)(unsafe.Pointer(&tmp2))
}
func byteSliceToString(bytes []byte) string {
return *(*string)(unsafe.Pointer(&bytes))
}
这里使用unsafe.Pointer来转换不同类型的指针,没有底层数据的拷贝
性能测试
接下来对高效实现进行性能测试,这里选用长度为100的字符串或字节数组进行转换
分别测试以下4个方法:
func stringTobyteSlice(s string) []byte {
tmp1 := (*[2]uintptr)(unsafe.Pointer(&s))
tmp2 := [3]uintptr{tmp1[0], tmp1[1], tmp1[1]}
return *(*[]byte)(unsafe.Pointer(&tmp2))
}
func stringTobyteSliceOld(s string) []byte {
return []byte(s)
}
func byteSliceToString(bytes []byte) string {
return *(*string)(unsafe.Pointer(&bytes))
}
func byteSliceToStringOld(bytes []byte) string {
return string(bytes)
}
测试结果如下:
BenchmarkStringToByteSliceOld-12 28637332 42.0 ns/op
BenchmarkStringToByteSliceNew-12 1000000000 0.496 ns/op
BenchmarkByteSliceToStringOld-12 32595271 36.0 ns/op
BenchmarkByteSliceToStringNew-12 1000000000 0.256 ns/op
可以看出性能差距比较大,如果需要转换的字符串或字节数组长度更长,性能提升更加明显
总结
本文介绍了字符串和数组的底层数据结构,以及高效的互转方法,需要注意的是,其适用于程序能保证不对底层数据进行修改的场景。若不能保证,且底层数据被修改可能引发异常,则还是使用拷贝的方式
来源:https://juejin.cn/post/7009826389851373605
猜你喜欢
- 花瓣图片的加载使用了延迟加载的技术,源代码只能下载20多张图片,修改后基本能下载所有的了,只是速度有点慢,后面再优化下import urll
- 奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christo
- 如下所示:import numpy as npfrom torchvision.transforms import Compose, ToT
- MySQL是一个大数据库。有的数据库里面个有种各样的数据。如果不按照规定划分好会显得看起来很乱。凡是东西都要通过整理才能规矩,每一堆数据整理
- 用到了两个库,xlrd和xlwtxlrd是读excel,xlwt是写excel的库[/code]1)xlwd用到的方法:xlwt.Workb
- 一、前言阿姨花了30元给幼儿园的小弟弟买了一本习题,里面都是简单的二元加减法。我一听,惊道:“怎么还花钱买题?我动动手指能给你生成一千条。”
- 我要实现的就是下图的这种样式,可参考下面这两个网站的留言板,他们的实现原理都是一样的畅言留言板样式:网易跟帖样式:原理需要在评论表添加两个主
- 前言:在上一篇文章,已经实现了访问指定URL就返回了指定的数据,这也体现了RESTful API的一个理念,每一个URL代表着一个资源。当然
- py读写修改常用的三种方法xlwt:用于写入 Excel 文件xlrd:用于读取 Excel 文件xlutils:用于操作 Excel 文件
- 这样的问题是因为 数据库字符集,表字符集,字段字符集都设为:gbk_chinese_ci 注意数据库连接串里面的 Stmt=Set Name
- python去除列表中的空值元素实战技巧产生需求的原因:最近都在使用python做一些小demo,尤其是经常会用python做一些关于数据处
- 问题描述: 有2个数组如下a = [3,3,3,4,4,4,5,6,7]b = [3,3,4,4]第1题:从数组a中删除所有在数组b中出现过
- virtualenv 是一个创建隔绝的Python环境的工具。virtualenv创建一个包含所有必要的可执行文件的文件夹,用来使用Pyth
- pygame.mixer是一个用来处理声音的模块,其含义为“混音器”。游戏中对声音的处理一般包括制造声音和播放声音两部分,这里仅学习了播放声
- 在ASP.NET2.0通过SMTP的验证发送EMAIL ,代码如下:’Create a new MailMes
- 下载8000首儿歌的python的代码:#-*- coding: UTF-8 -*-from pyquery import PyQuery
- 在获取贝壳分的时候用到了时间处理函数,想要获取上个月时间包括年、月、日等# 方法一:today = datetime.date.today(
- 思考:测试用例执行后,如何生成一个直观漂亮的测试报告呢?分析:1.unittest单元测试框架本身带有一个textTestRunner类,可
- 目录批量修改文件名(保留后缀)批量修改文件名(全改)读取文件下的所有文件名总结批量修改文件名(保留后缀)这种方法,保留了文件原本的后缀。这里
- 我就废话不多说了,大家还是直接看代码吧~#文件复制import ossrc_path=r'E:\Pycharm\python100题