Golang 统计字符串中数字字母数量的实现方法
作者:恋喵大鲤鱼 发布时间:2024-04-23 09:43:04
1.需求说明
记录一下项目对用户 UGC 文本进行字数限制的具体实现。
不同的产品,出于种种原因,一般都会对用户输入的文本内容做字数限制。
出于产品定位,比如 140 字符限制的 Twitter,让内容保持简洁凝练,易于阅读;
出于用户的阅读体验,过多的文字会造成阅读疲劳,合适的字数能够提高阅读舒适度;
出于技术与成本的考虑,不设上限的 UGC 内容会引发一些潜在的问题,比如增加存储的成本,降低检索效率等。
回到自己的项目,是一个用户发帖的业务场景。产品同学给到的要求是:
帖子名称,限制在 25 个字;
帖子正文,限制在 1500 字;
关于字的说明:1 个汉字为一个字,一个 Emoji 表情相当于 1 个字,2 个数字/英文字母相当于 1 个字。
正常情况下,汉字,Emoji 字符,数字与英文字母都是单独的字符。这里 2 个数字/英文算作 1 个字,所以在计算字符串长度时,不能够使用 []rune 强转后来获取其长度,而是需要统计出数字与英文字母的数量,再加上其他字符数量,作为其长度。所以,要想实现产品同学的要求,关键是需要统计出用户输入文本中的数字与英文字母的数量。
2.实现
在 Golang,一般有两种方法。
2.1 ASCII 码值法
数字和英文字母的 ASCII 码值我们是知道的,通过对原字符串遍历,便可统计出数字/英文字母的数量。
// GetAlphanumericNumByASCII 根据 ASCII 码值获取字母数字数量。
func GetAlphanumericNumByASCII(s string) int {
num := int(0)
for i := 0; i < len(s); i++ {
switch {
case 48 <= s[i] && s[i] <= 57: // 数字
fallthrough
case 65 <= s[i] && s[i] <= 90: // 大写字母
fallthrough
case 97 <= s[i] && s[i] <= 122: // 小写字母
num++
default:
}
}
return num
}
// 或者
// GetAlphanumericNumByASCIIV2 根据 ASCII 码值获取字母数字数量。
func GetAlphanumericNumByASCIIV2(s string) int {
num := int(0)
for _, c := range s {
switch {
case '0' <= c && c <= '9':
fallthrough
case 'a' <= c && c <= 'z':
fallthrough
case 'A' <= c && c <= 'Z':
num++
default:
}
}
return num
}
2.2 正则表达式
我们可以利用 Golang 标准库包 regexp 获取指定表达式的字串数量。
// GetAlphanumericNumByRegExp 根据正则表达式获取字母数字数量。
func GetAlphanumericNumByRegExp(s string) int {
rNum := regexp.MustCompile(`\d`)
rLetter := regexp.MustCompile("[a-zA-Z]")
return len(rNum.FindAllString(s, -1)) + len(rLetter.FindAllString(s, -1))
}
我们可以写个单测来验证下上面三个函数的正确性。
package string
import "testing"
func TestGetAlphanumericNumByASCII(t *testing.T) {
type args struct {
s string
}
tests := []struct {
name string
args args
want int
}{
{
name: "包含数字",
args: args{"108条梁山好汉"},
want: 3,
},
{
name: "包含字母",
args: args{"一百条梁山man"},
want: 3,
},
{
name: "包含数字与字母",
args: args{"108条梁山man"},
want: 6,
},
}
for _, tt := range tests {
t.Run(tt.name, func(t *testing.T) {
if got := GetAlphanumericNumByASCII(tt.args.s); got != tt.want {
t.Errorf("GetAlphanumericNumByASCII() = %v, want %v", got, tt.want)
}
})
}
}
func TestGetAlphanumericNumByASCIIV2(t *testing.T) {
type args struct {
s string
}
tests := []struct {
name string
args args
want int
}{
{
name: "包含数字",
args: args{"108条梁山好汉"},
want: 3,
},
{
name: "包含字母",
args: args{"一百条梁山man"},
want: 3,
},
{
name: "包含数字与字母",
args: args{"108条梁山man"},
want: 6,
},
}
for _, tt := range tests {
t.Run(tt.name, func(t *testing.T) {
if got := GetAlphanumericNumByASCIIV2(tt.args.s); got != tt.want {
t.Errorf("GetAlphanumericNumByASCII() = %v, want %v", got, tt.want)
}
})
}
}
func TestGetAlphanumericNumByRegExp(t *testing.T) {
type args struct {
s string
}
tests := []struct {
name string
args args
want int
}{
{
name: "包含数字",
args: args{"108条梁山好汉"},
want: 3,
},
{
name: "包含字母",
args: args{"一百条梁山man"},
want: 3,
},
{
name: "包含数字与字母",
args: args{"108条梁山man"},
want: 6,
},
}
for _, tt := range tests {
t.Run(tt.name, func(t *testing.T) {
if got := GetAlphanumericNumByRegExp(tt.args.s); got != tt.want {
t.Errorf("GetAlphanumericNumByRegExp() = %v, want %v", got, tt.want)
}
})
}
}
运行go test main/string
命令,其中 main/string 为单元测试所在包的路径。输出如下:
ok main/string 0.355s
验证无误。
3.性能对比
上面提到的两种方法都可以用来获取字符串中数字与英文字母的数量,那么我们应该采用哪一种方法呢?
功能上没有差别,那么我们来看下性能对比吧。
func BenchmarkGetAlphanumericNumByASCII(b *testing.B) {
for n := 0; n < b.N; n++ {
GetAlphanumericNumByASCII("108条梁山man")
}
}
func BenchmarkGetAlphanumericNumByASCIIV2(b *testing.B) {
for n := 0; n < b.N; n++ {
GetAlphanumericNumByASCIIV2("108条梁山man")
}
}
func BenchmarkGetAlphanumericNumByRegExp(b *testing.B) {
for n := 0; n < b.N; n++ {
GetAlphanumericNumByRegExp("108条梁山man")
}
}
运行上面的基准测试,输出如下:
go test -bench=. -benchmem main/string
goos: windows
goarch: amd64
pkg: main/string
cpu: Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz
BenchmarkGetAlphanumericNumByASCII-8 89540210 12.67 ns/op 0 B/op 0 allocs/op
BenchmarkGetAlphanumericNumByASCIIV2-8 63227778 19.11 ns/op 0 B/op 0 allocs/op
BenchmarkGetAlphanumericNumByRegExp-8 465954 2430 ns/op 1907 B/op 27 allocs/op
PASS
ok main/string 3.965s
不测不知道,一测吓一跳。通过正则表达式的实现方式,代码虽然简洁,但是涉及多次内存配分,性能与 ASCII 码值法相比,差距非常之大,是 ASCII 码值法的 200 倍左右。所以从性能的考虑,推荐使用 ASCII 码值的方式获取数字字母数量。
ASCII 码值法有两种遍历方式,一种是按照字节遍历,一种是按照 rune 字符遍历。因为后者涉及 rune 字符的判断,所以性能会差一些。推荐使用按照字节遍历。
4.小结
本文给出了两种从字符串获取数字与字母数量的方法:
ASCII 码值。
正则表达式。
出于性能的考虑,推荐使用 ASCII 码值法,并使用字节遍历的方式。
此外,本文给出的两种方法,三种实现方式,相关源码已放置开源库 go-huge-util,可 import 直接使用。
package main
import (
"fmt"
huge "github.com/dablelv/go-huge-util"
)
func main() {
fmt.Println(huge.GetAlphanumericNumByASCII("108条梁山man")) // 6
fmt.Println(huge.GetAlphanumericNumByASCIIV2("108条梁山man")) // 6
fmt.Println(huge.GetAlphanumericNumByRegExp("108条梁山man")) // 6
}
参考文献
golang统计出其中英文字母、空格、数字和其它字符的个数
来源:https://blog.csdn.net/K346K346/article/details/124936878
猜你喜欢
- 本文实例讲述了python通过定义一个类实例作为ftp回调方法。分享给大家供大家参考。具体实现方法如下:class Writer: &nbs
- 本文实例为大家分享了python实现名片管理系统的具体代码,供大家参考,具体内容如下主程序:import cards_tools# 无限循环
- 一、安装1、安装easy_install工具wget http://peak.telecommunity.com/dist/ez_setup
- 环境: Python3 + windows。开发工具:Anaconda + Jupyter / VS Code。学习效果:1.认识爬虫 /
- 1、吃金币源码分享:import osimport cfgimport sysimport pygameimport randomfrom
- 1. 关于箱线图 及 plt.boxplot()方法箱线图又称箱形图,有的地方也可以叫盒须图。使用箱线图的好处是可以以一种相对稳定的方式描述
- 一、爬取数据话不多说了,直接上代码( copy即可用 )import requestsimport pandas as pdclass Sp
- label与one-hot之间的互相转换有时候需要label,比如强化学习的离散动作空间,输出动作索引;有时候需要one-hot,比如训练数
- 作为一个合格的开发者,在本地环境下完成开发还远远不够,我们需要把Web App部署到远程服务器上,这样,广大用户才能访问到网站。很多做开发的
- 有时候会需要通过从保存下来的ckpt文件来观察其保存下来的训练完成的变量值。ckpt文件名列表:(一般是三个文件)xxxxx.ckpt.da
- 背景有时候爬虫爬过的url需要进行指纹核对,比如Scrapy就是进行指纹核对,如果是指纹重复则不再爬取。当然在入库的时候我还是需要做一次核对
- 上一篇文章中我们了解到oracle常见故障类别及规划解析,接下来,我们看看oracle数据库ORA-01196错误解决的相关内容,具体如下:
- MySQL 与 Elasticsearch 数据不对称问题解决办法jdbc-input-plugin 只能实现数据库的追加,对于 elast
- 前一阵子经理问我能不能把用户最后一次登录我们的业务数据库的时间记录下来,因为之前有人修改过数据库sa用户的登录密码,所以我们要记录一下。 我
- 前言Mysql插入不重复的数据,当大数据量的数据需要插入值时,要判断插入是否重复,然后再插入,那么如何提高效率?解决的办法有很多种,不同的场
- 一、安装Bautiful Soup 是第三方库,因此需要单独下载,下载方式非常简单由于 BS4 解析页面时需要依赖文档解析器,所以还需要安装
- 最近心血来潮加上有点闲情,动手写了第一个JavaScript版的俄罗斯方块Easy Tetris.先上Easy Tetris俄罗斯方块游戏截
- 安装TensorFlow在Windows上,真是让我心力交瘁,想死的心都有了,在Windows上做开发真的让人发狂。首先说一下我的经历,本来
- javascript sort()排序用法sort() 方法用于对数组的元素进行排序,并返回数组。默认排序顺序是根据字符串UniCode码。
- 本文实例讲述了Python基于有道实现英汉字典功能的方法。分享给大家供大家参考。具体如下:import re,urllibaa="