python 批量将中文名转换为拼音
作者:刘早起 发布时间:2023-06-14 21:16:22
标签:python,中文,拼音,转换
有时在处理文件时候,我们需要将中文姓名转换为拼音,或者是转换为拼音首字母,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例!
一、xpinyin
开门见山,Python中文字转拼音可以使用xpinyin,直接使用pip安装即可?
pip install xpinyin -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
接着导入xpinyin下的 Pinyin 方法如下
from xpinyin import Pinyin
首先试试中文名转拼音,
p = Pinyin()
result1 = p.get_pinyin('叶伏天')
result1
结果如下:
'ye-fu-tian'
tone_marks
可以显示声调
result2 = p.get_pinyin('叶伏天', tone_marks='marks')
结果如下:
'yè-fú-tiān'
去掉空格?
s = result1.split('-')
result3 = s[0].capitalize() + ' ' + ''.join(s[1:]).capitalize()
result3
结果如下:
'Ye Futian'
有时需要中文名转拼音首字母,也很简单?
二、pypinyin
另一种方法是使用pypinyin,安装同样可以使用pip
# 安装
pip install pypinyin -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
直接导入就行?
import pypinyin
再来看看中文名转拼音的实现办法
result1 = pypinyin.pinyin('叶庭云', style=pypinyin.NORMAL)
result1
结果如下:
[['ye'], ['ting'], ['yun']]
启用多音节来实现声调
result2 = pypinyin.pinyin('叶庭云', heteronym=True)
result2
结果如下:
[['yè', 'xié'], ['tíng'], ['yún']]
因为返回的是一个嵌套的list,所以需要简单调整一下
result_ = [i[0] for i in result1]
result3 = result_[0].capitalize() + ' ' + ''.join(result_[1:]).capitalize()
result3
结果如下:
'Ye Tingyun'
启用多音字模式时,竟然发现 ‘叶' 也是多音字,查询了资料发现确实是这样,涨知识啦!
下面是中文名转拼音首字母的方法
三、snownlp
最后一种办法是使用snownlp,同样的pip安装与导入如下:
# 安装
pip install snownlp -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
# 导入
from snownlp import SnowNLP
中文名转拼音?
s = SnowNLP('叶庭云')
s.pinyin
结果如下:
['ye', 'ting', 'yun']
将list转为字符串
result4 = s.pinyin[0].capitalize() + ' ' + ''.join(s.pinyin[1:]).capitalize()
result4
结果如下:
'Ye Tingyun'
最后是中文名转拼音首字母
四、批量将中文名转换成拼音
现在,掌握了基本使用后,我们就能利用批量操作来解放双手
import pypinyin
import pandas as pd
df = pd.read_excel('学生名单_test.xls')
df.head()
先导入一份学生名单如下
下面是使用pypinyin批量将全部学生的中文姓名转换为拼音
pinyin_name = []
first_pinyin = []
for i in df['姓名']:
result = pypinyin.pinyin(i, style=pypinyin.NORMAL)
result_ = [i[0] for i in result]
result2 = result_[0].capitalize() + ' ' + ''.join(result_[1:]).capitalize()
result3 = ''.join([i[0].upper() for i in result_])
print(result2, i, sep=' ')
pinyin_name.append(result2)
first_pinyin.append(result3)
df['英文名'] = pinyin_name
df['拼音首字母'] = first_pinyin
df.head()
或者是转换为拼音首字母,运行结果如下:
来源:https://cloud.tencent.com/developer/article/1756968


猜你喜欢
- 在使用SQL*LOADER装载数据时,由于平面文件的多样化和数据格式问题总会遇到形形色色的一些小问题,下面是工作中累积、整理记录的遇到的一些
- 自 PHP 5.4.0 起,PHP 实现了代码复用的一个方法,称为 traits。Traits 是一种为类似 PHP 的单继承语言而准备的代
- 可能不少学习javascript在使用call,apply,callee时会感到困惑,以下希望对于你有所帮助:1、它是函数的方法或属性;2、
- Request Payload 和 Form Data 请求头上的参数差别在于:Content-TypeForm DataPost表单请求代
- 一、现象凌晨对线上一张表添加索引,表数据量太大(1亿+数据,数据量50G以上),造成主从延迟几个小时,各个依赖从库的系统无法查询数据,最终影
- 相信大多数人都遇到过多实例安装mysql吧,相信大多数人只要找到一份多实例安装的教程就会很容易搞定了,但是越是顺利的安装过程越让我们不安,为
- 本文实例为大家分享了JS实现拖动模糊框特效的具体代码,供大家参考,具体内容如下需求:在图片上拖动按钮,图片蒙层慢慢覆盖,当蒙层边缘碰到左右下
- 1、连接数据库 driver={SQL Server};server=服务器IP;uid=用户名;pwd=密码;database=数据库名
- 一个对AJAX的封装//url就是请求的地址//successFunc就是一个请求返回成功之后的一个function,有一个参数,参数就是服
- 前言大家可以根据格式化打印字符去调一下最后的输出,不过有中文好像不好调整,可以换成星期的单词,这样应该会好一点,format()函数可以用来
- 数据库的启动过程(3个台阶)1.nomountshutdown --> nomountstartup nomountselect st
- alt的准确含义是,当照片不存在或者load错误时的提示。但同时img也同时支持alt和title,再有某些浏览器的错误解析,因此经常被误导
- 一、判断以下哪些不能作为标识符A、aB、¥aC、_12D、$a@12E、falseF、False答案为:(F、D、B、E)二、输入数,判断这
- 我们这里所说的head区域,是指页页html代码的<head>和</head>之间的内容。在以前的文章中,主要介绍了
- DataSource是作为DriverManager的替代品而推出的,DataSource 对象是获取连接的首选方法。起源为何放弃Drive
- 我们平时需要使用 Python 发送各类邮件,这个需求怎么来实现?答案其实很简单,smtplib 和 email 库可以帮忙实现这个需求。s
- 安装 xlwings直接安装用 pip install xlwings,用 anaconda 的,已经内置了,见下图。导入 xlwingsi
- 本文实例讲述了JS求解三元一次方程组值的方法。分享给大家供大家参考,具体如下:// 求用js 码一段代码求 三元一次方程组的值!// a1
- 我就废话不多说了,大家还是直接看代码吧!# -*- coding: utf-8 -*-"""Created o
- 测试需求 为了更好的测试你的ASP程序,你首先需要决定你的程序将来需要面对多大的压力。简单的说,压力或负载可以分解成以下数字:· 最低用户数