使用Python3中的gettext模块翻译Python源码以支持多语言
作者:Al Sweigart 发布时间:2022-10-17 21:36:07
你写了一个Python 3程序,还想要它适用于其他语言。你能复制全部代码库,然后刻意地检查每个.py文件,替换掉所有找到的文本字符串。但这意味着你有两份你代码的独立副本,每当你要做出个改动或修复个bug,你的工作量会加倍。而且如果你想要程序还适用于其他语言,就更糟了。
幸运的是,Python给了一个解决办法,就是用gettext模块。
一个Hack解法
你应该把你自己的解决办法统一改变。例如,你可以把你程序中的每个字符串替换为一个函数调用(函数名简单些,比如像_()一样),这会返回被翻译为该正确语言的字符串。举个例子,如果你的程序原本是:
print('Hello world!')
……你可以将它改为:
print(_('Hello world!'))
……函数_()会返回'Hello world!'的翻译,它基于程序设置有的语言。比如,如果这个语言设置之前被存在一个叫LANGUAGE的全局变量中,函数_()看起来像这样:
def _(s):
spanishStrings = {'Hello world!': 'Hola Mundo!'}
frenchStrings = {'Hello world!': 'Bonjour le monde!'}
germanStrings = {'Hello world!': 'Hallo Welt!'}
if LANGUAGE == 'English':
return s
if LANGUAGE == 'Spanish':
return spanishStrings[s]
if LANGUAGE == 'French':
return frenchStrings[s]
if LANGUAGE == 'German':
return germanStrings[s]
这可以,但是你这是在重复造轮子。Python的gettext模块可以做更多。gettext是一系列工具,文件格式在20世纪90年代被发明出来,来规范软件国际化(也叫I18N)。gettext是个作为对于所有编程语言的系统化的设计,但是我们会在本篇文章中只专注于Python。
程序例子
设想你有个想要翻译的用Python3写的简单“猜数字”游戏。程序的源代码在这里。有四步来使这个程序国际化:
调整这个.py文件的源代码,这样使字符串输入进一个名为_()的函数。
用和Python一起安装的pygettext.py文本,从源代码创建一个”pot”文件。
用这个免费的跨平台Poedit软件,从pot文件创建.po和.mo文件。
再次调整你的.py文件源代码导入gettext模块的代码,设置语言。
第一步:添加 _() 函数
首先,检查你程序中的所有需要被翻译和用_()的调用来替代的字符串。针对Python使用的gettext系统用_()作为得到翻译了的字符串的通用名,因为它是个短名。
注意:用格式型字符串而不是连接型字符串会是你的程序翻译起来更简单。例如,用连接型字符串你的程序会像这样:
print('Good job, ' + myName + '! You guessed my number in ' + guessesTaken + ' guesses!')
print(_('Good job, ') + myName + _('! You guessed my number in ') + guessesTaken + _(' guesses!'))
This results in three separate strings that need to be translated, as opposed to the single string needed in the string formatting approach:
这会导致三个独立的字符串都需要翻译,然而相反的是在格式型的字符串中,只需翻译一个字符串:
print('Good job, %s! You guessed my number in %s guesses!' % (myName, guessesTaken))
print(_('Good job, %s! You guessed my number in %s guesses!') % (myName, guessesTaken))
当你改完“猜数字”源代码后,它会像这样。你并不能运行它,因为_()函数还没定义。这个变化只是让pygettext.py文本可以找到所有需要翻译的字符串。
第二步:用pygettext.py提取字符串
在你Python安装(Windows上的C:Python34Toolsi18n)中的Tools/i18n就是pygettext.py文本。对于可译字符串普通 gettext unix 命令解析 C/C++ 源码并且 xgettext unix 命令可以解析其他语言,而pygettext.py则知道怎样去解析Python源码。它会找到所有字符串并产生个”pot”文件。
在Windows上我已经运行了这个文本像这样:
C:>py -3.4 C:Python34Toolsi18npygettext.py -d guess guess.py
这创建了一个pot文件,叫guess.pot。这只是个普通纯文本文件,它列出来了全部的在源码中寻找_()的调用的要翻译的字符串。你可以在这儿看guess.pot文件.
第三步:用Poedit翻译字符串
你可以用文本编辑器填写翻译但是免费的Poedit软件会更容易从这儿下载http://poedit.net. 选择 > New from POT/PO file… 然后选择你的guess.po文件。
Poedit会问你想要翻译成什么语言。我们举例用西班牙语:
填写翻译吧。(我用 http://translate.google.com,所以对于真的使用西班牙语的人会感觉有点奇怪。)
现在储存文件在它的gettext形式的文件夹里。保存会创建.po文件(一个人类可读的文本文件不同于原始.pot文件,除了是有西语翻译的)和一个.mo文件(一个gettext会读取的机器可读版本。这些文件会存在一个特定的文件夹内,为的是让gettext能够找到他们。他们看起来像这样(比如西语文件中的”es”和德语文件中”de”):
./guess.py
./guess.pot
./locale/es/LC_MESSAGES/guess.mo
./locale/es/LC_MESSAGES/guess.po
./locale/de/LC_MESSAGES/guess.mo
./locale/de/LC_MESSAGES/guess.po
这些两种性质的语言像西语中的”es”和德语中的 ”de” 被称作ISO 639-1 codes 是语言的标准缩写。你不一定要用他们,但是遵循标准是有道理的。
第四步:给你程序加上gettext代码
现在你有包含翻译的.mo文件,调整你的Python代码去用它。在你的程序中加上下面的:
import gettext
es = gettext.translation('guess', localedir='locale', languages=['es'])
es.install()
第一个 'guess' 是”定义域”,这其实是意味着guess.mo文件名中“猜”的部分。 localedir是你创建的locale文件夹的目录地址。这会是相对或绝对的路径。'es'描述在locale文件夹下面的文件。LC_MESSAGES文件夹是个标准名
install()方法会导致调用_()返回翻译为西语的字符串。如果你想回到原始的英语只需要分配一个lambda函数值给_,这会返回当时输入的字符串:
import gettext
es = gettext.translation('guess', localedir='locale', languages=['es'])
print(_('Hello! What is your name?')) # prints Spanish
_ = lambda s: s
你可以检查准备翻译的”Guess the Number”源码。如果你想要运行此程序,下载并解压这个压缩文件和它的locale文件夹和.mo安装文件。
延伸阅读
我怎样都称不上是 I18N or gettext的专家,如果我的教程讲解不够好,请一定要留言。大多数情况下,你的软件运行时不会转换语言,而是会去读LANGUAGE,LC_ALL,LC_MESSAGES,和LANG这些环境变量中的一个来确定计算机的工作地点。我会边学习边更新本教程的。
猜你喜欢
- 用FrontPage做网页的朋友们,你的主要页面中,可能都带有许多相同的元素吧?如页头横向排列(或左侧纵向排列)的主要链接按钮、页底的板权说
- 这篇文章主要介绍了如何使用python实现模拟鼠标点击,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- Javascript是网页制作中离不开的脚本语言,依靠它,一个网页的内容才生动活泼、富有朝气。但也许你还没有发现并应用它的一些更高级的功能吧
- Python的matplotlib模块中的errorbar函数可以绘制误差棒图,本次主要绘制不带折线的误差棒图。1.基本参数errorbar
- oracle命令删除用户:connect / as sysdba; shutdown abort; startup;&n
- 实现对图像进行简单的高斯去噪和椒盐去噪。代码如下:import numpy as npfrom PIL import Imageimport
- 经常在各处牛人的代码中看到许多简写的条件表达语句,看了一些介绍这方面的文章,觉得3 ways 2 say if这篇文章(http://www
- GetRepeatTimes(TheChar,TheString) 得到一个字符串在另一个字符串当中出现几次的函数(新)如:response
- 目录1、typing介绍2、typing的作用3、常用类型3.1 代码示例4、typing模块的其他用法4.1 类型别名4.2 NewTyp
- 关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码。这样并不利于初学者的学习,希望这篇文章可以更通
- 一、pexpect模块介绍Pexpect使Python成为控制其他应用程序的更好工具。可以理解为Linux下的expect的Python封装
- CSS2.1 中规定了关于 CSS 规则 Specificity(特异性)的计算方式,用一个四位的数字串(注:CSS2 中是用三位)来表示,
- reload() 简介作用:用于重新载入之前载入的模块语法格式:reload(module)参数:module为模块对象,必须已经被加载返回
- Application对象 Application对象是个应用程序级的对象,用来在所有用户间共享信息,并可以在Web应用程序运行期间持久地保
- 由于日期存在不同位数的月份或天数,出现参差不齐,既不美观也在日期比较时不好操作。如使用本涵数就会排列整齐:'================
- 用途:将UTF-8编码汉字转换为GB2312码,兼容英文和数字版权:虽说是原创,其实也参考了別人的部分算法asp源代码:<% 
- 问题描述给出一个整数数组 nums,请返回其中位数为偶数的数字的个数。示例 1:输入:nums = [12,345,2,6,7896]输出:
- 我们用session来实现这一设想。由于session是用户级的全局变量,将登录的信息记录到session中后,用户就可直接浏览这些特定的页
- 应用场景在嵌入式开发中,常常需要将一个binary文件分割成多个文件,或者将一个binary的某块区域抓成一个单独文件。本篇blog以pyt
- 本文实例讲述了Python数据分析之获取双色球历史信息的方法。分享给大家供大家参考,具体如下:每个人都有一颗中双色球大奖的心,对于技术人员来