
最近AI自媒体开始踊跃讨论各种英文技术名词的中文新译法。Token的新译法纷纷涌现:灵符、模元、信符、道元、智筹、智元、智根、偷啃……
“茴字有几种写法”的当代活动版本,从未像现在这样生机勃勃且不(太)招人嫌。琢磨AI、token和prompt该怎么译,真的给业界带来一阵中国温度。
将token译为“偷啃”、将AI译为“硅头”,固然不太妥当。但现在大家的咬文嚼字热情,也不是特别必要。专有名词的翻译与流行有自生的规则,硬钻牛角尖费力不讨好。
毕竟“中国日均词元调用量突破140万亿”报道,已经将token和“词元”的译法标定。自媒体再有人气,大不过这种认证。
01
按唐僧的标准,直接音译对中文无害
现在大家都知道严复的“译事三难”原则是外文译中文的基础原则,不过“信、达、雅”虽然本身是外文中译的黄金标准和典范示例,但不是唯一的标准。中文不是从百多年前才开始有翻译。
玄奘法师作为翻译界祖师之一,给过“五不翻”的准则,在五种情况下,可以不对外文中的专属名词进行意译,用音译也行:
“秘密”,有神秘性质的术语;
“含多义”,多义词;
“此无”,中文里实在找不到有丝毫相近的近义词;
“顺古”,已经通行的音译,荀子讲过“约定俗成谓之宜,异于约则谓之不宜”;
“生善”,有宣扬译者推崇的观念的需要。

以这“五不翻”,就能看出AI相关字眼如果没法意译,直接音译也无碍。拿天怒人怨、神泣鬼号、最出名的技术名词翻译“鲁棒性”来说吧,这个音译词乍看碍眼、细琢磨却符合“五不翻”原则。
现在大家都知道“鲁棒”是直接音译“robust”。可考证的源头,是1979年南开大学涂奉生、齐寅峰教授发表的论文《鲁棒(Robust)调节器》和《鲁棒调节器的一种设计》。
在此之前,要把“robust”在各种工程学科中“系统在外部压力、不确定条件、环境特性参数变化下维持原有性能状态”的含义翻译出,“宽容性”和“稳健性”的译法都用过,但都不完全传达含义。“鲁棒”一出,业内都觉得这说法的字义最贴合。
1980年的专业人士评价是:“鲁棒有山东大棒之意,倒是音义兼顾”;
“‘音义兼顾’的绝好译法。因为‘robust调节器’具有‘使系统保持稳定且具有渐进调节特性的能力’,而‘鲁’者粗莽也,‘棒’者强之同义也。所以‘鲁棒’一词较好地表明了此类调节器的特征,且较‘粗壮’,‘强壮’等词生动”。
看,“鲁棒”符合了“含多义”、“顺古”的音译原则。
说回AI范畴,大家在琢磨完Token和Prompt该怎么意译之前,是否该想想如果要意译每个英文AI字眼,SOTA该不该排位更先?毕竟一个State of the art的缩写词非要写英文字眼、且按英文拼音法连读,而非直接意译成“业内前沿”,真是岂有此理。
当然,不译SOTA也符合“五不翻”原则里的“秘密”、“顺古”和“生善”。用当代粗话说,就是大家习惯了,而且这字眼显得使用者懂行、看不懂的人外行,体现逼格和门槛,你硬碰大家已经形成的语言习惯干嘛。
02
若讲究“传信”且“通达”,Token就是“词元”
“信达雅”三原则,在翻译中必有取舍:“信”为根本,但不能执拗;在保证“达”的前提下,“信”可以适当妥协;“雅”就是烤串上的孜然,有当然很好,没有也过得去。从孔子开始,“文勿胜质”、“勿以辞害意”就是说中文的标准。
Token译成“词元”,不仅“顺古”,而且在“信”、“达”、“雅”三要素中至少占了两个,真没必要继续琢磨了。
“顺古”,是因为《计算机科学技术名词(第三版)》里,已将AI自然语言处理/计算语言学场景下的Token规范译为“词元”;顶级会议论文集和专业刊物论文的中文译稿、中国高校的计算语言学专业教材,也大都采用“词元”译法。你要改,你先跟“中国科学技术名词审定委员会”和外国的会议举办方去杠。
而且Token译成“词元”,在“信”的准确性要求、和“达”的晓畅明白要求之间,有最合适的均衡。在byte顶了“字节”的“字”之后,“词”和“元”的组合词,就是最切近而且最易理解的“最基础、不可再分的基本计算单元”表述。
挑战“词元”译法的立论,大都在“Token不能严格对应单个字/词”的技术性质上立基。
是啊是啊,耗千个token生成的是750个左右英语单词、大模型答不对“strawberry里有几个r”和“9.11与9.9谁更大”是因为token的分隔原理和自然人说话不一样,你知道我知道大家都知道。但揪着这些技术细节,去改已经通用的译名,显你读书多、能耐大吗?
硬要追求译词指代的涵义既全面又精准,那Token用区块链时代的“代币”译法也比新造好。
毕竟从黄仁勋到腾讯、阿里,大厂和大老板们现在都说token消耗量与生产效能挂钩、要把token配比薪资发给员工。管Token叫“代币”,这下又没毛病了。拿南京方言口音念,还有一丝谐谑的恶趣味,“雅”这块也顾及。
03
译词越短越好,Prompt只会成为“提示”
中译技术专属名词,音译敌不过意译、最终被意译取代的例子不少,大都符合两个条件:一是音译实在太不知所谓,二是意译比音译短、且有最短的选项。
音译让人不晓得在说啥的典范,就是严复本人。大清国的赐进士老爷既要翻译英文书,又讨厌当时直接搬运“和式汉语”字眼的“东学”风气,就只有用音译来完成专有名词的英译中任务。
“幺匿”、“拓都”、“涅伏”,严复独创的这些音译看上去比“鲁棒”不知所谓得多。别说现在,近百年前的知识分子一眼也猜不透这是在说啥,不读他的译作,谁也不知道这是在翻译“unit”、“total”、“nerve”。当时大人物的翻译被收入入学考试之后,直接让未来大人物郭沫若哭爹叫娘:“我的妈!这样伟大的一个难题,实在足以把人难倒。”
当“幺匿”、“拓都”、“涅伏”被中文使用者抛弃,“nerve”的中文对应词没有退回到谭嗣同和洋教士版本的“脑气筋”,“unit”、“total”、“nerve”译词使用了日本人的“个体”、“总体”、“神经”。原因不消解释,三个字的单词永远没有两个字的单词更受欢迎。
如果直接音译更准确但更拗口,中文使用者会很开明地使用意思不那么准确、而字面更简洁的意译。比如“伯里玺天德”是清国翻译的精准表述:“权力效能比皇上强、但礼仪尊贵不如皇上的头号大官”,“总统”是日本人译法“大统领”的缩写。“伯里玺天德”缩成“总统”,意思上不够准确,但后者迅速流行。
哪种译法在比较保真的前提下更短,普罗大众就会选择哪种。“西敏寺”比“威斯敏斯特”好用,是因为既传递“Westminster这地方是古伦敦西界以外更西”的意思,又更简短。“拍立得”、“肯德基”,更是典范。现在最钻牛角尖的中国人也不会用“即时成像相机”、“肯塔基州炸鸡”来说这两种商品。
这条原则应用在AI业界,就是Prompt即使不被译成“提示词”,也不可能译成其他花里胡哨、附庸风雅的硬拗,只会被缩写成“提示”或“提词”。这种语言现象正在发生,在阿里云的官方网站上就有出现。

现在“生成-对抗网络”这个AI概念不流行了,不然还会给这种语言现象添上更有趣的注解:看大家是会使用“生成-对抗网络”这个词,还是直接把英文缩写GAN拿中文拼音法读出来。
毕竟现在网店商家拿AI生成的假图当成门面照片、商品实拍,网购顾客拿AI生成的假图当退款凭据,已成大众新潮流。这种真人们相互做“生成器-判别器”对抗的生活,真的是很GAN啊。





京公网安备 11011402013531号