·

吉祥访体育

吉祥访体育

吉祥访体育手机官网 AI 大模子的「华文税」:华文比英文更费 Token,为什么?

发布日期:2026-05-09 04:17 来源:未知 作者:admin 浏览次数:

作家|汤一涛

裁剪| 靖宇

Opus 4.7 刚发布那几天,X 上人言啧啧。有东说念主说一次对话就把她的 session 额度用光了,有东说念主说吞并段代码跑完的本钱比上周翻了一倍多;还有东说念主晒出我方 200 好意思元 Max 订阅不到两小时就触顶的截图。

孤苦开采者 BridgeMind 承认 Claude 是宇宙上最佳的模子,但同期亦然最贵的模子。他的 Max 订阅用不到两小时就名额了,但亏得——他买了两份。|图片来源:X@bridgemindai

Anthropic 官方价钱没变,每百万输入 token 仍是 5 好意思元,输出 25 好意思元。但这个版块引入了新 tokenizer,同期 Claude Code 把默许 effort 从 high 提到了 xhigh。两件事重叠,吞并份职责破费的 token 变成了畴前的 2 到 2.7 倍。

我在这些探求里看到两个和华文相干的说法。一个是:华文在新 tokenizer 下险些没涨,华文用户躲过了此次加价。另一个更特风趣: 古文比当代汉语还省 token,用文言文跟 AI 对话不错浮松本钱 。

第一个说法默示 Claude 对华文作念了某种优化,但 Anthropic 的发布文档里,没提过任何和华文相干的息争。

第二个说法规更高深释。古文对东说念主类读者来说彰着比当代汉语难解,一个对东说念主类更复杂的文本,若何会对 AI 更容易?

于是我作念了一次测试,用 22 段平行文本(包含生意新闻、期间文档、古文、平常对话等类型),同期送进 5 个 tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),读取每段文本在每个模子下的 token 数,作念横向对比。

测试文本:

1、平常对话中英文(旅行、论坛求援、写稿央求)

2、期间文档中英文(python 文档、Anthropic 文档)

3、新闻中英文(NYT 时政新闻、NYT 生意新闻、苹果公司官方声明)

4、文体选段中英古汉语(《兴师表》《说念德经》)

测完之后,两个说法都得到了部分考据,但事实会比传言更复杂一些。

华文税

先说论断:

1、 在 Claude 和 GPT 上,华文一直比英文贵

2、 在 Qwen 和 DeepSeek 上,华文反而比英文低廉

3、 Opus 4.7 此次激发轰动的 tokenizer 升级,通胀险些只发生在英文上,华文陈陈相因

看具体数字。Claude Opus 4.7 之前的全系列模子(包括 Opus 4.6、Sonnet、Haiku),使用的是吞并个 tokenizer。在这个 tokenizer 下,华文的 token 破费全线高于等量英文本色,cn/en 比值范围在 1.11× 到 1.64× 之间。

最顶点的场景出当今 NYT 作风的生意新闻:吞并段本色,华文版要多破费 64% 的 token,等于多付 64% 的钱。

Opus 4.6 偏激之前的 Claude 模子,华文 token 的破费量权贵高于其它模子(红框)

最顶点的场景出当今 NYT 作风的生意新闻:吞并段本色,华文版要多破费 64% 的 token(绿框)

GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多指责在 1.0 到 1.35× 之间,部分场景低于 1。华文仍然合座偏贵,但差距比 Claude 小得多。

国产模子 Qwen 3.6 和 DeepSeek-V3 的数据则皆备反了过来。两者的 cn/en 比值大面积低于 1,这意味着相同的本色,华文版反而比英文版省 token。 DeepSeek 最低作念到了 0.65×,吞并段话华文版比英文版低廉三分之一 。

Opus 4.7 的新 tokenizer 通胀险些只发生在英文上。英文 token 数推广了 1.24× 到 1.63×,华文大批保管在 1.000×,险些莫得变化。泉源那些英文开采者的账单轰动,华文用户照实没感受到。原因可能是华文在旧版上仍是被切到了单字颗粒度,可拆分的空间极小。

Opus 4.7 对比 4.6,英文破费的 token 更多了,华文反而没变

测试历程中我还庄重到一件事。token 破费的互异不仅仅账单问题,它成功影响职责空间的大小。相同 200k 荆棘文窗口,用旧版 Claude tokenizer 装华文贵寓,能塞进去的本色量比英文少 40% 到 70%。

吞并类职责,比如让 AI 分析一份长文档或者是追念一组会议记录,华文用户能喂给模子的材料更少,模子能参考的荆棘文更短。闭幕等于付了更多的钱,但得到的是更小的职责空间。

四组数据放在通盘看,一个问题自然浮出来:

为什么吞并段本色换个谈话,token 数就不一样?为什么 Claude 和 GPT 的华文贵,Qwen 和 DeepSeek 的华文反而低廉 ?

谜底藏在上文屡次提到的看法 tokenizer(分词器)上。

02

一个汉字,不错切成几块?

模子在读到任何翰墨之前,和会过 tokenizer 把输入切成一个个 token。你不错把 tokenizer 想象成 AI 的「积木切割机」。你输入一句话,它谨慎把这句话拆成一块块模范化的积木(也等于 token)。AI 模子不看翰墨,只认积木的编号。你用若干块积木,就付若干钱。

英文的切法比拟得当直观,比如「intelligence」约略率是一个 token,「information」亦然一个 token,一个单词对应一个计费单元。

但华文到了这一步就出问题了。把吞并句话「东说念主工智能正在重塑大众的信息基础表情」永诀送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出来的闭幕皆备不同。

GPT-4 基本把每一个汉字都拆成了一个 token;Qwen 则会把词语识别成一个 token,举例「东说念主工智能」这 4 个字在千问只算一个 token。

吞并句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来唯有 6 个。

为什么会切成这么?原因在一个叫 BPE(Byte Pair Encoding)的算法。

BPE 的职责形式,是统计检修语料里哪些字符组合出现频率最高,然后把高频组合合并成一个 token,纳入词表。

GPT-2 时间,检修语料的绝大多数是英文。英翰墨母组合(th、ing、tion)反复出现,很快就被合并成 token。中翰墨符在阿谁语料池里出现的频率太低,排不进词表,只可被作为原始字节来处理,一个汉字占 3 个字节,就变成了 3 个 token。

BPE 按检修语料中的字符频率决定合并。英文语料主导下,华文 UTF-8 字节无法合并为整字

自后 GPT-4 的 cl100k 词表扩大了,常用汉字开动被纳入,一个字庸俗缩到 1 到 2 个 token,但合座成果仍然不如英文。

到了 GPT-4o 的 o200k 词表,华文成果再进了一步。这也讲解了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作为国产模子,从一开动就把大批常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token,成果成功翻倍甚而更多。

吞并句话在不同 tokenizer 下的拆分闭幕示意图

这等于为什么它们的 cn/en 比值能低于 1, 中翰墨均信息密度蓝本就高于英文单词,当 tokenizer 不再东说念主为拆碎汉字,这个自然上风就娇傲出来了 。

是以上一节那四组数据的互异,根源不在模子的才气,而在 tokenizer 的词内外,给华文留了若干位置。

Claude 和早期 GPT 的词表是以英文为默许值构建的,华文是自后被「塞进去」的;Qwen 和 DeepSeek 的词表从联想之初就把华文作为默许谈话对待。这个首先的互异,一齐传导到 token 数、账单、荆棘文窗口大小。

03

古文真实更低廉吗?

再看泉源的第二个传言: 古文比当代汉语更省 token 。

数据阐发了这个说法。在测试里,古文样本的 cn/en 比值全线低于 1,在悉数五个 tokenizer 上都一致。吞并段本色的古文版块,token 数比对应英文翻译还少。

在悉数模子中,古文破费的 token 数不但比当代华文少,甚而比英文还少

原因也不复杂,古文用字非常精好意思。「学而不念念则罔,念念而不学则殆」是 12 个字。翻译成当代汉语等于「仅仅学习而不念念考就会招引,仅仅念念考而不学习就会堕入逆境」,字数成功翻倍,token 数自然也随着翻倍。

况兼古文的常用字(之、也、者、而、不)都是高频字符,在职何 tokenizer 的词内外都有孤苦位置,不会被拆成字节。是以古文在编码层面照实是高效的。

但这里藏着一个罗网。

古文的 token 省在编码端,但模子的推理职守莫得减弱 。「罔」一个字,模子需要判断它在这个语境里是「招引」「被蒙蔽」如故「莫得」。当代汉语不错用 26 个字把这层风趣阐发晰,用古文等于把铺开的部分压了且归,把推理的活留给了模子。打个譬如,一份压缩成 zip 的文献体积更小,但解压它需要更多运筹帷幄。

token 省了,推理的破费反而高涨了,阐明准确度还下落了 。这笔账算不外来。

古文这个例子让我意志到,token 数目自己不成阐发太多问题。但顺着这个想法想下去,还有一层我之前忽略了的东西。

上头说过,GPT-2 时间的 tokenizer 会把「东说念主」这个字拆成三个 UTF-8 字节 token,自后 GPT-4 的词表扩大,常用汉字变成了一个字一个 token,Qwen 更进一步,把「东说念主工智能」四个字合成一个 token。

直观上这是一个不时更正的历程:合并得越多,成果越高,模子应该也阐明得越好。

但真实是这么吗?咱们不妨回忆一下,咱们是如何壮健汉字的。

汉字是表意翰墨,当代汉字里卓绝 80% 是形声字,吉祥访中国体育手机官网由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体相干,「木」旁的字多和植物相干,「火」旁的字多和热量相干。 偏旁部首等于东说念主类识字时最基础的语义思路,一个不彊壮「焱」字的东说念主,看到 3 个「火」也能猜到它和火相干。

因为偏旁部首是东说念主类识字时最基础的语义思路,东说念主会先从结构推测道理鸿沟,再聚积语境阐明具体含义。

火花、火焰、光焰,书面语与东说念主名中多见,寓意光明、酷暑。

然则在 tokenizer 的词内外,「焱」这个字对应的是一个编号。咱们假定它是 38721 号,它代表的是词内外的一个索引位置,模子通过它查找到一组数字向量,用这组向量来表征「焱」这个字。

编号自己不佩戴任何干于这个字里面结构的信息。38721 和 38722 的关系,对模子来说和 1 和 10000 的关系莫得区别。于是,「汉字的结构」这一层信息,就被封装起来了。三个「火」叠在通盘这件事,在编号里不存在。

模子自然不错通过大批检修数据波折学到「焱」「炎」「灼」频频出当今相似的语境里,但这条路比成功诓骗偏旁信息要更波折一些。

是以模子能不成从圮绝的字节里,「看到」某些近似偏旁的结构思路,然后在后续的运筹帷幄层里再行组合呢?这条路诚然 token 数多、本钱高,但有莫得可能在语义阐明上,反而比成功吞下一个不透明的编号更有用?

2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回话了这个问题。

04

碎屑里长出偏旁

论文作家 David Haslett 庄重到一个历史巧合。

1990 年代,Unicode 定约在给汉字分派 UTF-8 编码时,胪列门径是按部首归类排的。吞并个部首下的汉字,UTF-8 编码是相邻的。「茶」和「茎」都含有「艹」部(草字头),它们的 UTF-8 字节序列以相易的字节泉源。「河」和「海」都含有「氵」部,字节序列相同分享泉源。

UTF-8 按照部分部首门径给华文排序,部首相易的字,编码左近|图片来源:Github

这意味着,当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时间,分享部首的汉字会分享第一个 token。模子在检修历程中反复看到这些分享的字节模式,有可能从中学到「第一个 token 相易的字,时常属于吞并个道理鸿沟」。这在功能上就接近于东说念主类通过偏旁判断语义的历程。

Haslett 联想了三个施行来考据这件事。

第一个施行议论 GPT-4、GPT-4o 和 Llama 3: 「茶」和「茎」是否含有相易的语义部首 ?

第二个施行 让模子给两个汉字的语义相似度评分 。

第三个施行 让模子作念「找出不同类」的排除任务 。

每个施行都已毕了两个变量:两个汉字是否真实分享部首、两个汉字在 tokenizer 下是否分享第一个 token。这个 2×2 的联想,让她能分离出部首效应和 token 效应各自的影响。

三个施行的论断一致:当汉字被切成 多个 token 时 (比如 GPT-4 的旧 tokenizer 下,89% 的汉字被切成了多 token), 模子识别分享部首的准确率更高 ;当汉字被编码为 单个 token 时 (GPT-4o 的新 tokenizer 下,唯有 57% 的汉字如故多 token), 准确率下落了 。

换句话说,上一段的阿谁猜测修复了。 把汉字切碎,本钱照实更高,但切碎后的字节序列里保留了部首的踪迹,模子真实从中学到了一些东西 。而把汉字编码为整字 token,本钱降下来了,但部首信息被封装在一个不透明的编号里,模子无法再通过字节序列获得这一思路。

需要至极阐发的是,这一论断仅局限于字形相干的细分语义任务, 不成等同于模子合座的华文阐明、逻辑推理、长文本生成才气下落 。同期,施行对比的 GPT-4 与 GPT-4o,除了分词器互异外,模子架构、检修语料、参数目均有权贵变化,无法将准确率变化 100% 归因于分词粒度的息争。

这个发现还得到了工程侧的考据。2024 年一项针对 GPT-4o 的议论发现,GPT-4o 的新 tokenizer 把某些中翰墨符组合合成了一个长 token 之后,模子反而出现了阐明诞妄。当议论者用专科的华文分词器,把这些长 token 再行圮绝再喂给模子,阐明准确度复原了。

目下大众大模子行业的主流共鸣,依然是 针对策画谈话优化的整词 / 整字分词器,能权贵素质模子的合座性能 。整字 / 整词编码不仅能大幅贬低 token 本钱、素质荆棘文窗口的有用信息量,还能贬低序列长度、贬低推理蔓延、素质长文本处理的踏实性。论文中发现的细分任务上风,无法诡秘绝大多数华文 NLP 场景的性能收益。

但这件事依然戳中了大型系统里最难处理的一类问题: 你能优化你联想过的部分,但你没法优化你不知说念我方领有的部分。 Unicode 定约按部首胪列编码,是为了东说念主类检索的便捷。BPE 把汉字拆成字节,是因为华文在语料里的频率太低。两个不相干的工程决议正好叠在通盘,产生了一条谁都没运筹帷幄过的语义通说念。

然后,当新一代工程师「更正」tokenizer、把汉字合并为整字 token 的时间,他们同期抹掉了一条我方不知说念存在的路。成果素质了,本钱贬低了,某些东西也适意地隐没了,而你甚而不会收到一条报错信息。

是以事情比「华文在 AI 里多付钱」这个判断更复杂。 每一种 tokenizer 都在为某个默许值优化,代价藏在了别处 。

05

林语堂

华文适配西方期间基础表情的代价,不是 AI 时间才开动付的。

2025 年 1 月,纽约住户 Nelson Felix 在 Facebook 一个打字机艳羡者小组里发了几张相片。他在细君祖父的遗物里发现了一台刻满华文的打字机,不知说念是什么来历。很快数百条驳斥涌入。

Nelson Felix 的问题:明快打字机值钱吗?|图片来源:Facebook

斯坦福大学汉学家墨磊宁(Thomas S. Mullaney)看到相片后坐窝认出来了,这是林语堂 1947 年发明的「明快打字机」的唯独原型机,失散了快要 80 年。同庚 4 月,Felix 夫妇将打字机卖给斯坦福大学藏书楼。

明快打字机密处置的问题,和今天 tokenizer 靠近的问题在结构上是吞并个: 若何把华文高效地镶嵌一套为西方谈话联想的期间基础表情。

1940 年代的英文打字机有 26 个字母键,一键一字,粗浅成功。华文有几千个常用字,不可能一键一字。那时的华文打字机是一个繁密的字盘,排着几千个铅字,打字员用手一一捡字,每分钟只可打十几个字。

1899 年,好意思国布道士谢卫楼(Devello Z. Sheffield)所发明的华文打字机,是华文打字机最早的记载|图片来源:Wikipedia

林语堂耗资 12 万好意思元研发经费,险些赤贫如洗,委用纽约的 Carl E. Krum 公司作念出了一台唯有 72 个键的华文打字机。职责道理是把汉字按字形结构圮绝,上形键选字根上半部、下形键选字根下半部,候选字娇傲在一个叫「魔术眼」的小窗里,按数字键选中。每分钟 40 到 50 字,赈济 8000 余常用字符。

(左)透明玻璃小窗即位「魔术眼」;(右)明快打字机里面结构|图片来源:Facebook

赵元任评价:「 岂论中国东说念主如故好意思国东说念主,只须稍加学习,便能练习这一键盘。我以为这等于咱们所需要的打字机了 。」

期间上明快打字机是一种冲破,但生意上它失败了。

林语堂向雷明顿公司高管演示时机器出了故障,投资者随之失去意思,而造价时髦加上他个东说念主资金链断裂,量产再无可能。1948 年,林语堂将原型机和生意权,卖给默根特勒铸排机公司(Mergenthaler Linotype)。该公司最终吊销量产,原型机在 1950 年代公司搬迁时被一位职工带回长岛家中,之后不知所终,直到 2025 年重睹天日。

墨磊宁在《华文打字机》一书里有一个判断,他以为明快打字机「并不失败」。 作为一款 1940 年代的居品,它照实失败了。但作为一种东说念主机交互范式,它到手了 。

林语堂第一次把华文「打字」变成了「检索加聘用」 。三排按键组合定位字根,从候选字里挑选。这恰是悉数当代华文输入法的底层逻辑。从仓颉、五笔到搜狗拼音,都不错说是明快打字机的后裔。

《华文打字机》,作家:墨磊宁|图片来源:豆瓣

这台跳跃了近八十年的打字机,和今天咱们反复探求的分词器,潜伏着某种的历史法规。 华文永久靠近着一个问题 :

如何接入一套罗马字母酿成的基础表情 。

道理的是,在这个寻找的历程中,充满了非东说念主为运筹帷幄的巧合。Unicode 定约为了东说念主类检索便捷制定的排序,跟 BPE 算法的无心拆解叠在通盘,果然在神经采集的黑盒里,重现了东说念主类识字的历程。而当工程师们为了摈斥「华文税」,主动把汉字拼好、把本钱打下来时,那条随机出身的语义通说念也闭合了。

历史并不是一条直线进化的轨说念,而是在多样不时条款的挤压下,不时发生变形的流体。

有些才气是联想出来的,有些仅仅正好莫得被删掉。

* 头图来源: geyuyao.com吉祥访体育手机官网

滚球app中国官网下载入口