语言 on Victor42

成语里的数字

hi@victor42.work (Victor42) — Fri, 11 Jul 2025 23:24:00 +0000

带数字的成语，你一口气不停说，停顿5秒以上就算输，最多能说多少个？

先分享个小技巧：这游戏想要玩得好，优先想带“一”的成语。如果偶然想到带其他数字的成语，发散完没有头绪不要恋战，回到“一”来。而且，优先想“数字字字”和“字字数字”这种格式的词。

这技巧我怎么知道的？因为我对3万多个成语做了详细的数据分析，感兴趣请往下看。

数据准备

首先，要分析成语，先得把成语都找出来。稍微了解了下，不同词典收录的成语数量不同，数量范围在3-5万个之间。

在Modelscope找到一份数据集，包含3万多个成语，足以支撑我的研究：

https://modelscope.cn/datasets/Lawrenceshi/Idiom-solitaire

这个数据集本身也挺有意思，可能是为研究成语接龙而创建的。它把每个成语首字和尾字拼音都单列出来了。

不过我的研究方向有所不同，我只需要成语本身（word）和释义（explanation）两项足矣。

把成语中的数字词提取出来，单独一列，便于后续分析。

另外，成语中绝大多数都是四字成语，占比达到95%以上。我们提到“成语”这一概念时，更多还是指狭义的四字成语。虽然非四字成语也包含数字词，如“三下五除二”、“一而再，再而三”，但由于总量较小，排除掉对结果影响不会很大。

后续的研究都仅围绕四字成语展开。

成语中有哪些数字？

不过，提取数字词的过程中，我发现这事情不能深想，这里面水很深。

我们得定义一下这个课题本身。我研究的是成语中的“数字词”，还是成语中的“数字”？

这完全是2个概念。前者只需看常规的数字词是否出现，后者要关注成语中是否出现表达数字的含义。由于研究对象本身就是一种文化现象，我认为应该从含义的角度出发。所以，成语中的数字，要把那些“是数字词但表达含义不是数字”的剔除掉，同时还要把“不是数字词但含义等同于数字”的包括进来。

任务难度提高，我们一步步来。先看“是数字词但表达含义不是数字”这种情况，真的存在吗？

狭义的数字词有“一二三四五六七八九十百千万亿”这些。经过研究发现，它们在成语中无论是实指还是虚指，都没有脱离数的含义。顶多是类似于“三”泛化为“多”这样的用法，但它们的含义是从一个具体的数发展出来的，仍然可以视作数字。

“不是数字词但含义等同于数字”的情况呢？

应该马上有人能想到，“二”和“两”经常可以相互替代。没错，“二”确实是个很特殊的数字，它似乎有许多变体：“两”、“双”、“偶”、“再”、“复”。

我把其中部分变体也作为数字词，加到筛选条件中。把含有这些变体的成语单独提取出来，合并到一个专门的文件中，结合成语释义，交给AI判断它在里面表达的是不是数字的含义。结果如下：

“两”字除了表达计量单位的意思，其余都是数字词。
“双”全是数字词。
“偶”只有“无独有偶”是数字词，其他的含义大多和“机会”有关。
为什么“再”、“复”不算数字2的变体？因为它们加了一层时间含义，第二次，有明确的“先”与“后”的概念，与纯粹的数值不同。
其他数字有没有这样的变体？完全等同的精确指代没有。“众”、“群”等模糊指代有的，但这些不是确切的数，我认为不能算进来。
我不放心AI，又人工筛选了一遍，发现Gemini 2.5 Pro其实准确率非常高。人工筛选的和它筛选的结果对比，AI只有3处遗漏，而且还发现了我的一处判断错误。

我尝试思考，为什么只有“二”有这么多变体，其他数字却没有？

一番查证，发现“二”在中华文化里真的很特殊。我们是一个高度崇尚二元论的文明，古代哲学中处处可见阴阳、乾坤、虚实等对立统一的世界观，导致数字2在文化上有大量衍生和泛化。比如“两”这个字，是符合二元论哲学的典型，它最初的意思是“天然成对的事物”，从字形上也能看出来，与“二”纯粹指代序数有所不同。想一想，只能用“两”不能用“二”的场合，是不是有许多事物都是成对的、或者对称的？另外，大写数字“贰”的来历，里面加入的这个“贝”字，也是在借用贝壳两半成对的含义。

展开分析

言归正传。既然我们把“带有数字含义”的四字成语都成功筛选出来，研究可以正式开始了。

带数字成语的比例

在29502个四字成语中，有2431个带有数字含义，占总量的8.2%。

成语数字词出现频率

在后续的分析中，我把含义相同的数字词都算到同一个数上，也就是把“两”、“双”、“偶”的数据都归到“二”里。为表示它是广义的数字“二”，我把它写作“(2)”。

数字词出现频率的规律：

“一”遥遥领先，约是第二名的3倍。
两头高中间低。“一二三”、“百千万”用得多，普遍为中间数字的2倍多。可见古人造词也爱走极端，不夸张不足以抓人眼球。
“亿”几乎没人用。

关于“亿”可以多说几句。我做研究前就认为它在成语中应该极少出现，把它加进来分析是作为“对照组”。因为“亿”是这里面唯一一个万进制数字，其他都是十进制数字。

从十开始，每个数字10倍递进。到了万之后，这几乎触及古人日常生活中的数量级天花板，再往上没有造词的必要了。但统治者不同，统治者处理天文数字。只是他同样不能再往上造词了，因为上面数量级太多，造多了根本记不住。采用“民间”最高数量级万来递进，中间的用复合单位来表示，十万、百万、千万、万万=亿……这样一个体系，既不增加新概念，又能很好表达各数量级的大数。

我在这篇文章里详细解释了这个观点：为什么英语中没有万这个单位？

成语数字词的数量

四字成语中，数字词占了其中几个字？

1个数字词的成语占64.1%，2个占35%，这两者加起来就99.1%了，3个和4个的极少。

3个的如“三六九等”，4个的如“一五一十”。

看到这里不得不说，成语真是文化的高度浓缩，可以说是意义的多层包浆。想象一个不懂中文的歪果仁看盯着“一五一十”这个词：

One, five, one, ten？是说一个东西是另一个两倍那么厉害吗？

成语数字词组合

有2个及以上数字词出现时，它们是如何相互组合的？哪些数经常一起使用？

我先讲讲怎么看这图，它是一个条件概率热力图。先选一行横着看，再看其中某一列。

比如第“三”行第“四”列表示，所有含“三”的（2个数字词）成语中，也含有“四”的占了26%。
反过来，第“四”行第“三”列表示，所有含“四”的成语中，也含有“三”的占了59%。

严谨地解释一遍。这个图里每个格子的概率来自两个数相除，分母是包含行数字的成语数量，分子是同时包含行数字和列数字的成语数量，约束条件是所有带有2个及以上数字词的成语。

这张图上能看出的东西就非常丰富了：

“一”雨露均沾，对其他数字没有明显偏好。
“二三四五六”倾向于和相邻或相近的数组合，对“三”尤其依赖。如“两面三刀”、“三从四德”、“三令五申”、“五脏六腑”。
“七八”是好基友，基本只认彼此。如“七上八下”。
“九十”组合也非常常见，两个大数表示多。如“十拿九稳”。
较大的偶数有“减半组合”现象，和自身的1/2组合，比其它数字明显高一些。如“三头六臂”、“四平八稳”、“五光十色”。
“九”和“三”也构成了特殊的组合，尤其是“九”依赖“三”，如“三教九流”。这里面莫非有平方的思想？
从“百”开始，大数的组合模式只剩两种：和“一”组合表示反差，如“一落千丈”；和相邻大数组合表示非常多，如“千头万绪”。
竖着看，“一”和“三”是最被需要的数字。这也与出现频率那章结论相符。

成语数字词重复

这里还有个小插曲。由于这分析代码是AI（Claude 4 Sonnet）写的，对于这种复杂的热力图，我不太信任AI的算法，特意验证了一遍。

怎么验证？热力图里的成语，每一个都包含至少2个数字词，每一行已经锁定了其中一个数字词，行里的格子是另一个数字词出现的概率。理论上，每一行的概率之和应该接近于1。但为什么不刚好是1，有两个因素会使概率之和偏移：

当成语中出现3个甚至更多不同数字词（如“三六九等”），会在多个格子中重复出现，分别独立计算概率，导致概率之和偏高。
当成语中仅有一种数字词但出现多次（如“一心一意”），它不会出现在任何一个格子里（其实它就在没有数字的对角线白格里），却会被算进分母中，导致概率之和偏低。

和AI讲了我这个观察，它认同偏高的原因，却不同意偏低的原因。它坚称每行概率之和理论上只会大于等于1，如果有小于一的情况是数据精度导致的误差。

我亲自一算就发现不对劲，第“一”行之和只有0.74，离1也太远了，精度再差也不能差掉1/4啊。

和AI来回拉锯几轮，它顶不住我的追问，决定在代码里写一些验算逻辑。验算完发现我是对的，偏低真是这个原因。

验算也让我发现了两个特殊数字。绝大部分数字概率之和都在1附近，上下偏离极小。但“一”的概率之和是0.74，“百”的概率之和是0.9，表明这两个数字词确实有大量重复出现的情况。

想想确实如此：“一朝一夕”、“一草一木”、“一唱一和”、“百战百胜”、“百发百中”、“百依百顺”……

成语数字词位置

再看看数字词在四字成语里通常出现在什么位置。

只包含一个数字词的成语，绝大部分数字都出现在第1个或第3个字。

包含2个数字词的成语，数字位置就有6种组合：1-2型（数数字字）、1-3型（数字数字）、1-4型（数字字数）、2-3型（字数数字）、2-4型（字数字数）、3-4型（字字数数）。

1-3型占绝对主导，正是典型的“三番五次”模式。2-4型少很多，但也远超其他，“横七竖八”模式。

3个及以上数字词的成语就没什么好分析的了，总量才22个。

另外，只有1个数字词的成语还能继续挖掘，看看每个位置上都是些什么数字。

无论几号位，都是“一”最多，1号位和3号位领先优势尤其明显，一骑绝尘。
忽略“一”的领先，其他数字在1号位分布相对平均（除了“百”较多），而在3号位出现明显的微笑曲线式分布。
“(2)”在2号位和4号位表现非常突出，相信“双”字在这里作出了巨大贡献。虽然比例可观，但总量其实很少，所以这两个位置的规律未必能说明什么。

关于微笑曲线我有个猜测。只有1个数字词的成语，和有2个数字词的成语，在语法结构上有明显不同。在这短短4个字里，1个数字的成语，前两字和后两字是有明确分工的，前者更倾向于表达事物本体，而后者更倾向于形容前者，比如“一飞冲天”。而2个数字的成语，前两字是一个一件事，后两字是另一件事，靠对仗排比的手法让人明白它的内涵，如“百媚千娇”。

回到1个数字的成语。既然前者是本体，考虑到文化和历史的丰富性，各种数字都可能出现，因为有许多约定俗成。如“五雷轰顶”，你不能随随便便换成“一雷”、“百雷”。
而后者是形容，所以可以怎么夸张怎么来，中间不大不小的数字用处不大。“雷霆万钧”和“雷霆九钧”哪个更有张力？你一看便知。

虽然也有倒过来的用法，如“不堪一击”。但你仔细品味，有没有觉得倒过来的用法似乎给人一种“倒装句”的感觉？汉语常规语序（包括古文）里是不是更多说“什么东西怎么样”？似乎主体先说出来对信息传递更有利，所以总体而言1号位数字更多是本体，3号位数字更多是形容，导致了这种差别。

成语数字词大小

再看看数字大小在四字成语中有什么规律。既然要比较大小，就至少得有2个数字词。由于3个和4个数字词的成语极少，这里只分析2个数字词的成语。

数字增大的情况占多数，减小的情况次之。两数相等其实就是重复使用，这种用法最少。可见数字增大的递进式表达更加自然，信息传递效果更佳。

再细看每种位置组合的大小情况，也就是：1-2型（数数字字）、1-3型（数字数字）、1-4型（数字字数）、2-3型（字数数字）、2-4型（字数字数）、3-4型（字字数数）。

由于1-3型和2-4型占了绝大多数，我们重点看图2和图5：

1-3型的大小关系和整体情况接近。如“一石二鸟”、“双宿双飞”、“万紫千红”。
2-4型更极端，明显由数字增大的情况主导。如“隔三差五”，另两种模式我竟然一个也想不到。
其他类型数量太少，图表没什么意义。

成语数字词奇偶

奇数与偶数在汉语中也有显著区别。奇数为阳，偶数为阴。来看下（十以内）奇偶数在成语中的情况。

由于“一”傲视群雄的使用频率，仅含奇数的成语占到一半以上。仅含十以上大数的次之，奇偶数都有再次，最少的是仅含偶数的成语。看来阴数确实在文化上就矮一头，不受待见。

单独分析仅含1个数字词的成语，无论在几号位上，奇数都力压偶数，1号、3号位尤其明显。

到含2个数字词的成语里，情况就有变化了。这里我们只分析1-3型和2-4型成语，因为其他类型总数太少了。

1-3型的1号位奇数占绝大多数，但3号位两者持平。当头先来一个阳数，后面可阳可阴，“一波三折”、“七上八下”。
2-4型的2号位也是奇数占绝大多数，但4号位完全反转。阳数还是得在前，阴数结尾，“丢三落四”、“横七竖八”。但这背后有什么文化原因，我还没想明白。

可见，无论从哪个角度，成语中的文化可以只用阳数，也欢迎阴阳调和，但基本拒绝只用阴数。

结语

数据分析这个技能很有意思。我学了它这一年多以来，没做过什么正经事，完全当玩具在用了。用来满足我的各种突发奇想，比如我之前还研究过英语单词重音的分布规律。

整一套分析下来，没有任何对生活有直接帮助的结论，纯粹图一乐呵。

不过，我更想知道语言学者和语文老师此刻感想，或许能联想到什么关键因素，从中挖掘出更多数据背后的文化和历史。如果你有新的发现，欢迎和我分享。

最后，开头的游戏你玩了吗？最高记录可以连续说多少个？

关于英语的重音，我做了一个深入研究……

hi@victor42.work (Victor42) — Fri, 05 Jul 2024 22:33:00 +0000

适合读者：学英语的朋友、搞数据分析的朋友、写Python的朋友、我的朋友

这是我的第一个数据分析项目。自学数据科学有一年多了，技能掌握了不少，实际项目一个没有。学数据分析时，analyze、analysis、analytical天天在面前晃悠，3个单词重音位置都不一样（‘analyze, a’nalysis, ana’lytical），太不友好了，读文章的时候舌头老打结。

重音位置的问题，有人说有规律，规则罗列一大堆；有人说例外太多，别找什么规律。细想，就拿这3个单词来说，规律真的有。英语似乎在极力避免3个连续非重音，且重音位置尽量靠前。在不超过5个音节的情况下，重音总在倒数第3个音节上。

感觉有它的道理，3个连续非重音太平淡了，听者提不起精神，重音可以增加变化。就像开车一路笔直不转弯特容易犯困。重音太靠后则会降低信息传递成功率，试想一个长单词前面的音都轻轻的，最后一个音节发重音，听者还没反应过来就结束了。

这点可能不太好想象，我用普通话来类比。普通话其实有个巨大的缺陷，就是这个“不”字。它的声母、韵母发音都非常轻，尤其和后面的字连读时，韵母还会变得更轻，你时常会分不清对方究竟有没有说这个“不”字。那可是完全相反的两种意思，严重阻碍沟通。我女儿哭闹时，我就分不清她到底是“要”还是“不要”。

回到英语重音的问题，我的猜测似乎像那么回事，但缺少证据支撑。现在，作为一个学习数据的人，是不是该自己动手拿数据验证一下，有多大比例的单词符合这个规律？

研究方案规划

学了数据分析后，研究思路很快就出来了。这个问题无非就是采集、清洗、分析、可视化，并不涉及回归分析和预测。

这是我目前掌握的技能，足以一试：

找一份全面的单词列表
找免费批量的方法，从在线词典获得音标信息
得出每个单词的音节数、重音位置，这一步可以借助AI
分析重音位置分布，数据可视化
验证我的猜想

下面逐一拆解。

数据来源

在知名数据科学社区Kaggle找到了一个数据集，就是个朴素的txt文件。其中包含了30多万个英文单词，按字母顺序排列，一行一个：

https://www.kaggle.com/datasets/bwandowando/479k-english-words

一个txt文件有4mb，看小说的人应该熟悉，这可是百万字级别的小说。

我在Kaggle创建了一个代码项目，数据集导进去，读出其中所有单词，得到了一张369652行、1列的表格。

查发音

表格里只有单词，要从词典里获取音标，研究才能严谨地继续下去。

运气不错，有个免费的在线词典API：https://dictionaryapi.dev/。

现在我需要把这30多万个单词，挨个拿到这个词典里去查。当然，不是手动的，要写代码跑。

API返回的信息里，除了音标，还有发音的音频、词源、词性、意思和例句。这里可能有用的是音标、词源和词性。但绝大多数词源缺失，只拿了音标和词性。

查音标过程中，遇到了数据量太大的问题。API文档没有提到请求的限制，终于在它的Github代码里找到了：每5分钟最多请求450次。这369652个单词，即使没日没夜地查，也要 369652/450*5/60 = 68.45 小时，将近3天！

好吧，3天就3天吧。但做法得改了，要加一个分块查询、阶段性保存的功能。每查了1000行，就存到一个文件里，编上序号。下次按照序号继续查，全部查完再把这300多个文件合并成一张大表。

实际上，30多万个单词大部分是生僻词，在词典API里根本查不到。每1000个词里只能查出其中100个左右。上面这个文件就只有92行。

有语言学研究表示，3000个英文单词能覆盖95%的日常写作和口语，1000个单词也足以覆盖89%。另一份研究显示，成年人平均主动词汇量大约20000个，被动词汇量约40000个。这么看来，30多万的数据集大约只有1/10有用，也算是在合理范围。

数据清洗

合并文件后发现，词典查出的音标符号乱七八糟，许多不常见的符号混在其中，比如 ɘ, ɝ, ɚ, ɨ, ʉ。它们是标准音的变体，在表示更精确的发音时会用到，近似等同与标准音。这些得替换掉，否则会影响音节数和后续所有分析。

除了奇怪的符号，还有许多常见音标发音相同但写法不同。比如 əu/əʊ、ai/aɪ，这些也需要合并。图里每行的意思是，把第1个音标替换成第2个音标，但中括号里的音标不动。

有的单词英音和美音有严重分歧，这里优先按美音规则替换。

这里有太多非常规写法在玩排列组合，多替换或者漏替换很容易导致音标错乱。我临时写了个检查程序，一边手动查剑桥词典确认标准的写法，一边完善我的替换规则，搞了好一会儿。

处理过后，元音符号规矩多了，以 anthropomorphic 为例：

处理前：[ˌæ̃n̪θɹ̠əpəˈmɔɹ̠fɪ̈k]
处理后：[ˌæn̪θɹ̠əpəˈmɔːfɪk]

辅音符号对我没用，没做处理，这是个更大的坑。

后来发现，词典API有少量数据本身就不对。比如算盘（abacus）的发音，/-saɪ/，什么鬼？信息不完整。

算了一下，这种情况占全部单词的0.55%，极少。不完整的音标都列出来，看起来比较随机，没有什么共性，把它们一刀切过滤掉。现在，我实际分析的虽然不再是完整数据，而是一个样本，但样本足够大，足以反映整体，研究可以继续。

分析音标（AI）

这一步要从音标中算出单词音节数，并根据重音符号 ˈ 来判断重音落在第几个音节上。

想偷个懒，在Kaggle上部署一个AI模型，AI不是最懂语言么？让它来判断正合适。

文字类模型试了一圈，卡住了：

大模型跑不动： Kaggle能部署的开源模型中，Llama3 70b就可以完成任务，能稳定、准确地判断出音节数和重音位置。ChatGPT、Claude等其他家模型也都能完成，甚至GPT-3.5都可以，看来语言确实是大模型的传统强项。只是……免费版Kaggle跑不了这么大的模型。
小模型不给力： Kaggle免费提供的2张T4显卡可以带动7b规模的小模型，也就是Llama3 8b、Gemma 7b、Qwen2 7b这些。这些小模型无论是在Kaggle里用，还是在别的平台上用，都无法稳定地完成任务。

仔细打磨提示词，让AI一步步思考，还给了它例子：

<task>
your task is to count how many syllables there are in an English word. list them all then count. finally answer which syllable the stress falls on(tell me the number). answer **EXACTLY** in the example format.
<example>
word: analysis
phonetic transcription: /əˈnælɪsɪs/
syllables:
1. ə
2. 'næ
3. lɪ
4. sɪs
syllables count: 4
stress position: 2
final conclusion: <<<2/4>>>
<word>
analytical /æn.əˈlɪt.ə.kəl/

但小模型仍然经常出错，也许小模型就是不足以胜任这种任务吧。毕竟音标符号和日常使用的英文字母完全不一样，对AI来差不多算另一种语言了，还是小语种。

这番折腾让我明白：为什么各家开源小模型不约而同训练成了7b左右规模，就是为了刚好能跑在一张特定显卡上啊！在算力吃紧的当下，显卡才是基本计量单位。

真的没法用AI了吗？又想到一个曲线救国的办法：Google Sheets+AI插件。把音标信息导到Google Sheets里，右边单元格里写上提示词，把单词和音标带进去。再右边一格使用AI插件的公式，输入提示词，得到生成结果。这个插件用的模型是GPT-3.5，能正确完成任务。然后用Excel里经典操作往下一拉，整列就都给生成了。

看了插件的收费标准，按数据量估算了一下，成本倒是不高，90块左右。但是不知道这几万条数据同时用AI生成，插件会不会出什么异常。如果出现问题再调试、重新生成，又是90，何时是个头，有点不太敢用。

分析音标（算法）

行吧，求AI不如求己。数音节、找重音，这事儿自己写算法也可以搞定，而且更可靠。思路如下，以 analytical /æn.əˈlɪt.ə.kəl/ 为例：

创建一个集合，包含所有已知的元音 ɑaæɒʌəɛeɪiɔoʊuʉɜ
去掉音标里的斜杠、括号、空格、点等无用符号，/æn.əˈlɪt.ə.kəl/ 变成 ænəˈlɪtəkəl
剩下的字符 ænəˈlɪtəkəl 逐个去集合里查，是元音的就记个数，其中 æ, ə, ɪ, ə, ə 是元音，就得到音节数5
以重音符号 ˈ 为分隔符把音标分段，ænəˈlɪtəkəl 变成 ænə 和 lɪtəkəl，取第1段 ænə
再用第3步的方法，数第1段的元音的个数，2个
这个数字+1就是重音所在的位置，重音在第3个音节上

思路出来了，具体代码就让AI写吧。 AI写这种难度的代码简直小菜一碟，没改几轮就能用了。

过程中遇到个有意思的问题，第3步数元音时，双元音怎么办？还有三重元音呢？长音呢？比如 ei 这个音，去集合里查，发现 e 是元音，i 也是元音，这样一来就算了2个音节。实际上 ei 作为双元音只算一个音节。同理，三重元音会被数成3个音节。

算法得改。元音集合分成3个，分别存放单、双、三重元音，查元音的时候要查3遍：

第1遍逐个字符查，比对单元音集合，双元音、三重元音会被多算。
第2遍两个字符查，比对双元音集合，遇到双元音，音节数就减1，抵消多算的双元音。特别需要注意的是，识别到了双元音后，下一次比对要跳过一个字符，防止把三重元音比如 aɪə 算成 aɪ 和 ɪə，这样又多减了。
第3遍三个字符查，比对三重元音集合，遇到三重元音，音节数再减1，抵消多算的三重元音。

修改后的算法就能准确判断音节数了。说明一下，我把长音符号 ː 也算作一个音标字符，所以 iː, ɑː 这样的长音在算法上当作双元音处理，iːə, uːə 就当三重元音处理了，不影响计算结果。

果然，做数据分析，技巧是其次，关键得懂业务啊！分析英语就得了解英语。随着对音标的深入研究，又发现了新问题：三重元音的判定非常模糊。三个元音符号连在一起时，它到底算一个三重元音，还是单元音+双元音，竟然没有共识。这熟悉的感觉……没错，这就是英语！没个准儿。

比如 fire /ˈfaɪər/ 这个词，有人认为 aɪə 是一整个音节，有人认为它是 aɪ + ə 两个。判定标准也五花八门。有说看能不能在这个位置被断行的，在一行末尾写成 fi-，再把 re 写到第2行去，fire不能这么写，所以它是三重元音。也有根据唱歌来判定的，如果唱歌的时候这个音节被唱成一个音符，那就是三重元音。这首 Simple Plan - Fire In My heart 0分57秒的时候，faɪ 和 ər 是被唱成了2个不同的音符，那么它又应该算双元音+单元音？

先不管了，这就是英语。考虑到有 oasis /oʊˈeɪsɪs/ 这样的单词存在，这都四重元音了，还有完没完？况且 oʊ 和 eɪ 明明都已经被重音符号分开了，显然是两个双元音。我决定直接无视三重元音的存在，把它们统统当作两个音节。最后，算法里的三重元音就只剩带有长音的双元音了。

得到了音节数和重音位置，我还想知道重音对应什么元音，或许也能分析出点啥来。

这个需求就略微烧脑了，一时半会儿没想明白，还是找AI讨论一下。这时候不同模型的效果高下立判，平时表现优秀的Gemini 1.5 Flash跟我兜了半天圈子，完全没有解决问题。转而求助GPT-4o，3轮对话就输出正确代码了，前后也就10分钟。又试了Claude 3.5 Sonnet，甚至一次就成功。若需要大量写代码，还是值得为优秀模型付费。当然，基本的代码理解能力还得有，看到AI的代码，要能知道它是在干什么、会不会管用、哪里可能出问题，以便让它继续调整。

它的思路是这样的，还是以 analytical /ænəˈlɪtəkəl/ 为例：

找到重音符号 ˈ 所在的位置，从这里往后看，取 lɪtəkəl 这段。
后面的音标字符一个个看过去，不是元音就去掉，直到遇到第一个元音符号，得到 ɪtəkəl。
这时候开头一定是元音了，接下来取3前个字符 ɪtə，看看在不在三重元音里，不在。
再取前2个字符 ɪt，看看在不在双元音里，不在。
最后取第1个字符 ɪ，看看在不在单元音里，在，这就是重音对应的元音。

分析音标后的数据表变成这样，现在，所需的数据已经集齐了。

可视化

最爽的部分开始了，不仅因为能得出有用结论，也因为AI在这里简直指哪打哪。AI极其擅长写数据可视化Python代码，这类任务对推理能力要求不高，熟悉可视化库的语法就够了，我日常使用的Gemini 1.5 Flash这种非旗舰模型都能很好完成。Seaborn和Matplotlib这两个可视化库我没有认真学过，但借助AI，画图信手拈来。

当然，信手拈来不等于张口就来，AI什么都不知道的情况下，跟它说我要个什么什么图表，它原地摆烂给你看。我写了个Python可视化提示词，告诉它任务，告诉它数据表的结构和内容，然后就能满火力稳定输出了。

<Task>
You are a Python data visualizer. You excels at coding with data visualization libraries like Seaborn and Matplotlib. I will tell you about the structure of a Pandas dataframe and the visualization I want. First, you dive deeply into the dataframe and understand what it is all about. Then write Python code to visualize it. Just code, no explanation. Next, you check if the code meets my need. Finally, correct the code if necessary.
<Dataframe>
The dataframe(variable name is df) is {a list of common English words with their phonetic information and part-of-speech}.
Now here are the columns of the dataframe, exactly in the following order:
**word**
- datatype: str
- example: complimentary
- description: the English words
**phonetic**
- datatype: str
- example: /ˌkɒmplɪ̈ˈment(ə)ɹɪ/
- description: the phonetic transcription of the words
**part_of_speech**
- datatype: str(list like)
- example: ['adjective']
- description: how are these words used in sentences
**syllable_len**
- datatype: int
- example: 5
- description: how many syllables are there in these words
**stress_pos**
- datatype: int
- example: 3
- description: on which syllable the stress falls on, if there are more than one stress, this is the position of the first stress
**stress_syllable**
- datatype: str
- example: e
- description: the vowel of the stressed syllable
<Request>
I want to know the distribution of stress position, grouped by syllable numbers.

使用提示词，只需要修改 <Request> 部分。

观察数据表，里面有一些词没有重音。这是因为单词比较短，音标里没有重音符号，把这些排除掉。再排除掉只有一个音节的单词，这重音即使有，位置也实在是没什么好分析的。

剩下24433个数据完整的单词以供分析。

音节数分析

看看这24433个单词里，音节的数量如何分布。

并不意外，音节数越少，单词数越多。一门语言的演变，当然是先把好用好记的短单词用完了，再去造更长的词。

双音节单词占了48.7%，三音节单词占了31.3%。

4个及以内音节的单词占总数的94.73%，5个及以内的单词占总数的99%。

音节数最多的单词竟然有11个音节。

什么意思，反政教分离主义？又opposition又not，你这是双重否定套娃呀，难怪这么多音节。那我能不能在前面加non，无反政教分离主义？

音节数和重音位置的关系

先用统计学方法，计算这两组数值的相关性系数：0.67。还不错，关联度不低。

这个相关性系数的取值范围是-1到1。接近0表示两者几乎无关；接近1是正相关，一个随另一个正向变化；接近-1是负相关，一个高，另一个就低。

该系数只是统计学上的相关，是分析的第一步。排除了两者不相关，才值得继续研究下去。它并不能反映出两者有什么实际关联。

画个气泡图探索一下。纵轴音节数，横轴重音位置，气泡大小和颜色深度代表单词数量。点的分布大约沿着对角线从左下到右上一路过去，随着音节数变多，重音位置在向后移动。

气泡图（或热力图）虽然能同时展现三个维度的信息，但它们比较的是单词数量的绝对值。我更想知道的是，每一组音节数的单词重音位置分布如何。

又画了一个复合柱状图，纵轴音节数，横轴重音位置。现在一目了然，重音的分布像海浪一样向右移动，而且似乎真的集中在倒数第三个音节附近。

重音音节分析

列出所有在重音位置的元音。其中一两个本不该作为元音出现在这儿，但检查了原始数据，发现词典本身数据就错了，且数量极少，对结果影响不大。

根据出现的频率做了个排行。很明显，比较响亮的 æ, e 等更容易被用作重音；而比较低沉的 ə, ʊ，用作重音效果较弱，较少在重音位置出现。

词性分析

词性和重音位置有没有关系呢？

All part of speech: ['adjective', 'adverb', 'conjunction', 'interjection', 'noun', 'numeral', 'preposition', 'pronoun', 'propernoun', 'verb']

列出数据表中所有词性。其中的 propernoun 不知道是什么玩意，这个词在词典里也没有。一查数据发现只有两个单词，而且牛头不对马嘴，怀疑是词典API数据问题，暂时忽略。

把词性做了个排行，最丰富的依次是名词、动词、形容词、副词。有一半左右是名词。

这个结果不禁让人思考语言的发展史。一门语言首先要能描绘世间万物，创造概念与之对应，名词是基础。为了描绘人和物、物和物之间的相互作用，就需要引入动词。然后需要分别对名词和动词加以修饰，补充信息，才衍生出了形容词和副词。所以单词量会按这个顺序排列，这是我的猜测。

诶，想到这里，名词和形容词、动词和副词的比例是不是应该接近呢？其实都不用计算，条形图上一目了然，名词大概是形容词的2倍多，动词则接近副词的9倍，并不成比例。

['abracadabra', 'absolutely', 'action', 'adieu', 'adios', 'affirmative', 'afternoon', 'ahem', 'alack', 'aloha', 'alright', 'amen', 'amidships', 'arrivederci', 'attaboy', 'attention', 'away', 'banzai', 'bastard', 'beauty', 'begone', 'begorra', 'behold', 'blazes', 'bollocks', 'bonjour', 'bother', 'botheration', 'brother', 'bully', 'bullseye', 'bullshit', 'caramba', 'checkmate', 'cheeses', 'condolences', 'congrats', 'congratulations', 'content', 'cooee', 'curses', 'dammit', 'ecce', 'egad', 'enchanted', 'encore', 'enough', 'eureka', 'exactly', 'farewell', 'fiddlesticks', 'flummery', 'gadzooks', 'gesundheit', 'goddamn', 'goodbye', 'gorblimey', 'gracias', 'gracious', 'greetings', 'hallelujah', 'hardly', 'havoc', 'heavens', 'heyday', 'hola', 'holla', 'honestly', 'hooray', 'hosanna', 'howdy', 'hullo', 'hurrah', 'huzzah', 'yeah', 'indeed', 'knickers', 'later', 'mercy', 'morepork', 'morning', 'namaste', 'negative', 'nonsense', 'oyez', 'okay', 'ole', 'pardon', 'peccavi', 'period', 'pity', 'pleasure', 'presto', 'prithee', 'prosit', 'quiet', 'rather', 'really', 'respect', 'result', 'roger', 'rumble', 'sayonara', 'scramble', 'selah', 'shabash', 'shazam', 'silence', 'sorry', 'standard', 'sugar', 'tally', 'tara', 'tarnation', 'tidy', 'timber', 'uncle', 'understood', 'viva', 'vivat', 'voetsek', 'warning', 'welcome', 'whammo', 'whatever', 'wilco', 'wirra', 'zowie']

出于兴趣，列出所有的感叹词，平时很少注意这个词性，所以展开来看看。发现afternoon都算啊！也对，问候语嘛。

['abaft', 'abeam', 'aboard', 'about', 'above', 'abreast', 'abroad', 'absent', 'across', 'afore', 'after', 'again', 'against', 'agin', 'along', 'alongside', 'aloof', 'alow', 'amid', 'amidst', 'among', 'amongst', 'anent', 'anti', 'around', 'asprawl', 'astraddle', 'astride', 'athwart', 'barring', 'bating', 'because', 'before', 'behind', 'beyond', 'below', 'beneath', 'beside', 'besides', 'between', 'betwixt', 'circa', 'concerning', 'considering', 'contra', 'despite', 'during', 'except', 'excepting', 'failing', 'following', 'forby', 'froward', 'given', 'including', 'inside', 'into', 'minus', 'modulo', 'nearer', 'nearest', 'onto', 'opposite', 'outwith', 'pending', 'regarding', 'regardless', 'respecting', 'rising', 'running', 'saving', 'thorough', 'throughout', 'touching', 'toward', 'towards', 'under', 'underneath', 'unlike', 'until', 'upon', 'upside', 'versus', 'wanting', 'within', 'without']

再列出所有介词，发现了一些特定模式。反复出现的词根值得注意：

a- 表示方位或空间关系：aboard, across, amid, around
be- 真的就是字面意思的be：before, behind, below, beside

现在为每一个词性画热力图，纵轴音节数，横轴重音位置，颜色深度表示单词量占所有该音节数单词的比例。部分词性的单词量太少，没有分析价值，只选了单词量大于总数1%的词性。

只能看出重音位置随着音节数增加而后移，不同词性之间并没有明显差别。但仔细看，其实有点区别，在长单词（5个及以上音节）的情况下，形容词重音集中在倒数第3个音节，名词重音整体偏后，动词、副词重音整体偏前。

重音位置的规律

现在，是时候验证我开篇对重音位置的猜想了。

取音节数是4和5的单词，在数据表里专门增加一列，用重音实际位置减去假象位置（倒数第3个）。这列的值可以用来分析单词重音位置是否符合我的猜想，为0则符合，为1则偏后一个音节，-1则偏前，以此类推。

符合猜想的单词，比例占43.9%。

用柱状图来展示重音的偏离情况。符合规律的最多，前后偏一个音节的也有，再远的就很少很少了。这形状看着……像正态分布啊（不是，一个统计学半吊子看什么都像正态分布

到这里，我意识到我的猜测或许可以进一步推广，音节数超过5是不是也适用呢？修改数据表筛选条件，再来一遍，这次包含所有音节数大于3的单词：

符合猜想的单词，比例占43.92%。嗯，没变多少。

偏离依然符合猜测。重音在倒数第三个音节的单词最多，在倒数第2个音节的单词也很多，这两者加起来占到了78.84%。虽然结果和我预测的并不100%吻合，但整体规律被证实了。

结论

再总结一下。通过以上分析，关于音标和重音，有以下观察：

音节数越少，单词越多
日常几乎用不到超过5个音节的单词
音节最多的单词有11个音节
单词音节数增加，重音总体上往后移
较响亮的元音更容易作为重音
词性对重音位置影响不大
大多数长单词的重音落在倒数第3和倒数第2个音节上，占总数的78.84%

后记

分析5分钟，准备数据2小时。

可视化我大概只搞了半天，绝大多数时间都在准备数据，尤其从词典API查音标，断断续续跑脚本跑了两个多星期。甚至我这篇文章都写完了，词典还没查完，文中的数据结论我都用占位符占着，最终数据出来才填上的。

结论部分证实了我的猜想，还是很开心的。经过这番研究，英语单词的重音规律，我相信我永远都会记得，毕竟是自己的研究成果。

研究过程复习了Pandas的使用，掌握了分块请求阶段性保存的方法，学会了把AI整合进分析工作中，写出了一套非常有效的Python数据可视化提示词，还对英语音标有了更深入的了解。收获非常大，太值了！

在此感谢：

单词数据来源：这份30多万单词的列表是我整个分析的基础。
免费词典API：提供了低成本获取这些单词音标的途径。
Gemini 1.5 Flash：帮我完成了一半左右数据准备工作和全部的数据可视化工作。
GPT-4o：帮我准确找出了重音位置的元音。

整个分析过程及相关代码，已经开源分享在Kaggle上了，看完故事如果还对代码感兴趣，请前往：

https://www.kaggle.com/code/victorcheng42/stress-distribution-of-english-words

中间过程产生的带有音标、音节数、重音位置的数据集也公开了。如有其他分析需要，可以看看能不能帮到你：

https://www.kaggle.com/datasets/victorcheng42/english-words-with-stress-position-analyzed

尖端和小费

hi@victor42.work (Victor42) — Thu, 27 Jul 2023 14:02:00 +0000

又一个关于一词多义的研究：tip这个单词，中国学生最初接触到的意思无非2个，尖端（tip of the iceberg）和小费（give a tip），两个意思天差地别。今天读到了一个词叫tipping point，临界点，忽然兴趣就来了，我倒要看看这个tip的各种意思究竟是从哪来的。

意外的是，不需要多研究，答案一查词典直接就揭晓了。剑桥词典里tip的第一个解释，是动词，移动某物使它倾斜。这个意思我以前可不知道，它正是关键线索。tipping point显然是这个意思，当一个东西失去最后的平衡，即将倒下，就越过了临界点。

用倾斜作为原始含义，来理解其他意思，忽然一切都解释得通了。

首先，倾斜衍生出了倾倒的意思，把物质从一个容器中倒到某物上。

不知道是不是这个词经常用在倒垃圾的场景，它有时也能把垃圾的含义包括进来，变成了倾倒垃圾。注意，它仍然强调倾倒的动作，如果是随手乱扔少量垃圾，可不能用tip，那是litter。

显然，只倒出少量物质，涂在物体的尖端，也符合该定义，比如给长矛淬毒。但它逐渐成为了一条独立的含义，特指把液体涂在物体尖端，有一些额外的意思固化进来了。

神奇的是，语言的发展甚至可以抛弃原始含义。往尖端倒液体的含义，作为名词，进一步被简化成了尖端，倾倒不见了。

查词源基本可以印证以上演变过程。虽然倾斜和尖端是否同源没有确凿证据，但这两个词的起源范围都限于14-15世纪的北欧日耳曼语言。而且尖端比倾斜出现大约晚一个世纪，这样的演变是很有可能的。

至于小费的含义，就有点拿不准了。虽然也可以硬拗：从钱袋里倒出少量零碎在服务员手上，但这纯粹是我的瞎猜。用来记单词是可以，不能当作史实。

词源里发现一个有趣的解释，认为Tip是一个缩写，To Insure Promptitude，大概是确保及时性的意思。18世纪中期，英格兰小酒馆里的顾客们给酒馆额外的费用，可能是催酒保上酒，后逐渐演变出表达感谢的意思。当然，这个观点也有人批评，见仁见智了。不管怎样，从这些信息来看，小费的含义有可能是独立发展出来的，与倾斜没有关系，殊途同归。

学外语学的只是两种语言的交集

hi@victor42.work (Victor42) — Tue, 17 Jan 2023 15:09:00 +0000

今天遇到一个有趣的单词：Stem。一番研究后深有感触，学一门语言说容易也容易，说难则没有尽头。我们学外语学的不是一门完整的语言，实际上只是这门语言与我们母语的交集。

先来看看这个单词在剑桥词典里的意思。作为名词，它通常指2样东西：植物的茎干枝条、高脚杯的脚。抽象归纳一下，它名词的意思指的是支撑某物的中央主干结构，其他部分在其上展开或生长。

它还有个动词意思，抽象版是阻止某些负面事物的传播和增长，具象版是阻止液体流动，比如止血。

当然，Stem还有一些其他的意思，相对不算主流，略过。

看到这里，汉语母语者又该骂街了。又来？一词多义？还八竿子打不到一块儿？

骂也骂了，还是得继续学下去。根据我以往学习的经验，英语单词出现这种令人费解的情况，单词一定没错，错的是我们。这两个看似不相干的意思，一定存在某种历史渊源，只是我们没有那个文化背景，想不到。

那就从名词出发，清空自己的汉语脑子，尝试用英语的思维来看这个词。既然你意思是支撑某物的中央主干结构，那是不是也可以用在类似地方？比如我想到了风力发电机，这结构不是很像高脚杯吗？

塔筒支撑着上方的全部结构，下面还有个底座，简直不要太像。那塔筒可以叫Stem吗？

很不幸，No。搜风机和stem出来的结果里，STEM指的是一个缩写（Science, Technology, Engineering and Math），是一种教育理念。主干的意思不能用在这里。

那退一步，回到生物界。我们从植物延伸到真菌，蘑菇的柄能不能叫Stem？

真可以！但它还有另一个叫法，Stalk，这先不管，后面再说。至少表明，英语母语者确实是这么理解Stem的，支撑某物的主干，并且这含义可以做一定程度的延伸。

那主干和动词的含义到底有什么联系呢？我不打算兜圈子，直接去词源网站查询。首先，偶然挖出了Stem的一个小众含义，船头。这个航海术语在日常生活中不常见，却是把所有意思联系起来的关键。

现在，我们来看下词源网站是怎么说的。既然你有兴趣看到这里，相信也有能力读懂下图的内容。

名词含义的来历，可以一路追溯到古日耳曼语，这一含义也进入了古萨克森语、古挪威语、丹麦语、瑞典语等。再往上追溯，在原始印欧语系里有个词根sta-，有使…保持稳定的意思，不知道现代英语的Stable是不是这么来的。后来“保持稳定”引申出支撑的含义，比如支撑植物的枝叶。而作为高脚杯的脚，则出现在1835年。

动词方面，前面提到的航海领域，正是最先使用的地方。14世纪早期，它在北欧语言中表达“抵抗、对抗”，比如对抗风浪。对船只来说，这和“保持稳定”是一个意思。到14世纪晚期，它既指船头，也指把船头朝向某个方向。虽然意思变了，但也不难理解。海上遇到风浪时，船头要与风浪成一定的角度来应对，以维持船身的稳定。

这样，“主干”与“阻止”两个含义，通过“保持稳定”就完全联系起来了。这么想来，它的动词含义并不等同于汉语里的“阻止”，它不是要主动地把负面因素彻底消灭，而是被动地要维持原状，防止负面影响扩大。再重新审视动词含义的几个例句，“限制暴力犯罪的增长”、“控制住辞职潮”、“抑制流血”（你显然不能把血管里的血流也“阻止”了）。

在汉语看来的两个概念，可能在英语使用者脑子里天然就是一个概念。你问他这个词为什么有两个意思，他可能还莫名其妙，“这明明就是一个意思啊！”因为他对此的理解，不是把这两个汉语概念合起来，而是另一个汉语里没有的概念。

到这里，我脑子里出现了这样一个画面。我们学习外语时候，会用母语的概念去套、去对应外语的概念。能对应上的，就出现在两个语言的交集部分，我们以为自己学会了。对应不上的、母语里没有的概念，就留在了外语世界，怎么也不得要领。我们用母语的思维方式学外语，最终学会的，只是两个语言的概念交集。

但如果真想把外语学到Native speaker的程度，就必须走出交集区域，真正进入外语的世界，硬着头皮去理解那些母语里没有的概念。交集部分里很多莫名其妙的“问题”，到了外语世界里，可能就不再是问题了。进入外语世界不难，但非常耗精力，且没有捷径。

回头来看前面引出的一个题外话：蘑菇的柄既可以叫Stem又可以叫Stalk，那这两个词又有什么区别？

用词典去查，这两个词的汉语翻译几乎是可以互相替换的，exchangeable。在生物学领域，两者还是有细微的区别：

但如果你深挖Stalk这个词，会发现它也是个动词，含义好像和名词又毫不相干。很可能，这后面又有和Stem一样复杂的故事。我还没研究，先不展开了，欢迎了解的朋友赐教。

Anyway，这就是学习外语的真实现状。当你试图深入外语世界时，感觉像博尔特从运动场忽然来到了海底，可能跑个1米每秒都难。

罗盘与圆规

hi@victor42.work (Victor42) — Sat, 24 Apr 2021 00:04:37 +0000

最近学到，在英文里罗盘和圆规是同一个词，Compass。不过有点细微区别，罗盘就是单数Compass，而圆规有时会用复数形式，a pair of compasses。在汉语里我们很少考虑这两者的关联，为什么到了英文里会是同一个词？这下好玩了，背后肯定有故事。

首先，这两种东西最早历史记载都在中国。早在夏朝就出现了圆规。甲骨文中的“癸”字，表示的就是圆规。规通常和矩配合使用，矩是一种带拐角的L形尺。今天的“无规矩不成方圆”，里面的规就是指圆规。

西方的早期记载中，欧几里得《几何原本》中就已经在使用尺规作图。随后产生了著名的正十七边形尺规作图问题。欧几里得生活的年代相当于战国时期，阿基米德也生活于同时期。描绘他被罗马士兵杀死的油画作品中，还有阿基米德手执圆规作图的画面。

但很难说圆规是从东方传过去的，还是两边各自独立发明的。毕竟圆和直线是几何大厦的基础，任何文明要发展几何学，都必然发明出类似器具。

至于罗盘，发明于汉代，最初用作风水占卜。直到11世纪的宋朝，罗盘才开始被广泛用于导航。随后传入西方。

题外话，为什么过了上千年，罗盘才开始用于航海？在海上辨别方向难道不重要吗？至关重要，但罗盘不好用。指南针要满足航海条件，得扛风，且排除船体倾斜晃动的干扰。只是把司南往甲板上一摆，绝对达不到你想要的效果。最初用于航海的指南针，是那种浸在液体中被密封起来的类型。

回到时间线上来，西方必然是先接触了圆规，再了解到罗盘。不过，现代德语和法语中，罗盘和圆规是完全不同的词。看来是英国人搞的鬼。

从词源来看，compass一词源自古法语。它原本意义包括圆、环绕、包围、测量、等分。尤其是这个等分，罗盘可没有等分的能力，证明compass一词最初在英语中指的一定是圆规。

罗盘进入英格兰的准确时间，没有找到相应的史料。但从罗盘作为导航工具在欧洲普及的时间来看，英格兰大约是在金雀花王朝时期接触到罗盘，12世纪到15世纪之间。这一时期也是英格兰逐渐走上自己独立发展道路、英语崛起的时期。大宪章、乔叟都是这一时期的里程碑。

罗盘为什么没有获得一个专门的名字，而是直接被类比成圆规？当然，这里开始我也只能猜测。从英语命名新事物的习惯来看，这种事他们没少干。就像一战时他们管坦克叫水箱一样。叫着叫着，两个八竿子打不到一块儿的东西，就共用一个名字了。而且新事物往往后来居上，这和compass的情况极为相似。

至于这两个哪里像了，又要回到几何学。虽然罗盘的作用是辨别方向，但这是它成为导航工具后的事情。在欧洲，它最早也是占卜用的，和中国一样。因此对于普通人而言，这个神秘玩意最显著的特征，就是旋转一圈能画出标准圆。或许这让当时的英格兰人一下子就想到了圆规。

要知道，汉语里的圆规，仅仅指这种具象的工具。而英语里的compass，还附带一堆抽象含义。我们觉得分明是两样东西，他们以这些个抽象含义作为桥梁，就能轻松对应到一块儿去。

毕竟，英语的脑洞真的和我们很不一样。

为什么英语中没有万这个单位？

hi@victor42.work (Victor42) — Sun, 19 Apr 2020 12:06:00 +0000

想到一个数字单位问题：英语中表示大数经常用千分位符，million、billion、trillion……千倍递进，而英文中没有万这个词。汉语则是以万递进的，万、亿、兆……虽然我们今天常用百万，但这是现代文明发展的结果。我们生活中处理的数字越来越大，常用单位扩大到了百万级。不过我们并没有为它发明新词，毕竟百万是组合来的，不是个固有词。

这是个有趣的现象。数字较小的情况下，为了方便生产生活，每个数位都会有一个专门的词用来表示单位：个十百千万。数字再大为什么就没有专用词了呢？显然是用不着，何必去发明它？尤其是古代民间的日常生活，几乎不会出现那么大的数。

但是对于统治者，要处理的数就特别大。如果每一位都发明专用的词，创造的概念过多，不利于记忆和沟通。最直接的解决办法，就是以日常单位中最大的一个，作为最小单位递进。既不产生新概念，也不会给大数的表达和比较带来过多麻烦。因为相同数量级比较，单位不重要。不同数量级之间比较，悬殊大的差别直接体现在单位上，悬殊小的也在日常可以理解的数量级范围内。

由此可见，古代汉语世界和英语世界，日常生活中的数字有数量级的差别。一定会体现在地理尺度、城镇人口、农业产量上。这当然是家喻户晓的事实，但同时也可能是导致今天东西方数字单位不同的主要原因。

文字聊天的体验

hi@victor42.work (Victor42) — Sun, 11 Dec 2016 01:20:29 +0000

图片来自Dribbble。

文章标题可能有点误导，这里不是要讨论IM产品的体验设计，而是聊天内容本身的阅读体验。

数字的强迫症

前几天，主管问我要手机号和身份证号，用于制作工作相关的证件。由于是钉钉上沟通的，很简单一件小事，我回了个OK，然后顺手发过去了：

××（我的姓名）手机号：186×××××××× 身份证：360103××××××××××××

我盯着发出去的消息，细想觉得有点问题，可以优化一下，于是我又发了一遍：

××（我的姓名）手机号：186 ×××× ×××× 身份证：360 103 ×××× ×××× ××××

我说这样便于阅读。主管说小伙子不错啊，强迫症又犯了。然后我回了一句略微有点装X的话：“用户体验无处不在。”并且配上一个咧嘴笑的表情。

事情到此告一段落。不过既然硬要把这件事情扯上用户体验，那就不妨深入思考一下吧。仔细一想，发现这真的不是没事找事。而且，我发出去的消息，其实也不算是一件合格的设计产物。

把回复消息的形式当成一项设计课题，既然是设计，绝对离不开用户场景和目标。场景很明显，对方在手机版钉钉上查看这条消息。但目标是什么呢？其实我之前并没有问清楚。要我的手机号和身份证用来制作证件，但肯定不是我主管本人制作，她要把这些信息再传递给制证者。通过什么方式传递出去？用纸笔填写还是手机转发？这可有天壤之别！

纸笔填写

如果用纸笔填写，鉴于任务比较简单，制证者不太可能用上什么逆天的高科技手段来收集信息。所以，一定会经过最原始的“阅读——记忆——书写”过程，才能完成信息的转移。书写的环节我无法掌控，但阅读和记忆就取决于我发过去的内容形式了。

有研究表明，人类短时间内能够记住的连续信息长度，极限是7个字符，超过就必须分段记忆了。我们能记住五言诗、七言诗，历史上也出现过九言诗，但生命力就弱得多。屈原的《离骚》算是一个特例，其中有不少诗句超出了7个字，但考虑到“兮”字作为语气词存在，有实际含义的内容仍然多数控制在7字以内，所以我们能从中感受到强烈的诗句韵律。

但7毕竟是个极限，能记住，却不容易。想一想我们平时收到的各种短信验证码，最多的是4字和6字两种。4字验证码我们能一气呵成记下，6字验证码我们通常会分成3+3两段来念。这也证明，我们能轻松记住的信息长度，一定少于6个字符。中国的11位手机号基本都按3+4+4的方式阅读，这已经被广泛接受。我们和朋友确认联系方式时，会说“没错，就打我那个186的号码”。网络上给手机号做隐私处理，会把中间的4位变成星号；报手机尾号，也通常是取后4位，可见这种划分根深蒂固。至于身份证号的划分，生活中见得倒是不多，毕竟它的出处——身份证上都是挤作一团的。但它天然带有特定含义，要给它划分非常简单，也容易得到大家认同：6（省市区）+4（年）+4（月与日）+4（尾号），相信绝大多数人都会这样记忆自己的身份证号。

这里还可以再插一个题外话，能够轻松记忆的信息长度，最长到底是4还是5呢？我认为是4，虽然没有找到直接证据，但上面这些现象已经能间接佐证了。如果手机号和身份证号还不够，我们可以再加个银行卡号。各家银行卡的卡号位数可不一样，但它们如果有意划分，一组最长必定不会超过4个数字。

长串数字，发出去是什么格式，对方就会按什么格式来阅读和记忆。这不仅仅是机器应该给予我们的方便，我们每个人也同样应该给予他人方便。

手机转发

回到正题，如果我的手机号和身份证号是要通过手机转发出去，并且复制填入某个后台中，那情况就完全不同了。

我无法确定录入信息的后台能不能排除空格，如果把便于阅读的格式粘贴过去，很可能最终记录下的手机号是“186 ×××× ××”。而且我主管用的是Android手机，无法安装Pin这样的剪贴板工具。把数字从整条信息中提取出来，是一件非常棘手的事。

在手机IM中，往往只能整段复制。

所以，如果要通过IM复制到别处，最佳的信息格式应该是这样：

姓名：

××

手机号：

186××××××××

身份证：

360103××××××××××××

这让我想起自己的微信公众号。由于我只在那边发文章，基本没空回复或互动，所以设置了一条自动回复，引导读者通过微博联系我。

很长一段时间，我都直接把微博昵称写在自动回复里：“我除了发文章之外，不会经常打开公众号。有需要联系的朋友，请新浪微博私信我@我_ColaChan。”

直到有一次，我尝试给自己发信息。得到了这样的回复之后，我发现要去微博里找到自己并不容易，很难从中单独复制出微博昵称。于是做了一些改动：“我除了发文章之外，不会经常打开公众号。有需要联系的朋友，请新浪微博私信我，回复‘微博’获取新浪微博昵称。”回复微博两字之后，会再收到一条消息，内容只有“@我_ColaChan”。

虽然增加了一步，反倒是方便了信息的提取。

消灭错字

既然要说文字聊天，那当然不仅限于数字和ID，篇幅最多的日常对话才是核心。日常沟通的体验，又如何界定这个“好”与“坏”？

中学的时候，大家都没有手机，用电脑聊QQ是同学死党间最主要的在线交流方式。我记得那时候有同学说，和我聊QQ感觉很安心。我问为什么，她说我从不打错别字。

嗯……现在回忆起这件事，确实有一定道理。如今生活与工作节奏远比学生时代快，加上输入法的候选词动态排序，日常沟通中难免打错字。但关键在于对待错别字的态度。我在发送消息之前，往往会自己看一遍，发现错字一定改正。

我知道许多人用微信、用QQ发消息时，是从不检查的。输完不检查，输入的过程中也不检查，噼里啪啦一通打完就发出去了。即使输入过程中发现打错，也懒得改正，指望对方通过上下文领会他的意思。于是你会收到“恩爱”、“不会你哦”这样的奇怪词语。如果关键词语打错，就要很费劲猜测他的意思，甚至要做一些同音词联想和键位联想。我联系过的许多印刷厂老板，还有部分合作过的开发同学，阅读他们的消息极其费劲。当然，忙起来确实没空检查，可以理解。不过至少可以肯定，没有错别字的文字聊天，是一种人人渴望的好体验。

语言是严肃的

我收到过这样的消息，一串连珠炮轰过来：

在

UI需要手绘?

不会手绘不行吗

投简历没有回应是不是经验不够

ui规范有那些啊 ios andriod都要看啊

在吗在吗、

没有作品怎么办啊？

不过以上内容并非原话，我只是凭记忆把它还原出来，但是很有代表性。不用标点、错用标点、空格代替标点、不删除多余的空格、中英文标点错用、固有名词写错、“那”和“哪”乱用、不按话题归类分段……日常沟通中的毛病基本都集齐了，可以召唤神龙了。

语言的存在，一大作用就是让人们相互传递信息，它是人类对一切概念表述所达成的共识。如果不遵循语言的规范，就相当于脱离或者至少偏离了人类赖以沟通的渠道。这不是小事。在我看来，即使是日常文字沟通，都非常有必要区分“的地得”，有太多类似细节被忽视。不是为了维护语言的纯正性，这方面我不关心。但为了对方有更顺畅的阅读体验，规范的语言一定更有帮助。

写新闻稿的心态

说出去的话就像是发出去的新闻稿。除非是与最好的朋友放飞脑洞、海阔天空扯淡，否则谈话必定有个主题。

还是上面那一段信息，除了不严谨之外，话题散乱更是致命伤。面对这样自言自语般的问题，要从何答起呢？如果想表达自己的困惑，希望得到对方的帮助，以此为主题写一封求助信。那上面这段连提纲都算不上。

易于阅读和理解的消息，是有特定结构的。先用一句话讲清楚在讨论的是一件什么事情，然后展开说细节，讲完一个再讲下一个。如果是告知对方信息，要清晰表明关键要素。如果需要对方做什么，至少说明原因，并最好提供可行方案。如果是反映问题，也要提供足够对方排查问题的线索。

所有问我电脑问题的朋友和亲戚，几乎都是这么一句：“帮我看看电脑吧，好像出问题了。”然后就没了，就等着我提问了。我多希望哪怕有一个人，问我电脑问题的时候，能主动告诉我出问题时显示了什么，以前有没有出过这个问题，上一次和第一次出问题是什么时候，出问题之前做过什么，之后又做过什么，尝试过哪些解决方法，有没有效果，引发了哪些变化。

试想有个人家里遭贼了，贵重物品被洗劫一空。警察赶到时，问他任何问题，他只会回答：“我家都遭贼了，赶紧帮我抓到小偷啊，不然日子都没法过了！”显然，这案子是破不了的。

只要交谈有主题有目的，就必须追求高效。十分钟能说清楚的事情，由于糟糕的交流体验，也可能要说上一个小时。浪费别人的时间是一种罪过。

现代大字报

我们国家一大特色：标语横幅大字报。城市抓环境治理，挂一条横幅：“举各方之力，谋治水之略，建和谐之城，兴水乡之貌，树世代之功”。建筑工地搞安全生产，挂一条横幅：“安全创造幸福，疏忽带来痛苦。安全就是效益，安全就是幸福”。医院要提升业务品质，挂一条横幅：“创建平安医院，构建和谐医患关系”。

我们这里不去讨论这些标语本身存在的意义。至少有一点，决定挂这些标语的人，并没有弄清楚受众是谁，要以什么样的口吻来写。我路过部队军管区看到的一则标语就很不错：“听党指挥，能打胜仗，作风优良”，这是一句有主次关系层层递进的标语，深究细想，逻辑其实非常严密。关键，它直白易懂，没有模糊不清的概念。

新闻与官媒采用模糊的口吻来表达，是为了给任何事情留有余地，同时尽可能包容，保证内容中提及的各种概念定义正确。但不要觉得这些离我们日常生活很远。我们工作中的沟通，是不是也碰到过一些人，文风很官方，或者很卖弄？想一想你看到过多少这样的引导页：一张不明所以的插画，购物车、购物袋、钱袋满天飞，上面写着一行字，“海量优惠享不停”。

有一则广告我印象很深，品牌没记住，但记住了一个场景。广告片要表现出酱油制作工艺的传统和纯天然，代言人站在高台上，面对镜头，伸手指向身后的加工基地，黄豆在一大片空地上铺开晾晒。他用一种不带任何技巧雕琢的语调说：“就在这晒，就靠太阳晒。”若是换了一些不说人话的创意公司，写出来的台词很可能会变成：“XX公顷黄豆加工基地，天然晾晒风干工艺。”这样的阅读体验是非常无感的。定义再正确，描述再精准，概念再华丽，就是没有画面感。

可以在此感受一下这则广告的直白和平实：http://t.cn/RcxcZ3I。

说到这里，我想起和同学一起调侃过的一个段子：

“滚滚长江东逝水……”

“说人话！”

“大河向东流哇！”

话题守护者

工作之后，第二次有人评价我的聊天风格，说我“用绳命在聊天”。我追问下去，对方说和别人聊天都是你一言我一语。唯独和我聊天，会看到我一直保持正在输入的状态，长的能持续十几分钟。倒杯水回来，发现我轰隆隆发来一通长篇大论，分成好几大段，逐个回应之前瞎扯歪楼产生的各种分支话题。

噢，原来我还有这样的习惯！不放走任何一个话题，拒绝不了了之，必须得出结论。其实可以想象，如果纯粹是闲聊找话题，和我这种人聊天应该会蛮累的。说实话我并不想这样，我内心深处向往一次只说一件事。但既然楼已经歪了，虽然不是我造成的，我还是会本能地尽力支撑住它。这样聊天，如果对方感到舒畅，我感觉其实是很累的。

长篇大论这个习惯，有好处也有坏处。坏处当然是要让人等，不能及时得到回应。但好处是可以避免节外生枝。假如回复到一半，其中的某些信息让对方想起另一件事，在你余下内容到来之前，对方的思绪就已经飘走了。他就可能会开始插话，从而产生更多的分支话题，这情况太常见了。

这一点让我非常纠结。之前说过，浪费别人时间是一种罪过，那么就不该让人等这么久咯？但如果不加以控制，任由话题爆炸，被遗漏的话题碎片，在将来的某个时候或许还要旧事重提，同样是在浪费时间。文字聊天，如果为对方的体验着想，当然要选择一种花费时间较少的方式。任由话题爆炸，怎么看都有点因小失大。

哦，呵呵，[呲牙]

文字聊天最讨厌这几个回复了，堪称话题终结者。为什么呢？内容短、没有实际意义，这没错。但根源在于它不能反映对方的状态。虽然回复了，但不予置评，效果和没有回复一样。你仍然不能确定对方是否理解了你发送的内容，他完全可以心不在焉地打出以上回复。

这就好像你发一封邮件出去，当你按下发送按钮，没有菊花转，没有toast，界面仍然停留在写邮件窗口，里面仍然显示着你的邮件内容。然后你把写邮件的窗口关了，发现已发送里并没有这封邮件，发件箱也没有，草稿箱、收件箱、垃圾箱、广告邮件里都没有。WTF……

看似荒唐，但这样的对话在现实中绝对不少。Android开发同学问我要一张切图，我问他打算如何实现，是切成固定尺寸还是.9图。他回了我一个“可以”。我假设他一句话没打完，不小心按到回车，先把这两个字发出来了（这种事情每个人都干过，应该谅解）。但我等了半分钟，根本连“正在输入”的状态都没有。话题终结了，并且没有得出任何确切结论，只能开启新一轮追问。

其实再也没有谁比技术同学更了解反馈的重要性了。比如TCP/IP服务器请求的过程，需要“三次握手”：首先客户端发送信息给服务器，服务器知道有东西要接入了。然后服务器把收到的信息再发回去，说这是你发过来的东西没错吧？是你要接进来吧？最后，客户端把收到的信息与自己之前发出去的信息一对比，正确无误，再发信息给服务器，说没错就是我，我们接通电话吧。

我们人类对于上下文的理解能力很强，相比之下机器则笨拙地多。但无论上下文多详细，明确的反馈一定要有。再小的事，起码都应该回复一个“好的”或者“收到”。如果有选择，至少复述一遍所选的选项。

总结

回忆一下形形色色在IM上打过交道的人，有很明显的落差。有的人沟通起来感觉很顺畅，有些人简直恨不得要一通电话轰过去。同样一件事情，文字表述的品质不同，接收者的体验大相径庭。

体验设计这个学科，说它无处不在一点也不过分，非常接地气。假如抛开各种方法论，剩下的其实就只有一句话：替别人着想。