Pinyin-Like English Words

我最近创建了一个 repo ，把所有长得像拼音的英文单词给列了出来。这篇博客会用中文大致介绍下，并且放一些有那么一点点意思的结果。

啊？什么东西？

所谓“长得像拼音的英文单词”，就是可以被分割成若干个拼音音节的英文单词，比如：

需要注意的是虽然是说长得像“拼音”，但是分割结果是“拼音音节”。换句话说，这里不考虑声调。

搜索的算法确实简单，最基本的动态规划就大概可以在3秒找出所有目标单词，所以也没什么提升的必要。

但数据来源的搜集真的很麻烦。主要问题是版本实在太多了，我花了很多时间去对比，最后才确定下来最终使用的版本。英文单词的来源是在GitHub上的 english-words ，而拼音音节的来源是 ISO 7098:2015 的附录A。

如果你像我之前一样感到疑惑：英文单词就算了，拼音音节还能有什么争议？那么我来随手推荐几个例子：nun、biang、fiao。类似的稀有音节在不同的列表中有着很大的出入，所以虽然大家都有400多个音节，但又有微妙的差异。总之最后我用的是ISO版本的，至少它有一定的权威性。

humuhumunukunukuapuaa

首先扩充一下我在 repo 中提到的两条：

在所有长得像拼音的英文单词中，最长的词是 humuhumunukunukuapuaa
- 这个词据说是最长的鱼名，但我没仔细考证
- 这个鱼是夏威夷的州鱼，算是小有名气（也因为它超有趣的名字）
- 它的中文名叫斜带吻棘鲀，也可以叫“胡姆胡姆努库努库阿普阿阿”鱼——没错，就是按照拼音读出来！
- 据我观察，能直接按照拼音读出来的词其实还挺少见的
大约有 3% (12209/370103) 的单词长得像拼音
- 这个比例其实比我预想的要高
- 在常用词中，这个比例甚至会进一步上升

再另外写几条：

如果采用 10k 或者 20k 的常用词，最长的单词是 humanitarian ，占比大约是5~6%。
有接近一半的词需要用到 a/e/o 开头的音节（零声母音节，但没算 w/y 开头的那些），因为这些音节真的很适合穿插在英文单词中作为衔接
那些比较长的词大多是稀奇古怪的生物术语、化学术语，或者由一个基本词加一堆前缀和后缀构成的词
- 生物的几个例子：humuhumunukunukuapuaa, acinacifoliate, chenopodiaceae
- 化学的几个例子：aminoacetanilide, aluminosilicate, manganotantalite
- 前缀后缀的几个例子：denominationalize, desentimentalize, semidependence

好吧，可能确实没什么意思。但是至少我认识了“胡姆胡姆努库努库阿普阿阿”鱼，希望看到这里的你也能喜欢它！