Pinyin-Like English Words

 

我最近创建了一个 repo ,把所有长得像拼音的英文单词给列了出来。这篇博客会用中文大致介绍下,并且放一些有那么一点点意思的结果。

啊?什么东西?

所谓“长得像拼音的英文单词”,就是可以被分割成若干个拼音音节的英文单词,比如:

  • cache 可以被分割成 ca che
  • siren 可以被分割成 si ren
  • pinyin 可以被分割成 pin yin
  • Chihuahua 可以被分割成 chi hua hua

需要注意的是虽然是说长得像“拼音”,但是分割结果是“拼音音节”。换句话说,这里不考虑声调。

啊?这还不简单?

搜索的算法确实简单,最基本的动态规划就大概可以在3秒找出所有目标单词,所以也没什么提升的必要。

但数据来源的搜集真的很麻烦。主要问题是版本实在太多了,我花了很多时间去对比,最后才确定下来最终使用的版本。英文单词的来源是在GitHub上的 english-words ,而拼音音节的来源是 ISO 7098:2015 的附录A。

如果你像我之前一样感到疑惑:英文单词就算了,拼音音节还能有什么争议?那么我来随手推荐几个例子:nun、biang、fiao。类似的稀有音节在不同的列表中有着很大的出入,所以虽然大家都有400多个音节,但又有微妙的差异。总之最后我用的是ISO版本的,至少它有一定的权威性。

啊?这有什么意思?

humuhumunukunukuapuaa

图片来源

首先扩充一下我在 repo 中提到的两条:

  • 在所有长得像拼音的英文单词中,最长的词是 humuhumunukunukuapuaa
    • 这个词据说是最长的鱼名,但我没仔细考证
    • 这个鱼是夏威夷的州鱼,算是小有名气(也因为它超有趣的名字)
    • 它的中文名叫斜带吻棘鲀,也可以叫“胡姆胡姆努库努库阿普阿阿”鱼——没错,就是按照拼音读出来!
    • 据我观察,能直接按照拼音读出来的词其实还挺少见的
  • 大约有 3% (12209/370103) 的单词长得像拼音
    • 这个比例其实比我预想的要高
    • 常用词中,这个比例甚至会进一步上升

再另外写几条:

  • 如果采用 10k 或者 20k 的常用词,最长的单词是 humanitarian ,占比大约是5~6%。
  • 有接近一半的词需要用到 a/e/o 开头的音节(零声母音节,但没算 w/y 开头的那些),因为这些音节真的很适合穿插在英文单词中作为衔接
  • 那些比较长的词大多是稀奇古怪的生物术语、化学术语,或者由一个基本词加一堆前缀和后缀构成的词
    • 生物的几个例子:humuhumunukunukuapuaa, acinacifoliate, chenopodiaceae
    • 化学的几个例子:aminoacetanilide, aluminosilicate, manganotantalite
    • 前缀后缀的几个例子:denominationalize, desentimentalize, semidependence

好吧,可能确实没什么意思。但是至少我认识了“胡姆胡姆努库努库阿普阿阿”鱼,希望看到这里的你也能喜欢它!