首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这个公式可以解释,汉语为什么是世界上效率最高的语言

就是它,香农公式。

其中p(x)是自变量x在某个系统中出现的概率。

比如,一篇文章3000字,一个字出现了5次,那么这个字出现的频率就是5÷3000.

那还有别的字呀,你、我、他、的、得、地……把这些字出现的频率全都统计出来,然后加和,就能算出这个系统的信息熵。

01

信息熵的计算

如果系统只有一个符号,比如,一张纸上写了一个“我”。

那么它出现的概率是100%,后面的对数是0.

整体结果就是0.

信息熵就是0.

也就意味着这个系统啥信息也不能传递。

有2个符号就不一样了。

假设这两个符号出现的频率都是50%,结算结果就是:

系统的信息熵是1,我们可以说成每个符号可以传递1bit的信息。

到这里,你已经看出来了,影响一个系统信息熵的因素有2个:

符号的多少,还有符号出现的频率。

02

中文

中文的信息量是很大的,也就是说每个中文符号传递出的信息多。

2019年的时候,一个数学博主做过统计,单个汉字的信息熵是9.5,单个英文字母的信息熵为3.9.

可见中文的效率很高。

这是因为中文使用的字符多、每个字符之间的关联度不大。

先说字符多。

现在假设每个符号出现的频率相同,都是n分之一,但是这个系统的符号不固定,一共有n个。

n越大,对数的值也就越大,那么信息熵也越大,也就意味着单个符号传递的信息越多。

现在看我们的汉字。

汉字有很多个,等于我们创造的符号本身就多,我们是用这些“符号”拼到一起表达意思的。

等于说,我们的积木块很多,我们搭建的时候用到的也多。

而英语就26个字母,它们的符号本身就不多,变化也赶不上中文。

再说字符关联度不大。

我们的中文,在一篇文章中省掉一些词一些字,意思就不一样了。

因为每个字都很关键,字与字之间的关联小,关联小就说明每个字出现的频率是很均匀的。

而英语很多组合是在一起的,丢一些也不影响理解。

经常读英文文章的人会知道,一些单词拼写错误,不影响整体意思。

那么英文的字母频率就不均匀。

不均匀,带入公式就会发现,信息熵小。

均匀,信息熵大。

整体来说,中文用到的字符多,字符之间关联不大,所以信息量大。

完全符合香农公式。

你看,数学上做出了很好的解释。

还是那句话:

数学允许发生就一定会发生,只是你还没发现。

数学不允许一件事情发生,它就一定不会发生。

中文为啥效率高?数学说的。

03

周边

同样一本书,翻译成中文,往往是最薄的——承载的信息量大,不需要那么多字。

我没有英文版的《哈利波特》,但是我找了魔法石的两个电子版来对比。

英文版300多页,中文版200多页,还没有考虑排版,排版稀疏也会影响页码。

先别骄傲,如果换成语音,我们的中文就不占优势了。

因为我们的音调没有那么多,我们是表意文字,不是表音文字,一个音可以有很多个字。

gou(够,狗,购,沟,勾……)

所以,如果我们说话重音不分,就会让“字符”减少,等于用音压缩了好多个字。

所以,说的话,会损失许多信息量。

这就是为什么我们中文必须配字幕,配上字幕理解起来刚刚好。

而英语配字幕,那么一大串字,大脑还没读完呢,就翻页了,反而造成焦虑。他们听音就够了。

好了,今天的分享就到这里吧。

下次再见。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OV0XZwKJDFsNM9F1HJuByMzA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券