01 文字和语言 vs 数字和信息
语言
图 1 语言的产生的编码解码过程1
最初的原始人通过特定的声音表达一些信息的方式跟我们现在信息编码到信息解码的过程也很类似。但随着文明的进步。需要表达的信息依靠特定的声音例如”咿咿呀呀“难以覆盖,随后语言就此产生。
文字
随着语言越来越丰富,其中共同的元素,比如物体、数量等被抽象出来成为词汇。随着语言与词汇越来越多,则需要高效记录信息,就此产生文字。
中国(目前发现的,后都指代目前发现的)的最早文字是甲骨文,即大辛庄甲骨文距今3200年。古埃及发明了象形文字,其中比较著名的是”亚尼的死者之书“。
随着文字的增多,对文字进行聚类的思维方式产生。聚类会带来歧义,过去和今天的人们解决歧义大多数情况下还是使用的是结合上下文进行多义字的去除歧义。
不同的文明,因为相互隔绝的原因,产生不同的文字。翻译之所以有效,因为文字只是信息的载体。罗赛塔石碑上有埃及象形文字、埃及的拼音文字和古希腊文。双语或者多语的对照语料对翻译来说至关重要。同时,信息的冗余是信息安全的保障,同一内容保存三次,只要有一份完整保留,原始信息就不会丢失,对信道编码有指导意义。
数字
现在的十进制主要是因为我们有十个手指头,玛雅人是二十进制,因为他们把脚趾头也算上了。古印度人发明了10个阿拉伯数字,标志着数字和文字的分离。
文字和语言背后的故事
古巴比伦人发明了楔(xie)形文字——一种最古老的拼音文字,带到古希腊,古希腊文字母的拼写和读音紧密结合,容易学习,伴随着马其顿人和罗马人的扩张,随后成为了欧亚非大陆语言体系的主体。因此,所有西方的拼音文字称为罗马式的语言(Roman Languages)。2
象形文字到拼音文字的一个飞跃:对于常用字短,生僻字长,完全符合信息论中的最短编码原理。2
古时候的古文(书面文字)比较复杂,是因为刻一个字的时间很长,惜墨如金;同时期的口语和今天的白话差别不大。就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。
犹太人在抄写《圣经》时,由字母对应数字,每一行每一列设置一个校验码用来校对。用来减少抄写的错误。
参考资料: