信息论在探索地球文明信号中的应用

如果您正在寻找来自外来文明的信号,那么为什么不首先尝试一些不属于我们地球上人类的信息传输系统呢? 有了鲸鱼,全球通信系统已经存在了数百万年,比人类普遍存在的时间更长。 蜜蜂通过跳舞相互交流,在人们提出民主政治制度之前,就数百万年的最佳挖掘地点进行了一次民主辩论。 完整的其他示例。 此后,我的任何熟人都没有研究过其他动物的交流系统,因此得出的结论是该物种比他想象的要笨。
通过研究动物的交流方式,我和我的同事们开发了一种新型的检测器,即一种“交流智能”滤波器,用于确定来自太空的信号是否属于技术先进的文明。 SETI项目中的大多数先前尝试都是在窄频率范围或快速闪烁的光信号中寻找广播。 从我们在天体物理学领域的知识来看,这种信号显然是人工的,它们的发现意味着存在能够在星际距离传输信号的技术。 SETI通常会消除宽带无线电信号和缓慢的光脉冲,其起源并不那么明显。 尽管这些信号很可能是由聪明的生物发出的,但它们可能来自自然的无线电波源,例如星际气体云,而我们仍然没有一个很好的方法来区分它们。

简而言之,我们可能已经收到了来自聪明生物的消息,而忽略了它,因为它不符合我们对这种信号的外观的期望。 这可能是超过50年的搜寻未发现任何星际通讯的原因。
在过去的十五年中,我和我的同事提出了一种更好的方法。 我们将
信息论应用于人与动物的通信系统,现在我们可以肯定地说,在某些情况下,某些生物彼此之间传递着复杂的思想,甚至都不知道他们在说什么。 我们使用“通信系统”一词是为了不提前确定其他物种是否具有人类所认为的语言。 复杂的通信遵循语法的一般规则,从中可以得出所谓的“合理内容”。 如果我们有足够多的信息,则可以评估复杂程度或规则的结构。 在信息论的数学中,这种结构称为“
条件信息熵 ”,它由诸如字母和
音素之类的通信基本单元之间的数学联系组成。 在日常演讲中,我们认为语法就是这样一种结构,并且从更基本的层面上来说,就是声音中的单词和句子的汇编。 在加利福尼亚山景城的SETI研究所中,我们第一次开始在SETI收集的数据中寻找这种结构。
我的同事Brenda McCowan和加利福尼亚大学戴维斯分校的Sean Hanser决定,我决定研究社会复杂且高度依赖声学交流的生物,并使用可以分类的声音信号。 因此,我们的前三个对象是宽吻
海豚 (Tursiops truncatus),
普通松鼠猴 (Saimiri sciureus)和座
头鲸 (Megaptera novaeangliae)。
人类语言学的一个方面,表现在对单词,字母和音素的早期研究中,被称为
齐普夫定律 ,以哈佛语言学家
乔治·齐普夫命名。 在英文文本中,字母“ e”大于字母“ t”,字母“ t”大于字母“ a”,依此类推,直到最常用的“ q”。 如果您以递减的频率构建从“ e”到“ q”的字母列表,并将其使用频率建立在对数图上,那么这些值将落在倾斜45度的直线上,即倾斜度为-1的直线上[简单地说,第n个字母的使用频率与其序列号n /约成反比。 翻译]。 如果对由汉字组成的文本执行相同的操作,则会得到相同的偏见。 对于日语,德语,北印度语和其他几十种语言的对话中的字母,单词或音素也是如此。 ba不遵守ba夫定律。 它的偏差小于-1,因为它几乎是偶然地发出声音。 但是当您学习语言时,偏差会逐渐增加,并在24个月大时达到-1。
数学语言学家声称,此偏差-1表示声音或书写符号序列包含足以构成该语言的复杂性。 这是必要但不充分的条件-也就是说,这是对复杂性的首次测试,但不能证明其存在。 齐普夫本人认为,-1偏差的原因在于妥协,他称之为“最少努力的原则”。 这就是试图使用较少能量来发送信号的发送方与想要获得更多冗余以确保接收到整个消息的接收方之间的平衡。
应用信息论的主要内容是信号单元的隔离。 例如,如果我们在图表上绘制摩尔斯电码的所有点和破折号,则得到的Zipf斜率约为0.2。 但是,如果我们将点和破折号的顺序(点,点,破折号,破折号,点和破折号以及较长的变化形式)作为基本单位,则偏差将变为-1,反映了该系统中字母的编码方式。 这样,借助逆向工程,可以识别原始的意义单位。
大多数语言学家建议齐普夫定律仅代表人类语言。 我们很高兴通过在图表上绘制成年宽吻海豚发出的啸声的频率来发现它们也遵守Zipf的定律! 后来,当两只小宽吻海豚在加利福尼亚的海洋世界中出生时,我们记录了他们的婴儿吹口哨,发现对于他们来说Zipf斜率与人类婴儿的杂音相对应。 事实证明,海豚婴儿喃喃自语,吹口哨,学习交流系统的方式与人类婴儿学习语言的方式几乎相同。 海豚在12个月大时,哨子中声音的分布频率达到-1的斜率。
尽管我们尚未解释海豚所说的话,但我们发现它们与鲸鱼的通讯系统内部复杂性接近人类语言。 这种复杂性使通信容错。 尽管周围的噪音,障碍物和其他干扰信号传播的现象,任何交换信息的生物都应该能够做到这一点。 人类语言的结构旨在提供冗余。 从根本上讲,此结构确定给定字母的可能性。 如果我告诉您这个单词的含义,您可能会猜到该单词的首字母为“ t”,因为这是英语单词中最受欢迎的首字母。 您的预感将是最有可能的,但会提供更多信息。 可以说您选择了最简单的选项。 如果您停在字母“ q”上并猜到了,如果它真的以“ q”开头,那么您会收到一些有关我构想的单词的更准确的信息。
让我们继续前进。 如果我说我正在考虑单词中的第二个字母(第一个字母是“ q”),那么您会立即猜到该字母是“ u”。 怎么了 因为您(英语阅读者)知道这两个字母在英语中的出现几率几乎为100%。 为了猜测丢失的信息,您不仅使用了出现字母的概率,还使用了与这两个字母相关的条件概率-如果已知单词“ q”已经存在,则该单词包含字母“ u”的概率。 当需要纠正信息传输中的错误时,我们的大脑会使用条件概率。这些错误包括:墨盒用完了的打印输出上的模糊文本,或者是嘈杂的电话中可分辨的单词。

用英语,可以连续指定最多9个单词的条件概率。 如果缺少一个单词,您可以猜测它是哪种单词。 如果您连续错过两个单词,仍然可以从上下文中恢复它们。 一个不带任何单词的句子的简短示例:“您___今天的感觉如何?”。 很容易猜到你失踪了。 现在考虑一个不包含两个词的句子:“今天你自己怎么______? 可能会有:“今天的无辜者感觉如何?” 可能还有其他选择。 显然,缺少的单词越多,从上下文中理解它们的难度就越大,其条件概率也就越小。 对于大多数人类书面语言而言,当连续丢失大约九个单词时,条件概率就会消失。 如果缺少10个单词,您将不知道这些单词可能是什么。 用信息论的语言来说,这意味着人类单词的熵达到了九阶。
我们在动物交流系统中发现了类似的条件概率。 例如,我们录制了阿拉斯加东南部与阿拉斯加鲸鱼基金会的弗雷德·夏普(Fred Sharp)交谈的座头鲸的声音。 座头鲸以其歌曲而闻名,通常会在他们接近夏威夷繁殖时录制下来。 在阿拉斯加,它们的声音非常不同:用于在网上驱赶鱼的声音包括of声和社交尖叫声,而不是歌曲。 我们在船上有无声音的情况下都记录了这些发声。 我们计算了海洋在多大程度上像电话线上的静电一样起作用。 然后,我们使用信息论来量化鲸鱼减慢其发声的速度,以便接收没有错误的消息。
正如预期的那样,在船上有噪音的情况下,鲸鱼降低了发声的速度,就像一个人在有噪音的情况下降低了电话通话的速度一样。 但是,它们只降低了理论上应该达到的数量的3/5,以确保消息的传输而不会产生误解。 当显然需要更多的环境噪声时,他们如何设法使这种轻微的变慢? 我们考虑了一段时间,然后意识到他们的通信系统中的规则结构可能使得信号的其余五分之二可以恢复。 座头鲸使用其声音单词对应物的条件概率。 他们不需要接收整个消息就可以填补空白。

我们在海豚的交流中发现了内部结构。 所不同的是,海豚有大约50个主要信号,而座头鲸则有数百个。 现在,我们正在收集信息,以确定座头鲸通信系统中最大的熵是多少。
为了测试将天体物理学与合理信号分离的可能性,我们继续介绍射电天文学的例子。 当1967年天文学家Jocelyn Bell Burnel和Anthony Hewish发现星脉冲星时,他们被昵称为“ MZCH”,即“小绿人” [LGM]。 由于这些无线电源的周期性很明显,一些科学家已经开始推测它们可能是先进的外星文明的信标。 在澳大利亚国家射电天文学协会的西蒙·约翰斯顿的帮助下,我们分析了
帆中的
脉冲星脉冲
,并获得了-0.3的Zipf斜率。 这与任何已知语言都不匹配。 另外,我们在脉冲星信号中几乎没有发现条件概率结构。 实际上,今天已经知道脉冲星是超新星的自然残留物。 事实证明,信息论可以轻松地区分虚构的智能信号和自然源。
现在,我们正在分析从SETI研究所的艾伦天线阵列(由42台望远镜组成)获得的微波数据,其范围为1至10 GHz。 除了通常的窄带无线电波搜索方案外,我们还开始应用信息论中的措施。 例如,如果我们发现信号遵循齐普夫定律,这将激励我们继续努力,并在信号中寻找句法结构,以试图确定潜在信息的复杂性。
为了传播知识,即使是非常先进的地球外文明也需要遵守信息论的规则。 即使由于缺乏通用符号而无法破译此类消息(座头鲸也遇到同样的问题),我们仍可以对它们的通信系统以及思考过程的复杂性有所了解。 例如,如果在SETI中找到的信号的条件概率为20阶,则这不仅意味着信号的人为特性,而且还意味着与任何陆地语言相比,语言的巨大复杂性。 我们将以量化的方式衡量将信息传递给外星生命的思维过程的复杂性。
劳伦斯·道尔(Lawrence Doyle)是原理学院个人物理学的形而上学研究所所长。 伊利诺伊州,SETI量子天体物理学小组的组织者。 他是NASA开普勒任务的成员,并带领该小组发现了第一个具有多轨道的行星(绰号为Tatooine)。