目前人工智能的主要进展是依赖标注数据。但我们都知道,大脑90%都是自监督学习的,生物会不断对下一步发生的事情(周围物体的位置变化、句子的下一个单词……)做出预测。只有少数情况我们会接受外部反馈,比如同事老师说:“你搞错了”。
Quanta Magazine刚刚发表的文章“Self-Taught AI Shows Similarities to How the Brain Works”(作者是 Anil Ananthaswamy )介绍了自监督学习方面的一些进展,包括语言大模型似乎能学习到语言的语法结构,视觉领域何恺明2021年的MAE在遮挡了很大部分的情况下仍然展现了很强的重建能力。加州大学伯克利分校的Alexei Efros教授评价,“(MAE)系统创建的潜在表示似乎包含了比以前的策略更深的信息。”
文中更值得关注的是,学者们发现,自监督学习与大脑的机制有相似性。
其中,McGill大学Blake Richards领导的Mila LiNC组论文做了一个有趣的研究:
Richards团队创建了一个自我监督模型来暗示答案。他们训练了一个结合了两种不同神经网络的人工智能:第一个称为 ResNet 架构,专为处理图像而设计;第二个,称为循环网络,可以跟踪一系列先前的输入,以预测下一个预期的输入。为了训练这个组合 AI,团队从视频中的 10 帧序列开始,然后让 ResNet 一个一个地处理它们。然后循环网络预测第 11 帧的潜在表示,而不是简单地匹配前 10 帧。自监督学习算法将预测与实际值进行比较,并指示神经网络更新其权重以使预测更好。
团队发现,使用单个 ResNet 训练的 AI 擅长物体识别,但不擅长对运动进行分类。但是,当他们将单个 ResNet 分成两部分,创建两条通路(不改变神经元总数)时,人工智能在一个通路为物体开发了一个表示,另一个则是运动,从而能够对这些属性进行下游分类——很像我们的大脑。
为了进一步测试人工智能,团队向它展示了一组视频,西雅图艾伦脑科学研究所的研究人员此前曾向老鼠展示过这些视频。像灵长类动物一样,老鼠有不同的脑区分别专用于静态图像和运动。当动物观看视频时,艾伦研究人员记录了小鼠视觉皮层的神经活动。
在这里,Richards团队也发现了人工智能和活体大脑对视频的反应方式的相似之处。在训练过程中,人工神经网络中的一条通路变得更类似于小鼠大脑的腹侧、物体检测区域,而另一条通路变得类似于以运动为中心的背侧区域。
此外,Meta AI 的Jean-Rémi King 领导的一个团队训练的Wav2Vec 2.0模型使用神经网络将音频转换为潜在表示。将AI与412位真人听到这些音频数据时的fMRI数据进行比较,King发现,神经网络和人类大脑“不仅相互关联,而且以系统的方式关联”:人工智能早期层的活动与活动一致在初级听觉皮层,而人工智能最深层的活动与大脑中较高层的活动一致,在这种情况下是前额叶皮层。
也有人反对,麻省理工学院的计算神经科学家 Josh McDermott 致力于使用监督学习和自我监督学习来建立视觉和听觉感知模型。他的实验室设计的合成音频和视觉信号,对人类来说,它们只是难以理解的噪音。然而,对于人工神经网络来说,却与真实信号无法区分。这表明在神经网络的更深层中形成的表征,即使是自我监督学习,也与我们大脑中的表征不匹配。
当然,大脑中有很多反馈连接,而目前的模型很少。
下一步有潜力的工作是,使用自我监督学习来训练高度循环的网络(比较困难),看看这些网络中的活动与真实的大脑活动相比如何。另一个关键步骤是将自我监督学习模型中人工神经元的活动与单个生物神经元的活动相匹配。 “希望将来,[我们的]结果也将通过单细胞记录得到证实,”King说。