什么是语义通信？

行业动态

什么是语义通信？

2023-08-22 16:24

大家都知道，自从信息革命爆发以来，我们的信息量（数据量）就在不断膨胀。

文字、图片、音频、视频……越来越多的数据在不断产生，不仅占据着我们的硬盘空间，也充斥着整个通信网络。

面对如此巨大的流量增长，人类现有的通信技术手段，已经疲于招架。面对如此巨大的流量增长，人类现有的通信技术手段，已经疲于招架。后来，1949年，他又发表了《Communication in the Presence of Noise（噪声下的通信）》，阐明了通信的基本问题，给出了通信系统的模型，以及著名的香农公式。从那之后，我们就一直在信息论和香农公式的基础上，进行通信技术的研究。经过70多年的积累，我们的通信技术已经无限接近于香农极限。以huffman编码、算法编码为代表的信源编码技术，把信源数据压缩到了极致。而以LDPC码、极化码为代表的信道编码技术，把信道也利用到了极致。

那接下来，该怎么办呢？面对万物智联时代的数据洪流，我们的优质频谱资源越来越少，硬件和能耗成本越来越高，该如何应对？

█ 通信的三个层级

一直以来，我们在通信技术上所做的努力，似乎都在做一件事情——把携带信息的符号，完整、准确、快速地从信源发送到信宿。这就好像一个勤劳的快递员，他的唯一使命，就是把寄件人交给他的货物，完好无损且快速地，送到收件人的手上。

那么，当货物实在太多，快递员真的已经拿不动的时候，他会不会蹦出这么一个念头——这些货物，真的有必要全送吗？

大家或者也会有这样的经历：你想在网上搜索一部好看的电影。你挑了一部，花了好久的时间，终于下载完成，结果，你打开一看，根本不是自己喜欢的。于是，你就只能删掉它。网络辛苦完成的数据传输工作，没有发挥价值。你的时间，也浪费了。是的，在这里，我们就会想到——通信的终极奥义，究竟是什么？

事实上，早在现代通信理论奠基之际，先贤们就考虑到了这个问题。1938年，美国哲学家查尔斯·莫里斯（Charles William Morris）提出了符号论。他指出，符号应该包括了语法-语义-语用三元概念。克劳德·香农提出信息论后，和沃伦·韦弗（Warren Weaver）一起对自己的理论和模型进行延展完善。他们合著了一本书，名字仍然叫《通信的数学理论》。他们俩当时就意识到，语义在通信中的重要性。于是，他们提出了通信的3个级别，即Level A/B/C。

Level A：语法通信，解决技术问题，即通信符号如何保证正确传输；

Level B：语义通信，解决语义问题，即发送的符号如何传递确切的含义；

Level C：语用通信，解决有效性问题，即接收的含义如何以期望的方式影响系统行为。

长期以来，经典信息论局限在语法信息传输层次，即Level A。也就是说，我们一直在研究怎么把数据传过去。如今，在传统通信已经进入瓶颈的情况下，我们就可以考虑一下——是不是可以在语义通信上，寻找突破点。

█ 语义通信的特点

语义通信（Semantic Communication），是以任务为主体，“先理解，后传输”的通信方式。它会对原始信号进行有选择的特征提取、压缩和传输，然后再利用语义层面信息进行通信。如果我们把传统通信看成是形式通信的话，那么，语义通信就是“达意通信”、“内容通信”。换句话说：“不能傻干活，要多动脑子。”通信的真正目的是什么，是让对方了解自己的意思。说话，只是一种表达方式。话的本身，也是为了表达意思。那么，就没有必要紧抓着这句话不放，而是看如何更高效地传达意思。从学术上来说，降低接收者对信息的不确定性，或者说，使接收到的信息熵减少至0，让接收者正确理解发送者的信息内容，就是“达意”通信。大家平时沟通交流，也会注意到：对于陌生人，你需要千叮咛万嘱咐，确保自己的意思被理解。而对于你很亲近的人，有时候，一个眼神就足够了。不是吗？

语义通信和传统信源编码的区别在哪里呢？传统信源编码是对信息本身的压缩，它寻找数据的规律，通过算法进行数据精简。而语义通信，重在“理解和消化”，讲究的是“智能”。

█ 语义通信系统的架构

语义通信可以显著降低数据流量，提高通信效率。那么，它究竟是如何工作的呢？语义通信目前还处于早期研究阶段，不同的研究团队，有不同的语义通信架构设计。而且，针对不同类型的通信（文本通信、图像通信、音视频通信等），不同目的的通信（是否有特定任务），也会有不同的语义通信模型和架构。早期的一种模型，是在传统经典通信系统上叠加语义通信。

在发送端，信源产生的信息首先送入语义提取模块，产生语义表征序列。接着，送入语义信源编码器，对语义特征压缩编码。然后，送入信道编码器。最后，进入传输信道。在接收端，先信道译码，再语义译码。得到的语义表征序列，送入语义恢复与重建模块，最终得到信源数据。中间那段信道部分，就是传统经典通信来实现。另一种现在比较有代表的模型，是信源信道联合编码。这种方式，更有整体性，全盘思考。

大家能看出来，相比传统通信，语义通信多了一个知识库。其实，有的模型并没有知识库，直接在语义编码器上硬刚。更多的系统模型，是基于知识库的。系统模型的性能和准确率，高度依赖于知识库。知识库就有点像密码本。如果两端的知识库不一致，那么，语义通信是无法正常工作的。知识库又不像密码本那样，内容固定且形式单一。知识库由很多的语义知识图谱组成，分为多个层级，可以对现实世界中的实体、概念、属性以及它们之间的关系进行建模。基于知识库，进行语义理解，就需要前面我们所说的“智能”。

谁最适合干这个活？当然是AI人工智能。