你可能会认为这是讨论人工智能和就业未来,以及这些现代技术将如何影响我们工作的另一份报告,我们会因为这个被称为“ChatGPT”的新机器人而失去这些工作吗?首先,这实际上是关于人工智能和就业未来的另一份报告,但这份报告讨论了这种现代技术现在开始显现的积极作用,这直接把我们引向了第二件事,那就是这个“ChatGPT”机器人不会取代我们——至少不会在大多数工作中取代我们——但它将以前所未有的速度提高我们各个业务的生产力和绩效效率!
当然,这并不是报告作者的个人观点,而是已经开始出现的情况,如果你在过去几个月的工作中一直使用这个机器人,你可能已经亲身体验过了,但除了个人印象之外,证实此事的是一篇尚未经过同行评审的新研究论文,该论文由来自哈佛大学、华威大学和宾夕法尼亚大学商学院的社会学家团队发表。
这个团队与全球最著名的咨询公司之一波士顿咨询集团 7% 的顾问合作,这一比例相当于该公司内部有 758 名顾问,该团队在这些顾问的日常工作中选择了 18 项不同的任务,他们得出的结论是——准备好迎接惊讶——那些使用“GPT-4”版本聊天机器人的人,比那些不使用机器人咨询服务的同行表现更好,这种优势在各个方面以及团队衡量公司中这些顾问绩效的所有方法中都显而易见。
真正影响!
项研究的主要目标是测试生成人工智能对认知工作领域的真正影响,或者说对需要创造力、思维和思维运用领域的影响,这就是为什么他们选择与这方面最重要和最困难的领域之一合作,即商业咨询服务,研究团队对这些顾问进行了随机分组,并允许其中一部分在工作中使用“GPT-4”模型,而另一部分则不使用它,依靠相同的惯常工作方式。
接下来,所有参与实验的顾问都被要求为一家鞋业公司提供一套不同的服务,这已经是他们业务性质的一部分,这些任务多种多样,包括创造性任务,例如针对该产品未达到市场提出至少 10 种设计新鞋的想法,以及分析任务,例如根据消费者划分该领域的市场,此外,还包括撰写和撰写产品的营销任务。
完成任务并进行人工评估后,结果是,使用人工智能模型的人员在各项任务中表现都更好,例如,使用“ChatGPT”人员平均能够多完成12.2%的任务,完成任务的速度比未使用机器人的同行提高了 25.1%,并且取得的结果质量高出 40%
这个问题不仅限于咨询领域,最近还有其他研究尝试试图衡量这些模型对认知工作的影响,例如,一篇研究论文发现,程序员使用“GitHub”平台开发的“Copilot”工具,帮助他们编写代码并发现其中的错误,使他们的工作效率提高了 55.8%
在另一篇研究论文中,一组大学毕业生被要求编写战略文件和商业政策,其中一半的参与者使用ChatGPT,结果表明,使用ChatGPT显着提高了生产率,平均书写时间减少了 40%,最终产品的质量提高了 18% 。
我们的想法是,这些收益不是渐进的,而是立竿见影的,这可能会产生巨大的影响,从根本上改变我们的工作方式,令人兴奋的是,这些影响来自像ChatGPT这样的通用工具,而不是通过人工智能的专门工具,这意味着提高生产力的可能性不会仅限于有限和选定的行业,而是可以应用于许多不同的知识领域。
我们无法确认或否认这些数字是否高估或低估,但它们可以让我们对此事有一个概览,让我们把这些数字放在历史背景下,我们可以看看蒸汽动力,这是提高工作效率的最高技术之一,到 19 世纪末,蒸汽动力的使用使美国小工厂的生产率提高了约 25%,因此,数字上的差异很明显。
但研究团队还得出了另一个有趣的结果,那就是“ChatGPT” 提高了所有使用它的顾问的绩效率,实验开始时,每个人都进行了性能评估测试,在这次测试中得分最低的人在使用人工智能模型后取得了最高的性能,性能提升了43%,而那些在第一次测试中取得好成绩的人获得了 17% 的性能提升,这意味着几乎每个人在使用机器人后都获得了性能提升。
不确定界限
我们还不知道大型语言模型的全部功能,例如 GPT-4,也不知道使用它们并从中受益的最佳方法,甚至不知道它们何时会失败,仅仅是因为,正如研究团队所见,我们没有使用这些模型的手册或说明。
ChatGPT可能在某些任务上表现出色并且表现良好,而在其他任务中它完全失败了,我们甚至可能不知道它实际上失败了,如果你在工作中不经常使用这些模型,你将无法确定何时成功、何时失败,研究团队将其称为人工智能能力的“不稳定前沿”。
想象一下,你站在一座中世纪城堡外,周围是一堵巨大的城墙,城堡内有坚固的塔楼和城墙,而其他塔楼则朝向城堡的中心,因此,你可以看到更远的地方。嗯,这里的城墙就是人工智能的能力,距离城堡中心越远,任务就越困难,凡是在城墙范围之内的东西,都可以用这些模型来实现,凡是落在城墙范围之外的东西,就很难实现了。
合乎逻辑,但有一个问题:这堵墙根本不可见。因此,一些任务在逻辑上看起来与中心的距离相同,因此,对模型来说同样困难,但实际上位于这堵墙的不同侧面,有些你不希望它准确执行的任务,例如产生想法,它发现很容易执行,而它在其他任务上却失败了,例如简单的逻辑算术运算,你预计这些任务很容易,任何计算器都可以实现。
为了测试这个想法,该公司设计了另一个任务,并仔细选择它,以确保 GPT-4 模型不会得出正确的答案,也无法成功实施。矛盾的是,正如研究团队在研究中提到的那样,这并不容易,因为他们发现设计一项人类能够胜过该模型的单一任务确实非常困难,并且超出了其能力的极限。
但他们最终能够识别出一个利用生成式人工智能模型盲点的任务,这样它就会给出错误的答案,但看起来合乎逻辑且令人信服,并且需要专家来解决它,当然,对于人类来说幸运的是,顾问们在 84% 的时间内成功找到了正确的解决方案,而无需人工智能模型的帮助,但当他们使用该模型时,他们的表现更差,他们只能在 60% 到 70% 的情况下找到正确的解决方案。
过度依赖人工智能可能会适得其反,这就是哈佛商学院创新科学实验室发表的另一篇研究论文所称的“在方向盘上睡着了” (falling asleep at the wheel),这篇论文发现,那些完全依赖强大人工智能模型的人变得懒惰、被忽视,基于人类判断的技能也下降了,此外,他们的决策比那些使用能力较差的模型或没有向这些模型寻求任何帮助的人更糟糕。
当人工智能模型强大并提供有用的答案时,人类将没有动力去付出任何额外的脑力劳动,从而让人工智能为他们掌舵,人工智能仅仅只是一个辅助工具,不应该被赋予最终判断或商业决策的权力,这就是波士顿咨询集团的经历,因为这些顾问掉以轻心,相信了模型的答案,然后就陷入了“在方向盘上睡着了”的陷阱,如果你不确切知道人工智能模型的能力限制在哪里,那么,它的可靠性可能是骗人的。
你只需要在你的业务任务中使用人工智能模型就足够了,你就会开始看到那些弯曲边界的形状,然后,你将意识到该模型擅长哪些任务,以及它不擅长哪些任务。
改变正在发生!
从历史上看,在工作场所采用以生产力为中心的技术是一个缓慢而艰巨的过程,因为大公司和组织在投资该领域出现的任何新技术之前,甚至在投资之后都需要大量可靠的证据并在这项技术中采用,这项投资可能需要很多年的时间才能开始对员工生产力产生影响,因此,随着时间的推移,大规模、快速的破坏和变化可能会变得越来越少。
但目前的研究表明,生成式人工智能模型将很快改变我们的工作和企业的形态,我们在这里谈论的不是一项在五年、十年内改变世界的新技术,也不是需要企业大量投资和大量资源的新技术,而是现在已经开始、每个人都可以使用的技术,阅读本报告的每个人都可以使用顾问在工作中使用的相同技术,我们的想法是,这些工具的能力限制正在迅速扩大和变化,因此,我们必须时刻做好准备。
随着生产率的这些预期提高,每家公司现在都应该要求员工研究如何利用人工智能工具来提高工作绩效,员工自己应该努力并分配时间来学习如何使用这些工具来为自己带来好处,例如,人工智能如何帮助员工摆脱工作中无聊的日常任务,也许员工也可能开始考虑利用这些工具给他带来的额外时间。
总的来说,我们正处于人工智能革命的早期阶段,但改变真的开始发生了,没有说明书或指南,我们还没有完整或明确的答案,我们都从同一个起跑线上开始,秘诀就是从正在发生的事情中快速学习,并尽可能地从中受益。