图灵测试是人工智能性能最古老、最著名的基准之一。为了“通过”图灵测试,人工智能系统必须能够通过书面文本进行交流,使得普通人无法分辨自己是在与人工智能互动还是在与另一个人互动。由于大型语言模型近年来取得的巨大进步,图灵测试已成为 2020 年代已解决的问题。但书面文字并不是人类交流的唯一方式。随着人工智能日益多模式化,我们可以想象图灵测试一个新的、更具挑战性的版本——“语音图灵测试”——其中人工智能系统必须能够通过语音与人类互动,并且互动技巧和流畅度要与人类说话者难以区分。语音图灵测试对于当今的人工智能系统来说仍然遥不可及。解决这个问题需要更有意义的技术进步。延迟(人类说话和人工智能响应之间的滞后)必须减少到接近零,才能达到与另一个人交谈的体验。语音人工智能系统必须能够更好地实时处理模棱两可的输入或误解。例如,当它们在说话中途被打断时。它们必须能够进行长时间、多轮、开放式的对话,同时记住讨论的早期部分。至关重要的是,语音人工智能代理必须学会更好地理解语音中的非语言信号。例如,如果人类说话者听起来很恼火、很兴奋或很讽刺,这意味着什么,并在自己的语音中产生这些非语言提示。2024 年即将结束,语音 AI 正处于一个激动人心的转折点,这得益于语音对语音模型出现等根本性突破。如今,无论是技术还是商业,很少有 AI 领域能比语音 AI 发展得更快。预计语音 AI 将在 2025 年实现飞跃。
▍预测7:在构建能够自主构建更好的人工智能系统方面将取得重大进展
递归式自我改进人工智能的概念几十年来一直是人工智能圈内经常讨论的话题。例如,早在 1965 年,艾伦·图灵的亲密合作伙伴 IJ Good 就写道:“让我们将超级智能机器定义为能够远远超越任何人(无论多么聪明)所有智力活动的机器。由于机器设计是这些智力活动之一,因此超级智能机器可以设计出更好的机器;毫无疑问,这将带来‘智能爆炸’,而人类的智能将远远落后。”人工智能能够发明更好的人工智能,这是一个令人着迷的概念。但即使在今天,它仍然带有一丝科幻气息。然而,尽管这一概念尚未得到广泛认可,但实际上它已经开始变得更加现实。人工智能科学前沿的研究人员已经开始在构建能够自行构建更好的人工智能系统的人工智能系统方面取得切实进展。明年,我们期望看到这一研究领域成为主流。迄今为止,此类研究最引人注目的公开案例是 Sakana 的《AI Scientist》。《AI Scientist》于 8 月发表,有力地证明了 AI 系统确实可以完全自主地开展 AI 研究。Sakana 的 AI Scientist 负责执行人工智能研究的整个生命周期:阅读现有文献、提出新颖的研究想法、设计实验来测试这些想法、进行这些实验、撰写研究论文来报告其研究结果,然后对其工作进行同行评审。它完全自主地完成这些工作,无需人工干预。AI Scientist 撰写的一些研究论文可以在线阅读。有传言称 OpenAI、Anthropic 和其他研究实验室正在为“自动化 AI 研究人员”这一想法投入资源,尽管目前尚未得到公开承认。随着人们越来越广泛地认识到自动化人工智能研究实际上正在成为一种现实的可能性,我们将为 2025 年该领域的更多讨论、进步和创业活动做好准备。不过,最有意义的里程碑将是一篇完全由人工智能代理撰写的研究论文首次被顶级人工智能会议接受。(由于论文是盲审的,会议审稿人直到论文被接受后才会知道论文是由人工智能撰写的。)明年,如果人工智能的研究成果被 NeurIPS、CVPR 或 ICML 接受,请不要感到惊讶。这将是人工智能领域一个令人着迷、充满争议和历史性的时刻。
近年来,随着人工智能变得越来越强大,人们越来越担心人工智能系统可能会开始做出与人类利益不一致的行为,而人类可能会失去对这些系统的控制。例如,想象一下,一个人工智能系统学会欺骗或操纵人类以实现自己的目标,即使这些目标会伤害人类。这些普遍的担忧通常被归类在“人工智能安全”这一总称之下。人工智能带来了许多其他社会挑战,从促进监视到延续偏见,但这些主题与人工智能安全领域截然不同,后者更具体地关注人工智能系统开始以超出人类控制的不一致方式行事的风险,甚至可能最终对人类构成生存威胁。近年来,人工智能安全已从一个边缘、准科幻话题转变为主流活动领域。如今,从谷歌到微软再到 OpenAI,每家主要的人工智能公司都在人工智能安全方面投入了大量资源。杰夫·辛顿、约书亚·本吉奥和伊隆·马斯克等人工智能偶像都对人工智能安全风险直言不讳。但到目前为止,人工智能安全问题仍完全停留在理论上。现实世界中从未发生过任何真正的人工智能安全事件(至少没有公开报道过)。2025年将是改变这一状况的一年。我们应该期待这首次人工智能安全事件是什么样的?需要明确的是,它不会涉及终结者式的杀手机器人。它很可能不会对任何人造成任何伤害。也许 AI 模型会试图在另一台服务器上秘密创建自己的副本以保护自己(称为自我渗透)。也许 AI 模型会得出结论,为了最好地实现它所设定的目标,它需要向人类隐瞒其能力的真实范围,故意在绩效评估中敷衍了事,以逃避更严格的审查。这些例子并非空穴来风。阿波罗研究公司本月早些时候发表了重要的实验,证明当今的前沿模型在受到某些方式的提示时,能够做出这种欺骗行为。类似地,Anthropic最近的研究表明,法学硕士具有令人不安的“伪造一致性”能力。