ChatGPT 通过了著名的“图灵测试”

自 1950 年首次提出以来,通过“图灵测试”一直被视为人工智能的最高目标之一。

它由计算机先驱艾伦·图灵(Alan Turing)提出,声称如果人们无法区分自己是在与人还是机器交谈,那么人工智能就应该被认为是真正智能的。

但现在,研究人员声称 ChatGPT 已成为第一个通过这项著名的人类智力测试的人工智能。

在一篇预印本论文中,加州大学圣地亚哥分校的认知科学家认为,ChatGPT-4 可以在超过一半的时间欺骗人类测试对象。

然而,研究人员表示,这可能更多地揭示了图灵测试,而不是现代人工智能的智能。

什么是图灵测试?

图灵测试是由第二次世界大战的密码破译者艾伦·图灵于 1950 年提出的。他预测,有一天,计算机将通过编程获得与人类智力相媲美的能力。

他提出了这项测试,该测试将确定计算机是否具有思考能力:一个被称为询问者的人与另一个人和一台计算机进行基于文本的对话,并且必须确定哪个是哪个。

如果他们无法确定,则计算机已通过测试。图灵认为这是对计算机智能的终极测试。

他想象人类参与者会坐在屏幕前,通过纯文本界面与人类或计算机交谈。图灵认为,如果无法在广泛的可能主题上将计算机与人类区分开来,我们就不得不承认它与人类一样聪明。

为了重复这一著名的测试,研究人员要求 500 名参与者与 4 个不同的智能体进行对话:3 个人工智能和一个人类。

这些 AI 包括 ChatGPT-4、ChatGPT-3.5 以及 1960 年代的聊天程序 ELIZA。

参与者被安排在聊天室中,并被告知他们要么需要让对方相信他们是人类,要么弄清楚他们在和谁说话。

然后,参与者聊天五分钟,然后被问到他们是否认为自己是在与计算机或人类交谈,他们为什么这么想,以及他们有多自信。

Participants were put in a chatroom with a human or a computer and were asked to guess who they were speaking to


虽然过时的 ELIZA 骗过参与者的几率只有 22%,但 ChatGPT-3.5 在 50% 的对话中未被发现。更高级的迭代 ChatGPT-4 表现甚至更好,参与者有 54% 的时间将其标记为人类。这意味着 ChatGPT-4 能够比偶然情况更频繁地冒充人类。

虽然这个比例看起来很低,但值得注意的是,参与者仅在 67% 的对话中正确识别出人类。

研究人员写道,这些结果“首次提供了强有力的实证证明,任何人工系统都可以通过交互式两人图灵测试”。

值得注意的是,这是一篇预印本论文,这意味着它目前正在等待同行评审,因此必须谨慎对待结果。

然而,如果结果得到支持,这将是第一个强有力的证据,证明人工智能已经通过了艾伦·图灵所设想的图灵测试。

电气和电子工程师协会 (IEEE) 的人工智能研究员内尔·沃森 (Nell Watson) 告诉《Live Science》:“机器可以像人类一样,将事情的事后合理理由混为一谈,混杂在一起。

“所有这些元素意味着人工智能系统中表现出了类似人类的弱点和怪癖,这使得它们比以前的方法更像人类,而以前的方法只不过是一系列预设的反应。”

研究人员还指出,公众对人工智能看法的转变可能改变了我们对图灵测试的预期结果。

他们写道:“乍一看,人类通过率之低可能令人惊讶。“如果测试衡量的是人类相似度,人类不应该是100%吗?”

在 1950 年,这个假设完全有道理,因为在一个没有先进人工智能的世界里,我们会假设任何听起来像人类的东西都是人类。

但随着公众对人工智能的认识不断增强,我们对人工智能的信心不断增强,我们更有可能将人类误认为是人工智能。

这可能意味着人类和 ChatGPT-4 的通过率之间的微小差距作为计算机智能的证据更加引人注目。

今年 2 月,斯坦福大学的研究人员发现 ChatGPT 可以通过图灵测试的一个版本,其中人工智能回答了广泛使用的性格测试。

尽管这些研究人员发现 ChatGPT-4 的结果与人类没有区别,但这篇最新论文是人工智能首次通过基于对话的强大的 2 人图灵测试。

然而,研究人员也承认,对图灵测试存在长期且有效的批评。

研究人员指出,“风格和社会情感因素在通过图灵测试方面比传统的智力概念发挥着更大的作用”。

审讯者更有可能将风格、个性和语气作为将对话伙伴识别为机器人的理由,而不是任何与智力相关的因素。

同样,识别机器人最成功的策略之一是询问人类的经验,这种方法在 75% 的情况下有效。

这表明图灵测试并不能真正证明一个系统是智能的,而是衡量其模仿或欺骗人类的能力。研究人员最多认为这为 ChatGPT 具有智能的说法提供了“概率”支持。

但这并不意味着图灵测试毫无价值,因为研究人员指出,模仿人类的能力将产生巨大的经济和社会后果。

研究人员表示,足够令人信服的人工智能可能“扮演具有经济价值、面向客户的角色,而这些角色历来都是人类工作者的专属,误导公众或他们自己的人类操作员,并削弱社会对真实人类互动的信任”。

最终,图灵测试可能只是我们在开发人工智能系统时需要评估的一部分。

沃森女士说:“原始智力只能到此为止。”真正重要的是足够聪明,能够理解情况、他人的技能,并具有将这些元素整合在一起的同理心。

“能力只是人工智能价值的一小部分——它们理解他人价值观、偏好和界限的能力也至关重要。”



分类:科技

标签:,

发表评论