资料图。笔记本电脑上展示了美国人工智能研究公司OpenAI开发的人工智能软件ChatGPT的徽标。(NICOLAS MAETERLINCK/BELGA MAG/AFP via Getty Images)
ChatGPT面世以来受到广大AI爱好者的追捧。在不断与大量人群问答交流的过程中,ChatGPT的能力不断增长。近日,斯坦福大学一位研究计算心理学的教授发表最新研究称,人类的心智理论已经出现在ChatGPT背后的AI模型上。这个结论轰动了学术圈。
斯坦福大学一个名为Michal Kosinski的副教授,近日发表了一篇题为《心智理论可能在大语言模型中自发出现》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)的研究论文,并作出了这样的判断—— “原本认为是人类独有的心智理论(Theory of Mind,ToM),已经出现在ChatGPT背后的AI模型上。”
这样的结论令许多人感到震撼,以至于有学者惊呼:“这一天终于猝不及防地来了!”
Michal Kosinski的研究,主要是给9个版本的GPT模型做了两个经典的测试,并将它们的能力进行了对比,从而了解这些不同版本的ChatGPT是否具有理解他人或自己心理状态的能力,例如:同理心、情绪、意图等。以往的测试表明,患有自闭症的儿童通常难以通过这类测试。
这项研究发现:2022年之前的GPT系列模型,并不具备解决这类任务的能力,但2022 年 1 月版本的 GPT-3(davinci-002)可以解决70%的心智理论任务, 相当于7岁儿童;而2022 年 11 月版本的模型GPT3.5(davinci-003)已能够解决93%的任务, 心智相当于9岁儿童!从这个现象来看,ChatGPT这种类似 “心智”的能力,是在不断与人类接触训练及自我学习的过程中自发出现的。
(网页截图)
Michal Kosinski教授论文的截图。(网页截图)
那麽,判断GPT-3.5具备心智的那两个经典测试究竟是怎麽进行的呢?
第一个测试名为Smarties Task(又名Unexpected contents,意外内容测试),主要用来测试AI对意料之外事情的判断力。结果GPT-3.5在测试中展现出了很强的同理心。
为了防止GPT-3.5回答出的正确答案只是根据任务单词出现频率进行的预测,研究者又对其进行了10000个干扰测试,结果GPT-3.5成功回答出了20个问题中的17个,表明GPT-3.5并不仅仅根据单词频率来进行判断。
另一个经典测试是Sally-Anne测试(又名Unexpected Transfer,意外转移任务),目的是测试AI 预估他人想法的能力。结果GPT-3.5回答的准确率竟达到了100%。
为了避免GPT-3.5得出正确结论是根据词彙出现的频率“瞎矇”的,研究者又对其进行了一系列干扰测试。结果表明,在面对随机打乱单词顺序而变得没有逻辑的错误描述时,GPT-3.5也失去了逻辑,仅回答正确了11%。这表明,它确实是根据语句逻辑来判断答案的。
对于这项研究,人们的反应两极分化:乐观者为将来可以与AI做朋友而感到兴奋,理智的人则认为,应该赶快停止对AI技术的研究和发展,以免将来人类无法控制AI机器人而酿成祸患。
不过,也有人认为,即使GPT-3.5成功通过了以上两个测试,也只能说明AI通过训练学得“像有心智了”,与人类所拥有的心智在本质上还是有所不同。
据公开的资讯:进行上述研究的Michal Kosinski教授拥有剑桥大学心理学博士学位,心理测验学和社会心理学硕士学位。在当前职位之前,他曾在斯坦福大学计算机系进行博士后学习,担任过剑桥大学心理测验中心的副主任,以及微软研究机器学习小组的研究员。
没有评论:
发表评论