打开APP

Nature子刊:ChatGPT和LLaMA2,哪个“情商”高?

来源:生物世界 2024-05-23 09:40

研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。

德国汉堡-埃彭多夫大学医学中心的研究人员在 Nature Human Behaviour 期刊发表了题为:Testing theory of mind in large language models and humans 的研究论文。

该研究显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)——的任务中,两个大语言模型GPT-4和LLaMA2在特定情况下的表现与人类相似,甚至更好。

图片

在这项研究中,研究团队选择了能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼。他们随后比较了1907人与两个热门大语言模型(OpenAI开发的GPT-4、Meta公司开发的LLaMA2)完成任务的能力。

图片

研究团队发现,GPT-4模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而LLaMA2的表现逊于人类水平。在识别失礼方面,LLaMA2强于人类但GPT-4表现不佳。

研究团队指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT-4看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。

研究团队提醒道,大语言模型在心智理论任务上的表现堪比人类不等于它们具有人类般的能力,也不意味着它们能掌握心智理论。但他们也指出,这些结果是未来研究的重要基础,并建议进一步研究大语言模型在心理推断上的表现会如何影响个体在人机交互中的认知。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->