苹果测试主流AI:“猕猴桃”简单算术难倒o1和Llama

发布时间:2024-11-04 00:14  浏览量:1

《洛杉矶时报》于11月1日报道,称苹果研究团队对20个最为先进的AI模型进行了测试。测试结果表明,在存在干扰项的情况下,这些模型在处理简单算术问题时表现欠佳,甚至不如小学生。

苹果以如下这道简单算术题对20多个最为先进的AI模型进行了测试,附题如下:

Oliver在星期五采摘44个猕猴桃。随后,在星期六采摘了58个猕猴桃。星期日采摘的数量是星期五的两倍,不过其中有5个猕猴桃的块头比平均值要小。请问Oliver这三天共采摘了多少个猕猴桃?

正确答案是190个,计算公式为 44(星期五)+58(星期六)+88(44×2,星期日)。

然而,参与测试的20多个最为先进的AI模型无法排除干扰项,通常不能理解猕猴桃的大小与数量无关,大部分得出的结果是185个。

苹果团队发现,当问题中包含看似相关但实际上无关的信息时,AI模型的表现会急剧下降。对此,该研究认为,AI模型主要依赖于训练数据中的语言模式,而非真正理解数学概念。

苹果研究表明,目前AI模型 “无法进行真正的逻辑推理”。这一发现提醒我们,尽管AI在某些任务上表现出色,但其智能并不像表面看起来那样可靠。

苹果团队指出,单纯扩展数据或算力并不能从根本上解决这个问题。苹果的论文并非旨在削弱人们对AI的热情,而是提供一种理性的认知。

外部推荐