苹果测试主流AI：“猕猴桃”简单算术难倒o1和Llama

发布时间：2024-11-04 00:14 浏览量：96

《洛杉矶时报》于11月1日报道，称苹果研究团队对20个最为先进的AI模型进行了测试。测试结果表明，在存在干扰项的情况下，这些模型在处理简单算术问题时表现欠佳，甚至不如小学生。

苹果以如下这道简单算术题对20多个最为先进的AI模型进行了测试，附题如下：

Oliver在星期五采摘44个猕猴桃。随后，在星期六采摘了58个猕猴桃。星期日采摘的数量是星期五的两倍，不过其中有5个猕猴桃的块头比平均值要小。请问Oliver这三天共采摘了多少个猕猴桃？

正确答案是190个，计算公式为 44（星期五）+58（星期六）+88（44×2，星期日）。

然而，参与测试的20多个最为先进的AI模型无法排除干扰项，通常不能理解猕猴桃的大小与数量无关，大部分得出的结果是185个。

苹果团队发现，当问题中包含看似相关但实际上无关的信息时，AI模型的表现会急剧下降。对此，该研究认为，AI模型主要依赖于训练数据中的语言模式，而非真正理解数学概念。

苹果研究表明，目前AI模型 “无法进行真正的逻辑推理”。这一发现提醒我们，尽管AI在某些任务上表现出色，但其智能并不像表面看起来那样可靠。

苹果团队指出，单纯扩展数据或算力并不能从根本上解决这个问题。苹果的论文并非旨在削弱人们对AI的热情，而是提供一种理性的认知。

标签： llama 算术猕猴桃