分不清9.9与9.11谁大？大模型数学能力堪忧业内：或因相关问题非各厂商训练重点

13.11%和13.8%哪个大？9.9和9.11哪个大？

两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。此外，此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，主流大模型被要求计算企业营业收入复合增长率时，没有一家大模型计算出正确答案。

7月17日，有大模型企业人士向记者表示，对于大模型而言，这不是很难解决的技术难点，只要喂了这方面的数据，就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

大模型比大小“翻车”？

由综艺节目《歌手2024》排名引发的热议蔓延到大模型领域，也成了一场针对大模型数学能力的小测。

在《每日经济新闻》记者7月17日的测试中，对于13.11%与13.8%谁大的问题，除了智谱清言外，文心一言、通义千问、kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。

大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示，在比较13.11%和13.8%时，13.11%是更大的数值。这是因为当比较两个百分数时，我们首先比较整数部分，如果它们相同，则比较小数部分。在这里，两个数的整数部分都是13，但13.11的小数部分（11）大于13.8的小数部分（8），因此13.11%大于13.8%。

从推理过程判断，可能由于小数点后数位不同，大模型在比较过程中产生了幻觉。经过两轮提问后，智谱清言给出了正确回答。

当记者把问题换成“9.9与9.11谁大”，零一万物的万知大模型等同样在一开始给出错误答案，当记者进一步追问“9.11减9.9等于多少”，甚至有大模型给出“0.21”的答案。

万知的推理过程稍显混乱：在比较9.9和9.11时，由于整数部分都是9，所以比较小数点后的第一位数字。9.9的小数点后第一位是9，而9.11的小数点后第一位是1。由于9小于10，所以在比较小数点后第二位数字时，9.9的小数点后第二位是0（隐含的），而9.11的小数点后第二位是1。因此，9.9的小数点后第二位数字（隐含的0）小于9.11的小数点后第二位数字（1），所以9.9小于9.11。

随后，记者向大模型提问：为何会出现有大模型认为13.11大于13.8的情况？

ChatGPT给出的回答显示，出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括：数值理解错误，有时系统可能会误解数字的小数点位置；字符串比较，如果直接按字符串比较，可能会出现错误。因为字符串比较是按字符顺序逐一比较的，而不是按数值比较；代码实现错误，在编程中，可能存在比较逻辑或转换错误。

文心一言给出的解答则是，训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面，即大模型在训练过程中，可能接触到了大量包含数字的数据，但这些数据并不总是以比较大小为目的。例如，数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。

另一方面，可能由于大模型在处理输入文本时，将数字视为字符序列，而不是具有数值意义的实体。因此，在比较数字大小时，模型可能没有正确地将其转换为数值进行比较。另外，模型在处理小数时可能存在困难，特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

业内人士：非厂商训练重点所致

7月17日，有大模型企业人士在接受记者电话采访时表示，对于大模型而言，这不是很难解决的技术难点，只要喂了这方面的数据，其实就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

这也并非大模型的数学能力首次受到关注。

6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中，当被要求计算营业收入复合增长率时，没有一家大模型计算出正确答案。

综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一（同比增长率计算）和任务二（毛利率计算）中均获得了较高的分数，但在任务三（复合增长率计算）中未能给出正确答案。

幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分紧随其后。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式。

零一万物Yi-Large的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定，在计算题得分以29.4分领先。此外，该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

分不清9.9与9.11谁大？大模型数学能力堪忧业内：或因相关问题非各厂商训练重点

大模型比大小“翻车”？

业内人士：非厂商训练重点所致

关联专题

版权声明

分不清9.9与9.11谁大？大模型数学能力堪忧 业内：或因相关问题非各厂商训练重点

大模型比大小“翻车”？

业内人士：非厂商训练重点所致

关联专题

版权声明

分不清9.9与9.11谁大？大模型数学能力堪忧业内：或因相关问题非各厂商训练重点