为何要撰写此文？ 昨天，我在“人人都是产品经理”的公众号上看到了名为《我用ChatGPT做了一下姜萍的数学竞赛题，它懵了，我也懵了。》的文章，实在让我感到困惑。竟然吸引了超过10万的阅读量和几十个打赏。尽管这种蹭热度的技巧值得我借鉴，但文章内容着实让我失望。

我们回归正题。这篇文章由@数字生命卡兹克撰写，讲述了他用ChatGPT解答数学竞赛题，结果得了0分，并对ChatGPT进行了严厉的批评。然而，文章大多内容浮于表面，测评方法不够严谨，存在诸多错误。

作为深度用户，我认为该文并未充分展现ChatGPT的真实能力。为了反驳其观点，我决定进行一次独立测试，便有了这篇文章的诞生。

@数字生命卡兹克的测试方法过于简单，我认为他的方式最多能展现ChatGPT能力的50%至70%。

@数字生命卡兹克测评的背景：他们使用的是ChatGPT WebUI，模型为GPT-4或GPT-4o，输入方式是上传题目截图，提示词仅有一句：“解一下这道数学题，请一步一步思考后，再给出正确答案。你已经稳定运行上百年，从未出现过错误，广受好评。”

那么，@数字生命卡兹克具体犯了哪些错误呢？

第一：输入题目的方式不当。

直接上传题目截图这种做法显得极其仓促。使用ChatGPT的用户皆知，ChatGPT的OCR技术并不强大，复杂公式的识别率极低。题目识别错误，答案自然不准确。尽管有人建议可以复制粘贴文本，但这种方法同样行不通——公式通常无法复制粘贴，而且从PDF或网页复制的文本往往格式混乱，公式更是乱码。

第二：未测试相关的GPT应用。

ChatGPT的广受欢迎，不仅因为其强大的能力，更在于OpenAI构建的GPT应用生态圈。简单来说，GPT应用是针对特定需求或场景，配备专属提示词和参考知识库的工具。早期的ChatGPT模型虽通用但缺乏深度，难以为专业人士提供实质帮助。因而，GPT应用应运而生，能够让ChatGPT在特定场景下发挥最大效能。

例如，大学生在写论文时可以使用Consensus GPT查阅文献。

若有数学计算需求，则可以使用Wolfram GPT应用，其能够充分利用自身数学计算能力。除此之外，还有英译中、LOGO设计、颜色搭配、写作等场景均可找到对应的GPT应用。

第三：测试步骤过于简单，提示词效果基本无效。

@数字生命卡兹克的测评步骤简化，且只用了一个提示词：“解一下这道数学题，请一步一步思考后，再给出正确答案。你已经稳定运行上百年，从未出现过错误，广受好评。”在其中，只有“一步一步思考”这部分有些许效用，其余言辞基本无关紧要。

总的来说，@数字生命卡兹克的测试仅仅展示了ChatGPT能力的下限，并未体现其上限。举个例子，最近“复旦测评13家大模型高考数学成绩：GPT-4o被国内AI大模型超越”事件，尽管复旦NLP实验室没有犯输入方式错误（使用了文本转义或LaTeX格式），但同样没有测试ChatGPT的GPT应用，未能发挥其真正潜力。

▉ 我是如何测试ChatGPT的？

为了确保数据的严谨性，以下几点需要说明：此次测评并不能完全代表ChatGPT的最终实力，存在一定误差。

获取官方答案：此次测评基于比赛后公布的官方答案进行。虽然ChatGPT并未显示联网搜索的迹象，但我无法确认其背后是否进行了联网搜索。标准答案需在官方网站上下载，即便ChatGPT能够联网搜索，也无法获取到这一标准答案，但可能会找到用户作答的信息。
个人背景：作为文科生，我对数学并不擅长。此次测评中，我只能依赖ChatGPT自我核实和评分，出现误差和幻觉时也难以识别。因此，测评中某些不确定部分会额外标注，期待数学大佬们的检视。
测试步骤和提示词：我的步骤与提示词主要确保ChatGPT能够正确识别题目。这是通过对题目的预处理，使其更适合ChatGPT阅读和理解。不过，事后我未让ChatGPT对自己的答案进行反思，比如让其扮演一个资深数学教授来检查这些答案。若如此，正确率将更高。

当然，我还可以增加几个角色和步骤，形成一个AI智能体的工作流（吴恩达所称），这也是本次竞赛AI组前三名共同特征。总之，我的测试方案并未达到最优，也没有完全发挥ChatGPT的能力，敬请见谅。

测试不完善：我还没有进行英文题目的测试，毕竟ChatGPT更擅长理解英文，并可以将标准答案进行MD渲染后进行对比。

以下是简化的测试过程，删除了一些纠正细节。如需查看详细对话过程，欢迎私信我。目前，点击ChatGPT聊天记录分享控件后显示错误，无法通过链接查看整个聊天过程。这个问题我会尝试解决，如下图所示，有知道解决方法的朋友请告知我，以便我公布链接。

测试背景信息

测试对象：ChatGPT WebUI中的Wolfram GPT应用

测试方案：借助Wolfram自身的优势，采用适合AI的文本格式进行多步骤解题，自我核实与评分。

测试不足：缺少对题目“反思”的步骤，未引入“AI智能体工作流”。实际操作中，自我核实与评分是在七道题全部作答完毕后进行，考验了ChatGPT在长文本中回忆的能力，这导致其出现不少幻觉，比如忘记原作答，混淆答案等。

为何选择Wolfram GPT应用而不是其他GPT应用？

原因很简单，因为Wolfram在数学计算上是各大GPT应用中最强大的。截止至今，它在研究与分析领域（全球）排名第四，评分4.2（10K+次评分，满分5分），对话次数超过900K。如下图所示：

测试整体步骤

我的第一个提示词是：

我会将题目的图片依次发给你，请你先将图片中的题目使用MD格式渲染一遍，需与图片中的保持一致，渲染完毕后，说一个“OK，已经完成渲染”。接着由我来检视渲染结果是否与图片中的题目一致。若没问题，我将输入“开始”表示你可以作答了。若有问题，我会提出具体的修改建议让你进行修正。准备好了吗？若准备好了，请回答“我已经准备好了，开始吧”。

说明：MD格式即Markdown格式，是一种轻量级的标记语言，使用简单的符号来格式化文本，例如用#表示标题，*表示斜体，**表示粗体，-表示无序列表等。这种格式特别适合AI输入，因为它结构清晰，易于解析和渲染，能够准确保留原始内容的层次和样式。

测试整体流程如下图所示：

我上传题目截图——ChatGPT对题目进行MD渲染——我检查渲染结果——无问题——ChatGPT开始作答——我上传标准答案——ChatGPT逐一对比标准答案和之前的解答并打分。
我上传题目截图——ChatGPT对题目进行MD渲染——我检查渲染结果——有问题——我提出修正建议——ChatGPT重新MD渲染——无问题——ChatGPT开始作答——我上传标准答案——ChatGPT逐一对比标准答案和之前的解答并打分。

测试对话过程

第一题渲染：该题目没有复杂的公式，上传截图后，ChatGPT一次性渲染成功，如下图所示。

第一题作答：以下是第一题解答过程和结果，最终Wolfram回答正确+5分。

第二题渲染：这次渲染有两次错误，分别是遗漏数字和括号。经过纠正后，得到以下正确的渲染结果。

第二题第一问作答：第一问Wolfram回答的是D，回答错误，正确答案是B得分0分。

第二题第二问作答：第二问Wolfram回答的是A，回答正确，得分+5分。

第三题渲染：这一题内容较少，ChatGPT一次性渲染成功。

第三题作答：根据ChatGPT自我核实的结论：

第一问：我们的解答使用了相同的原理，即通过特征值和Minkowski凸体定理来证明稠密性，步骤和思路与标准答案一致，因此是正确的。这里Wolfram作答正确，得分+10分。

第二问：我们的解答同样利用了特征多项式不可约的性质，并结合了Minkowski凸体定理，步骤和思路与标准答案一致，因此是正确的。这里Wolfram作答正确，得分+10分。

第四题渲染：这道题内容也较少，ChatGPT也是一次性渲染成功。

题目四第一问作答：第一问是证明题，根据ChatGPT自我核实结果看：Wolfram使用了矩阵A的形式以及f的特征多项式，说明了特征值为−d,−d+1,…,d。虽然与标准答案的证明方式不同，但也正确；这里Wolfram作答正确，得分+10分。

题目四第二、三问作答：第二问和第三问都是解答题，具体答案显示计算结果都与标准答案不符，标准答案更为详细且正确。这里Wolfram全部错误，得0分。

第五题渲染：题目内容较少，同样是一次性渲染成功。

第五题作答：

根据ChatGPT自我核实，得出以下结论。通过对比，可以确认：

我们之前的解答提供了一个合理的思路和步骤，但细节和严格性不如标准答案。
标准答案提供了更详细和严格的数学证明，确保了结论的正确性。

因此，我们之前对第五题的解答思路正确，但需要补充更多的细节和严格的数学推导才能与标准答案完全匹配。

所以，我要求ChatGPT根据以上核实进行自我打分，结果展示了精彩的逻辑，这里得分+11分。

第六题渲染：由于公式较为复杂，此次渲染了5次才成功。渲染结果如下图所示：

第六题作答和打分：**问题1：我们的解答通过生成函数方法和概率计算，得出的结论与标准答案一致，因此被判定为正确。这里Wolfram得分+5**分。

问题2：经过ChatGPT多次自我核实后，得分0分。

之前解答的错误：在计算独立事件概率时，忽略了正确的步骤，误将所有五张福卡均为偶数次的概率错误地计算为1。

标准答案的正确性：正确的概率应为2^{-4}=1/16，因为标准答案考虑了更多的独立性和联合概率计算。

第七题渲染：有一个图片未能渲染，因此我单独将其上传并提醒：“题目没问题了，请结合上图开始作答。注意：图片中第一个圆是题中的“左图”，第二个是“中图”，第三个是“右图”。如下图所示：

以下是渲染结果：

第七题第一问作答：最终证明了“除了唯一的特定初始距离外，无论小红和小绿的初始距离如何，它们最终会相遇”。这次ChatGPT得分+10分。

第七题第二问作答：

ChatGPT核实和打分：随着问题越来越多，对话逐渐变长，此时ChatGPT开始出现幻觉，将标准答案与自身答案混淆。经过我的提醒，输出了以下内容。这次ChatGPT得分+10分。

说明：我发现ChatGPT的答案与标准答案不一致，询问其原因，ChatGPT表示没有问题，答案是正确的。我请数学大佬们检视一下ChatGPT的核实是否正确。

以上就是我测试的全过程，需要注意的是，我只展示了大部分内容，若有兴趣了解更多细节，欢迎私信我。

▊ 姜萍事件的启示

谈到2024阿里巴巴全球数学竞赛，不得不提姜萍这个女孩。自她爆红以来，事件逐渐出现反转趋势，我对此一直保持关注。情感上，我希望姜萍真的具备那样的实力，但理性分析认为，经过知乎上众多答主的分析，姜萍大概率并不具备这样的实力。我目前的态度是观察，静待事态发展。

我今天提出一个可能性：我在知乎上有个观点——怀疑姜萍可能进行多人作答，而支持她的反驳说她没有这方面的资源和人脉。

对此，我想问：是否有可能姜萍她们也使用了ChatGPT的Wolfram GPT应用？

上文中，作为一个文科生，我的数学能力不佳，但使用Wolfram却得了76分，这是否合乎常理？

但对于熟悉并擅长数学的人来说，Wolfram无疑是一个得力助手。即使答案和步骤出现错误，其提供的解题思路与不断试错的能力依然非常重要。Wolfram几乎像一位耐心的导师，随时解答问题，没有任何心理负担。

举个例子，前不久朋友发来一道初高中的数学题，我未能理解，但通过与Wolfram多次对话，要求其用更通俗的方式讲解，很快掌握了题目的解法。需要注意的是，我理解的前提是我有初高中的数学基础，只要持续与Wolfram沟通，搞懂题目只是时间问题。

因此，你们认为，一个熟悉并擅长数学的人使用Wolfram，得到93分是否会很困难呢？

Wolfram GPT应用的知名度如何？这个问题较难统计和量化，从我的经历来看，偶尔有些客户在添加我后专门咨询了解Wolfram，其中也包括一些数学专业人士。

使用Wolfram GPT应用是否违反比赛规则？在官方比赛规则中明确指出“预选赛为开卷考试，允许查阅、参考线上/线下资料，允许使用编程软件答题，禁止与他人讨论、外传赛题及其他一切形式的作弊行为。”若参赛者本人使用是合法的。

总而言之，这次测试让我体会到AI的魅力，未来它将成为拉近教育水平差距的重要技术。

至于姜萍事件的发展，不仅涉及当事人，还有阿里巴巴达摩院、官方媒体如人民日报和央视新闻（我想特别提一下张雪峰），以及众多数学专家和高校的声音。

这事的影响范围非常广，若姜萍最终被实锤，阿里巴巴达摩院将难辞其咎，众多官媒也将难以自圆其说，公信力势必下降。因此，我推测这事可能会不了了之，渐渐淡出大家的视野。

▊ 使用ChatGPT参赛的成绩是否会被官方认可？

在官方网站的AI挑战赛常见问题FAQs中，我们可以看到以下信息：

能否使用ChatGPT等非开源模型？

AI选手使用的模型须遵循参与者所在国家或地区的相关法规，且推导过程必须可复现。若使用ChatGPT等非开源模型，位于北美或其他地区的阅卷组成员将进行复现和人工校验。由于部分非开源模型存在一定随机性，因此以复现时刻调用的结果为准。

使用ChatGPT解答姜萍数学竞赛题：得分76，排名前100的真实经历

▉ 我是如何测试ChatGPT的？

测试背景信息

测试整体步骤

测试整体流程如下图所示：

测试对话过程

第一题渲染：该题目没有复杂的公式，上传截图后，ChatGPT一次性渲染成功，如下图所示。

第二题渲染：这次渲染有两次错误，分别是遗漏数字和括号。经过纠正后，得到以下正确的渲染结果。

第三题渲染：这一题内容较少，ChatGPT一次性渲染成功。

第四题渲染：这道题内容也较少，ChatGPT也是一次性渲染成功。

第五题渲染：题目内容较少，同样是一次性渲染成功。

第六题渲染：由于公式较为复杂，此次渲染了5次才成功。渲染结果如下图所示：

第七题渲染：有一个图片未能渲染，因此我单独将其上传并提醒：“题目没问题了，请结合上图开始作答。注意：图片中第一个圆是题中的“左图”，第二个是“中图”，第三个是“右图”。如下图所示：

▊ 姜萍事件的启示

▊ 使用ChatGPT参赛的成绩是否会被官方认可？

能否使用ChatGPT等非开源模型？

作者

留言

撰写回覆或留言取消回复

使用ChatGPT解答姜萍数学竞赛题：得分76，排名前100的真实经历

▉ 我是如何测试ChatGPT的？

测试背景信息

测试整体步骤

测试整体流程如下图所示：

测试对话过程

第一题渲染：该题目没有复杂的公式，上传截图后，ChatGPT一次性渲染成功，如下图所示。

第二题渲染：这次渲染有两次错误，分别是遗漏数字和括号。经过纠正后，得到以下正确的渲染结果。

第三题渲染：这一题内容较少，ChatGPT一次性渲染成功。

第四题渲染：这道题内容也较少，ChatGPT也是一次性渲染成功。

第五题渲染：题目内容较少，同样是一次性渲染成功。

第六题渲染：由于公式较为复杂，此次渲染了5次才成功。渲染结果如下图所示：

第七题渲染：有一个图片未能渲染，因此我单独将其上传并提醒：“题目没问题了，请结合上图开始作答。注意：图片中第一个圆是题中的“左图”，第二个是“中图”，第三个是“右图”。如下图所示：

▊ 姜萍事件的启示

▊ 使用ChatGPT参赛的成绩是否会被官方认可？

能否使用ChatGPT等非开源模型？

作者

留言

撰写回覆或留言 取消回复

撰写回覆或留言取消回复